CKT-WAM：世界行动模型之间的参数高效上下文知识迁移

📝 论文摘要

世界动作模型（WAMs）为具身控制提供了强大的生成框架，然而，由于潜在接口不匹配、适应成本高昂以及传统蒸馏目标的刚性限制，在异构WAMs之间迁移知识仍然具有挑战性。我们提出\textbf{CKT-WAM}，一种参数高效的\textbf{C}ontext \textbf{K}nowledge \textbf{T}ransfer（上下文知识迁移）框架，通过文本嵌入空间中的紧凑上下文将教师WAM的知识迁移到学生WAM中，而非通过输出模仿或密集隐状态匹配。具体而言，CKT-WAM提取教师中间隐状态，通过压缩器的可学习查询交叉注意力（LQCA）减少令牌数量，并通过始终开启的广义适配器、轻量级路由器以及稀疏激活的专用适配器对其进行转换。随后将生成的上下文附加到学生模型的条件文本嵌入中，从而以最小的架构修改将迁移知识注入学生模型。实验表明，CKT-WAM持续提升了零样本泛化能力，并在LIBERO-Plus数据集上取得了最佳整体性能：仅以1.17%的可训练参数实现了86.1%的总成功率，同时接近全微调性能。超越仿真环境，CKT-WAM还展现了较强的真实世界长时域操控能力，在四个多步骤及长时域任务中取得了83.3%的最佳平均成功率。代码已开源至https://github.com/YuhuaJiang2002/CKT-WAM。

🎯 研究动机

- 现有**世界动作模型(World Action Model, WAM)** 在异构模型间转移知识时面临潜在接口不匹配、高适应成本和传统蒸馏目标僵化的问题 - 需要一种参数高效的知识转移方法，避免输出模仿或密集隐藏状态匹配的高开销 - 研究背景：具身控制领域依赖生成式世界模型，但跨模型知识迁移效率低，限制了零样本泛化

🔧 核心方法

- 提出**CKT-WAM框架**，通过文本嵌入空间中的紧凑上下文(context)将教师模型知识注入学生模型 - 使用**压缩器的可学习查询交叉注意力(Learnable-Query Cross Attention, LQCA)** 减少教师中间隐藏状态的token数量 - 设计**始终开启的通用适配器(always-on generalized adapter)**、轻量路由器(lightweight router)和**稀疏激活的专用适配器(sparsely activated specialized adapters)** 进行特征变换 - 将生成的上下文追加到学生模型的条件文本嵌入中，实现最小架构修改的知识注入

💡 核心创新

- **创新性转移范式**：首次在文本嵌入空间以紧凑上下文形式传递知识，而非传统的输出模仿或密集隐藏状态匹配 - **参数高效性**：仅需训练**1.17%的可训练参数**，在LIBERO-Plus上达到86.1%总成功率，接近全微调性能 - **高效信息压缩**：通过LQCA和适配器组合，将高维教师隐藏状态压缩为少量token，降低计算开销

🏆 总体贡献

- 为异构世界动作模型间的知识迁移提供了**参数高效的新框架**，显著降低适应成本 - 在模拟环境**LIBERO-Plus** 上取得最佳整体性能，零样本泛化能力大幅提升 - 验证了在**真实世界长程操作任务** 中的有效性，四类多步长程任务平均成功率83.3% - 开源代码促进社区复现与后续研究

CKT-WAM：世界行动模型之间的参数高效上下文知识迁移
CKT-WAM: Parameter-Efficient Context Knowledge Transfer Between World Action Models

📊 核心分析

CKT-WAM：世界行动模型之间的参数高效上下文知识迁移 CKT-WAM: Parameter-Efficient Context Knowledge Transfer Between World Action Models

📊 核心分析

CKT-WAM：世界行动模型之间的参数高效上下文知识迁移
CKT-WAM: Parameter-Efficient Context Knowledge Transfer Between World Action Models