- 现有**世界动作模型(World Action Model, WAM)** 在异构模型间转移知识时面临潜在接口不匹配、高适应成本和传统蒸馏目标僵化的问题
- 需要一种参数高效的知识转移方法,避免输出模仿或密集隐藏状态匹配的高开销
- 研究背景:具身控制领域依赖生成式世界模型,但跨模型知识迁移效率低,限制了零样本泛化
- 提出**CKT-WAM框架**,通过文本嵌入空间中的紧凑上下文(context)将教师模型知识注入学生模型
- 使用**压缩器的可学习查询交叉注意力(Learnable-Query Cross Attention, LQCA)** 减少教师中间隐藏状态的token数量
- 设计**始终开启的通用适配器(always-on generalized adapter)**、轻量路由器(lightweight router)和**稀疏激活的专用适配器(sparsely activated specialized adapters)** 进行特征变换
- 将生成的上下文追加到学生模型的条件文本嵌入中,实现最小架构修改的知识注入
- **创新性转移范式**:首次在文本嵌入空间以紧凑上下文形式传递知识,而非传统的输出模仿或密集隐藏状态匹配
- **参数高效性**:仅需训练**1.17%的可训练参数**,在LIBERO-Plus上达到86.1%总成功率,接近全微调性能
- **高效信息压缩**:通过LQCA和适配器组合,将高维教师隐藏状态压缩为少量token,降低计算开销
- 为异构世界动作模型间的知识迁移提供了**参数高效的新框架**,显著降低适应成本
- 在模拟环境**LIBERO-Plus** 上取得最佳整体性能,零样本泛化能力大幅提升
- 验证了在**真实世界长程操作任务** 中的有效性,四类多步长程任务平均成功率83.3%
- 开源代码促进社区复现与后续研究