← 返回论文列表

CKT-WAM:世界行动模型之间的参数高效上下文知识迁移
CKT-WAM: Parameter-Efficient Context Knowledge Transfer Between World Action Models

作者: Yuhua Jiang, Yijun Guo, Hongbing Yang 等10人
arXiv: 2605.06247v1
分类: cs.RO
📝 论文摘要
世界动作模型(WAMs)为具身控制提供了强大的生成框架,然而,由于潜在接口不匹配、适应成本高昂以及传统蒸馏目标的刚性限制,在异构WAMs之间迁移知识仍然具有挑战性。我们提出\textbf{CKT-WAM},一种参数高效的\textbf{C}ontext \textbf{K}nowledge \textbf{T}ransfer(上下文知识迁移)框架,通过文本嵌入空间中的紧凑上下文将教师WAM的知识迁移到学生WAM中,而非通过输出模仿或密集隐状态匹配。具体而言,CKT-WAM提取教师中间隐状态,通过压缩器的可学习查询交叉注意力(LQCA)减少令牌数量,并通过始终开启的广义适配器、轻量级路由器以及稀疏激活的专用适配器对其进行转换。随后将生成的上下文附加到学生模型的条件文本嵌入中,从而以最小的架构修改将迁移知识注入学生模型。实验表明,CKT-WAM持续提升了零样本泛化能力,并在LIBERO-Plus数据集上取得了最佳整体性能:仅以1.17%的可训练参数实现了86.1%的总成功率,同时接近全微调性能。超越仿真环境,CKT-WAM还展现了较强的真实世界长时域操控能力,在四个多步骤及长时域任务中取得了83.3%的最佳平均成功率。代码已开源至https://github.com/YuhuaJiang2002/CKT-WAM。

📊 核心分析

🎯 研究动机
- 现有**世界动作模型(World Action Model, WAM)** 在异构模型间转移知识时面临潜在接口不匹配、高适应成本和传统蒸馏目标僵化的问题 - 需要一种参数高效的知识转移方法,避免输出模仿或密集隐藏状态匹配的高开销 - 研究背景:具身控制领域依赖生成式世界模型,但跨模型知识迁移效率低,限制了零样本泛化
🔧 核心方法
- 提出**CKT-WAM框架**,通过文本嵌入空间中的紧凑上下文(context)将教师模型知识注入学生模型 - 使用**压缩器的可学习查询交叉注意力(Learnable-Query Cross Attention, LQCA)** 减少教师中间隐藏状态的token数量 - 设计**始终开启的通用适配器(always-on generalized adapter)**、轻量路由器(lightweight router)和**稀疏激活的专用适配器(sparsely activated specialized adapters)** 进行特征变换 - 将生成的上下文追加到学生模型的条件文本嵌入中,实现最小架构修改的知识注入
💡 核心创新
- **创新性转移范式**:首次在文本嵌入空间以紧凑上下文形式传递知识,而非传统的输出模仿或密集隐藏状态匹配 - **参数高效性**:仅需训练**1.17%的可训练参数**,在LIBERO-Plus上达到86.1%总成功率,接近全微调性能 - **高效信息压缩**:通过LQCA和适配器组合,将高维教师隐藏状态压缩为少量token,降低计算开销
🏆 总体贡献
- 为异构世界动作模型间的知识迁移提供了**参数高效的新框架**,显著降低适应成本 - 在模拟环境**LIBERO-Plus** 上取得最佳整体性能,零样本泛化能力大幅提升 - 验证了在**真实世界长程操作任务** 中的有效性,四类多步长程任务平均成功率83.3% - 开源代码促进社区复现与后续研究