- 预训练的**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在标准监督微调(SFT)中难以有效提升性能并降低适应成本
- 现有带辅助训练目标的微调方法虽能提升性能并减少收敛步数,但引入额外损失导致显著计算开销
- 需要在保持标准SFT简单性的同时,获得辅助训练带来的能力增强效果
- 在**参数空间(paramspace)** 中解耦辅助目标SFT的两个目标:增强通用能力(general capabilities)和拟合任务特定动作分布(task-specific action distributions)
- 使用两种不同训练策略(如标准SFT和带辅助目标的训练)在小规模任务集上训练模型,得到两个微调模型
- 计算两个模型参数的差值作为**能力向量(capability vectors)**,将其与预训练参数合并形成**能力增强的元模型(capability-enhanced meta model)**
- 在标准SFT中附加轻量的**正交正则化损失(orthogonal regularization loss)**,使合并模型达到与辅助微调基线相当的性能且计算开销更低
- **解耦训练目标**:首次在参数空间中将辅助目标SFT的两个目标(通用能力增强与任务特定动作拟合)分离,通过参数差异提取能力向量
- **轻量合并策略**:使用简单的参数差合并方法,无需额外辅助损失计算,实现与复杂辅助训练方法相当的性能
- **正交正则化辅助**:通过轻量正交正则化损失增强标准SFT,使合并模型鲁棒且高效
- **跨模型通用性**:能力向量在不同VLA模型中有效,并可零样本泛化到新环境和新具身实体(embodiment)
- 提出**CapVector框架**,为VLA模型提供一种高效、低计算开销的微调范式,兼顾性能提升与简单性
- 通过实验证明能力向量在多种模型上的有效性和通用性,以及对新环境和新具身实体的零样本泛化能力
- 为参数空间中的目标解耦与知识迁移提供了新思路,可推广至其他预训练模型的微调场景