CapVector：在参数空间中学习面向视觉-语言-动作模型的可迁移能力向量

📝 论文摘要

本文提出了一种新颖的方法，以解决预训练VLA模型在标准监督微调（SFT）过程中常无法有效提升性能并降低适配成本的挑战。部分采用辅助训练目标的先进微调方法虽能提升性能并减少收敛步数，但通常因辅助目标带来的额外损失而产生显著的计算开销。为同时实现辅助训练的增强能力与标准SFT的简便性，我们在参数空间内解耦了辅助目标SFT的两个目标，即增强通用能力与拟合任务特定的动作分布。为实现该目标，我们仅需使用两种不同的训练策略，在小规模任务集上训练模型至收敛，从而得到两个微调模型。这两个模型之间的参数差异可被解释为辅助目标提供的能力向量。这些向量随后与预训练参数合并，形成能力增强的元模型。此外，当标准SFT辅以轻量级的正交正则化损失时，合并模型能够以更低的计算开销达到与辅助微调基线相当的性能。内部与外部实验表明，我们的能力向量：（1）在不同模型中有效且通用；（2）可直接泛化至新环境与具身形态。

🎯 研究动机

- 预训练的**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在标准监督微调(SFT)中难以有效提升性能并降低适应成本 - 现有带辅助训练目标的微调方法虽能提升性能并减少收敛步数，但引入额外损失导致显著计算开销 - 需要在保持标准SFT简单性的同时，获得辅助训练带来的能力增强效果

🔧 核心方法

- 在**参数空间(paramspace)** 中解耦辅助目标SFT的两个目标：增强通用能力(general capabilities)和拟合任务特定动作分布(task-specific action distributions) - 使用两种不同训练策略（如标准SFT和带辅助目标的训练）在小规模任务集上训练模型，得到两个微调模型 - 计算两个模型参数的差值作为**能力向量(capability vectors)**，将其与预训练参数合并形成**能力增强的元模型(capability-enhanced meta model)** - 在标准SFT中附加轻量的**正交正则化损失(orthogonal regularization loss)**，使合并模型达到与辅助微调基线相当的性能且计算开销更低

💡 核心创新

- **解耦训练目标**：首次在参数空间中将辅助目标SFT的两个目标（通用能力增强与任务特定动作拟合）分离，通过参数差异提取能力向量 - **轻量合并策略**：使用简单的参数差合并方法，无需额外辅助损失计算，实现与复杂辅助训练方法相当的性能 - **正交正则化辅助**：通过轻量正交正则化损失增强标准SFT，使合并模型鲁棒且高效 - **跨模型通用性**：能力向量在不同VLA模型中有效，并可零样本泛化到新环境和新具身实体(embodiment)

🏆 总体贡献

- 提出**CapVector框架**，为VLA模型提供一种高效、低计算开销的微调范式，兼顾性能提升与简单性 - 通过实验证明能力向量在多种模型上的有效性和通用性，以及对新环境和新具身实体的零样本泛化能力 - 为参数空间中的目标解耦与知识迁移提供了新思路，可推广至其他预训练模型的微调场景

CapVector：在参数空间中学习面向视觉-语言-动作模型的可迁移能力向量
CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

📊 核心分析

CapVector：在参数空间中学习面向视觉-语言-动作模型的可迁移能力向量 CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models

📊 核心分析

CapVector：在参数空间中学习面向视觉-语言-动作模型的可迁移能力向量
CapVector: Learning Transferable Capability Vectors in Parametric Space for Vision-Language-Action Models