该论文旨在解决预训练视觉语言动作(VLA)模型在标准监督微调(SFT)中存在的两个关键问题:性能提升有限和适应成本较高。虽然一些采用辅助训练目标的先进微调方法能改善性能并减少收敛步数,但它们通常因额外的辅助任务损失而产生显著的计算开销。
论文提出了一种名为Fast-dVLA的新方法,其核心是:
- 在参数空间中将辅助任务训练的两个目标(增强通用能力和拟合任务特定动作分布)进行解耦。
- 仅需使用两种不同的训练策略,在一个小规模任务集上训练模型至收敛。
- 将两次训练得到的模型参数之差解释为辅助任务提供的“能力向量”。
- 将这些能力向量与预训练参数合并,形成一个能力增强的元模型。
- 在标准SFT中,通过引入一个轻量级的正交正则化损失(orthogonal regularization loss)来增强训练过程,使合并后的模型能以更低计算开销达到与辅助微调基线相当的性能。
论文的核心创新点在于:
- **参数空间解耦与能力向量化**:创新性地将辅助训练的目标解耦,并将训练差异量化为可迁移的“能力向量”,这是一种新颖的模型能力表征和迁移方式。
- **元模型构建范式**:提出通过合并预训练参数与能力向量来构建能力增强的元模型,实现了辅助训练效果的“蒸馏”与固化,避免了每次微调都需运行完整辅助训练的计算负担。
- **轻量级正则化实现高效微调**:仅需在标准SFT中加入一个计算代价低的正交正则化损失,就能引导模型在微调时有效利用元模型中已注入的增强能力,从而在保持SFT简洁性的同时,逼近复杂辅助训练的性能。
- **与现有工作对比的独特性**:不同于传统辅助训练(计算开销大)或标准SFT(性能有限),该方法首次实现了“一次构建,高效复用”的增强能力迁移范式,在计算效率和最终性能之间取得了更优的平衡。
论文对该领域(机器人任务中的VLA模型高效适应)的整体贡献是:
- 提出了一种新颖且高效的模型适应框架Fast-dVLA,能够以接近实时(real-time)的性能进行部署。
- 在理论上,提供了一种通过参数操作来解耦和迁移模型能力的新视角(能力向量)。
- 在实践上,通过广泛的机器人任务实验验证了该方法的有效性和通用性,显著降低了获得高性能适应模型所需的计算成本和训练时间。
- 为资源受限场景(如机器人实时控制)下高性能VLA模型的快速适配提供了可行的技术路径。