← 返回论文列表

VLA-OPD:通过策略内蒸馏连接视觉-语言-动作模型的离线监督微调与在线强化学习
VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation

作者: Zhide Zhong, Haodong Yan, Junfeng Li 等6人
arXiv: 2603.26666v1
分类: cs.RO
📝 论文摘要
尽管预训练的视觉-语言-动作模型在机器人操作任务中展现出卓越的泛化能力,部署前的后训练阶段对于确保其可靠性能仍至关重要。然而,传统的离线监督微调方法易受分布偏移影响,且会导致预训练能力的灾难性遗忘;而在线强化学习方法则面临奖励稀疏与样本效率低下的困境。本文提出策略内视觉-语言-动作蒸馏框架,该框架融合了监督微调的效率优势与强化学习的鲁棒特性。区别于依赖稀疏环境奖励的传统方法,该框架通过专家教师模型对策略自主生成的轨迹进行密集的令牌级监督,从而实现对策略诱导状态的主动纠错,同时通过温和对齐机制保留预训练的通用能力。研究创新性地采用反向KL散度目标函数构建框架:相较于导致模态覆盖熵爆炸的标准正向KL散度,或引发过早熵崩溃的硬交叉熵方法,这种有界的模态寻求目标通过过滤教师模型的认知不确定性,在保持动作多样性的同时确保策略学习的稳定性。在LIBERO与RoboTwin2.0基准测试中的实验表明,该框架在样本效率上显著优于强化学习方法,在鲁棒性上超越监督微调方法,并能有效缓解后训练过程中的灾难性遗忘问题。

📊 核心分析

🎯 研究动机
该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作任务中后训练(post-training)的难题。研究背景是: - 标准的离线监督微调(Supervised Fine-Tuning, SFT)存在分布偏移(distribution shift)和灾难性遗忘(catastrophic forgetting)预训练能力的问题。 - 在线强化学习(Reinforcement Learning, RL)则面临稀疏奖励(sparse rewards)和样本效率(sample efficiency)低下的挑战。 - 需要一种方法能结合SFT的效率与RL的鲁棒性(robustness)。
🔧 核心方法
论文提出了一个名为VLA-OPD(On-Policy VLA Distillation)的框架。具体方法包括: - 利用一个专家教师(expert teacher)模型,在学生模型自我生成轨迹(self-generated trajectories)上提供密集的、令牌级别(token-level)的监督(supervision)。 - 这实现了对策略诱导状态(policy-induced states)的主动错误纠正(active error correction),同时通过温和对齐(gentle alignment)保留预训练的通用能力。 - 核心是采用反向KL散度(Reverse-KL)目标(objective)来制定VLA-OPD,该目标具有有界的模式寻求(bounded mode-seeking)特性。
💡 核心创新
论文的核心创新点在于: - **提出了VLA-OPD框架**:首次通过在线策略蒸馏(on-policy distillation)桥接离线SFT与在线RL,用于VLA模型的后训练。 - **创新的监督信号来源**:不依赖稀疏的环境奖励,而是利用专家教师对学生模型自身在线探索产生的轨迹进行密集的令牌级监督,实现了在策略诱导状态上的主动学习。 - **关键的目标函数设计**:采用反向KL散度(Reverse-KL)作为蒸馏目标。与标准的前向KL散度(Forward-KL)(会导致模式覆盖(mode-covering)和熵爆炸(entropy explosion))或硬交叉熵(Hard-CE)(会导致过早的熵塌缩(entropy collapse))不同,这种有界的模式寻求目标能够: - 过滤掉教师模型的认识不确定性(epistemic uncertainty)。 - 保持动作多样性(action diversity)。 - 确保稳定的策略学习(stable policy learning)。
🏆 总体贡献
论文对该领域的整体贡献是: - 提出了一个新颖且有效的后训练框架VLA-OPD,它成功地将离线SFT的高效性与在线RL的鲁棒性优势结合起来。 - 通过理论分析和在LIBERO、RoboTwin2.0基准上的实验验证,证明了该方法能够: - 显著提升样本效率(sample efficiency),优于纯RL方法。 - 增强鲁棒性(robustness),优于纯SFT方法。 - 有效缓解后训练过程中的灾难性遗忘(catastrophic forgetting)。 - 为VLA模型乃至更广泛的序列决策模型的实用化部署提供了一个有前景的训练范式。