该论文旨在解决视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作任务中后训练(post-training)的难题。研究背景是:
- 标准的离线监督微调(Supervised Fine-Tuning, SFT)存在分布偏移(distribution shift)和灾难性遗忘(catastrophic forgetting)预训练能力的问题。
- 在线强化学习(Reinforcement Learning, RL)则面临稀疏奖励(sparse rewards)和样本效率(sample efficiency)低下的挑战。
- 需要一种方法能结合SFT的效率与RL的鲁棒性(robustness)。
论文提出了一个名为VLA-OPD(On-Policy VLA Distillation)的框架。具体方法包括:
- 利用一个专家教师(expert teacher)模型,在学生模型自我生成轨迹(self-generated trajectories)上提供密集的、令牌级别(token-level)的监督(supervision)。
- 这实现了对策略诱导状态(policy-induced states)的主动错误纠正(active error correction),同时通过温和对齐(gentle alignment)保留预训练的通用能力。
- 核心是采用反向KL散度(Reverse-KL)目标(objective)来制定VLA-OPD,该目标具有有界的模式寻求(bounded mode-seeking)特性。
论文的核心创新点在于:
- **提出了VLA-OPD框架**:首次通过在线策略蒸馏(on-policy distillation)桥接离线SFT与在线RL,用于VLA模型的后训练。
- **创新的监督信号来源**:不依赖稀疏的环境奖励,而是利用专家教师对学生模型自身在线探索产生的轨迹进行密集的令牌级监督,实现了在策略诱导状态上的主动学习。
- **关键的目标函数设计**:采用反向KL散度(Reverse-KL)作为蒸馏目标。与标准的前向KL散度(Forward-KL)(会导致模式覆盖(mode-covering)和熵爆炸(entropy explosion))或硬交叉熵(Hard-CE)(会导致过早的熵塌缩(entropy collapse))不同,这种有界的模式寻求目标能够:
- 过滤掉教师模型的认识不确定性(epistemic uncertainty)。
- 保持动作多样性(action diversity)。
- 确保稳定的策略学习(stable policy learning)。
论文对该领域的整体贡献是:
- 提出了一个新颖且有效的后训练框架VLA-OPD,它成功地将离线SFT的高效性与在线RL的鲁棒性优势结合起来。
- 通过理论分析和在LIBERO、RoboTwin2.0基准上的实验验证,证明了该方法能够:
- 显著提升样本效率(sample efficiency),优于纯RL方法。
- 增强鲁棒性(robustness),优于纯SFT方法。
- 有效缓解后训练过程中的灾难性遗忘(catastrophic forgetting)。
- 为VLA模型乃至更广泛的序列决策模型的实用化部署提供了一个有前景的训练范式。