该论文旨在解决机器人操作任务中强化学习(RL)面临的挑战:
- 在奖励稀疏或长视野(long-horizon)任务中,探索效率低和信用分配(credit assignment)困难
- 现有视觉-语言-动作(Vision-Language-Action, VLA)模型虽能提供任务级推理,但难以直接用于需要快速精确控制的操作任务
论文提出视觉-语言-动作跳跃启动(Vision-Language-Action Jump-Starting, VLAJS)方法:
- 将VLA模型作为高层动作建议的稀疏指导源,引导早期探索
- 在近端策略优化(Proximal Policy Optimization, PPO)基础上增加方向性动作一致性(directional action-consistency)正则化
- 在训练早期使RL智能体的动作与VLA指导软对齐(soft alignment),不强制严格模仿
- VLA指导随时间退火(annealed),最终让智能体超越指导策略
论文的核心创新在于:
- 提出VLAJS框架,首次将稀疏的VLA高层指导与在线策略(on-policy)RL相结合,实现优势互补
- 设计方向性动作一致性正则化,仅要求动作方向一致而非精确模仿,避免VLA模型精度不足的限制
- 实现无需演示(demonstrations)、不依赖持续教师查询的跳跃启动(jump-starting)机制
- 通过指导退火机制,使智能体既能利用VLA加速早期学习,又能最终超越指导策略的性能
论文对该领域的整体贡献包括:
- 提出并验证了VLAJS方法,在6个模拟操作任务中显著提升样本效率(sample efficiency),减少超过50%的环境交互
- 在真实Franka Panda机器人上验证了零样本模拟到真实(sim-to-real)迁移能力
- 展示了方法在杂乱环境、物体变化和外部扰动下的鲁棒执行能力
- 为结合大尺度预训练模型与RL控制提供了新范式,弥合了任务级推理与高频控制之间的鸿沟