← 返回论文列表

视觉-语言-动作正则化驱动的强化学习快速启动
Jump-Start Reinforcement Learning with Vision-Language-Action Regularization

作者: Angelo Moroncelli, Roberto Zanetti, Marco Maccarini 等4人
arXiv: 2604.13733v1
分类: cs.LG, cs.AI, cs.RO
📝 论文摘要
强化学习(RL)能够为机器人操作提供高频闭环控制,但由于探索效率低下和信用分配不佳,将其扩展到具有稀疏或不完美奖励的长时程任务仍然困难。视觉-语言-动作(VLA)模型利用大规模多模态预训练提供通用任务级推理,但现有局限阻碍了其在快速精确操作中的直接应用。本文提出视觉-语言-动作跳跃启动(VLAJS)方法,通过将稀疏的VLA指导与在线策略RL相结合,以改善探索和学习效率。VLAJS将VLA模型视为高层动作建议的临时来源,用于引导早期探索并优化信用分配,同时保留RL基于状态的高频控制特性。该方法通过方向性动作一致性正则化增强近端策略优化(PPO),在训练初期将RL智能体的动作与VLA指导进行软对齐,无需强制严格模仿、要求演示数据或依赖持续的教师查询。VLA指导以稀疏方式应用并随时间衰减,使智能体能够在线适应并最终超越指导策略。我们在六项具有挑战性的操作任务上评估VLAJS:模拟环境中的抓举、抓放、钉孔重定向、钉孔插入、点触和推动,并在真实Franka Panda机器人上验证了部分任务。VLAJS在样本效率上持续优于PPO和蒸馏式基线方法,在多项任务中减少超过50%的环境交互需求。真实世界实验展示了零样本仿真到现实的迁移能力,以及在杂乱环境、物体变化和外部干扰下的鲁棒执行性能。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人操作任务中强化学习(RL)面临的挑战: - 在奖励稀疏或长视野(long-horizon)任务中,探索效率低和信用分配(credit assignment)困难 - 现有视觉-语言-动作(Vision-Language-Action, VLA)模型虽能提供任务级推理,但难以直接用于需要快速精确控制的操作任务
🔧 核心方法
论文提出视觉-语言-动作跳跃启动(Vision-Language-Action Jump-Starting, VLAJS)方法: - 将VLA模型作为高层动作建议的稀疏指导源,引导早期探索 - 在近端策略优化(Proximal Policy Optimization, PPO)基础上增加方向性动作一致性(directional action-consistency)正则化 - 在训练早期使RL智能体的动作与VLA指导软对齐(soft alignment),不强制严格模仿 - VLA指导随时间退火(annealed),最终让智能体超越指导策略
💡 核心创新
论文的核心创新在于: - 提出VLAJS框架,首次将稀疏的VLA高层指导与在线策略(on-policy)RL相结合,实现优势互补 - 设计方向性动作一致性正则化,仅要求动作方向一致而非精确模仿,避免VLA模型精度不足的限制 - 实现无需演示(demonstrations)、不依赖持续教师查询的跳跃启动(jump-starting)机制 - 通过指导退火机制,使智能体既能利用VLA加速早期学习,又能最终超越指导策略的性能
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出并验证了VLAJS方法,在6个模拟操作任务中显著提升样本效率(sample efficiency),减少超过50%的环境交互 - 在真实Franka Panda机器人上验证了零样本模拟到真实(sim-to-real)迁移能力 - 展示了方法在杂乱环境、物体变化和外部扰动下的鲁棒执行能力 - 为结合大尺度预训练模型与RL控制提供了新范式,弥合了任务级推理与高频控制之间的鸿沟