← 返回论文列表

边部署边学习:面向通用型机器人策略的大规模强化学习
Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

作者: Yi Wang, Xinchen Li, Pengwei Xie 等16人
arXiv: 2605.00416v1
分类: cs.RO
📝 论文摘要
通用机器人策略日益受益于大规模预训练,但仅靠离线数据不足以实现稳健的实际部署。部署中的机器人会遇到分布偏移、长尾故障、任务变异以及人类纠正机会等固定演示数据集无法完全捕捉的情况。我们提出了“边部署边学习”(LWD)框架,这是一个面向通用视觉-语言-动作(VLA)策略的机队规模离线到在线强化学习持续后训练框架。从预训练的VLA策略出发,LWD通过利用机器人机队收集的自主 rollout 和人类干预,实现了部署、共享物理经验、策略改进与重新部署之间的闭环。为了从异构、稀疏奖励的机队数据中稳定学习,LWD结合了分布隐式价值学习(DIVL)进行鲁棒价值估计,以及伴随匹配Q学习(QAM)用于基于流的VLA动作生成器中的策略提取。我们在由16台双臂机器人组成的机队上,对包括语义杂货补货和3-5分钟长时域任务的八项实际操控任务进行了验证。单个通用策略随着机队经验的积累持续改进,平均成功率达到95%,其中长时域任务的提升最为显著。

📊 核心分析

🎯 研究动机
- 通用机器人策略虽受益于大规模预训练,但纯离线数据不足以保证鲁棒的**实际部署(real-world deployment)**,因为部署中会遇到**分布偏移(distribution shifts)**、**长尾故障(long-tail failures)**、任务变化和人工纠正等固定演示无法覆盖的情况 - 现有方法缺乏一种**持续后训练(continual post-training)** 机制,能在机器人舰队部署过程中闭环改进策略 - 目标是在真实机器人舰队中利用部署后的交互经验(自主rollout和人类干预)持续提升通用**视觉-语言-动作(Vision-Language-Action, VLA)** 策略的性能
🔧 核心方法
- 提出**LWD(Learning While Deploying)** 框架,一种**离线到在线强化学习(offline-to-online RL)** 方法,用于VLA策略的**持续后训练(continual post-training)** - 构建闭环流程:部署 -> 收集共享物理经验(自主rollout和人类干预) -> 策略改进 -> 重新部署 - 采用**分布隐式值学习(Distributional Implicit Value Learning, DIVL)** 进行鲁棒的**值估计(value estimation)**,处理异构、稀疏奖励的舰队数据 - 结合**通过伴随匹配进行Q学习(Q-learning via Adjoint Matching, QAM)**,从**基于流的动作生成器(flow-based action generator)** 中提取策略,稳定在线学习
💡 核心创新
- **首创性**:首次提出**舰队规模(fleet-scale)** 的离线到在线强化学习框架,用于通用VLA策略的真实世界持续后训练,而非仅在仿真中 - **闭环部署-学习机制**:利用真实机器人舰队中的自主rollout和人类干预作为共享物理经验,实现闭环策略迭代,突破纯离线数据的局限 - **稳定学习技术**:针对异构、稀疏奖励的舰队数据,结合**DIVL** 和**QAM** 两种创新技术,解决了在线学习中值函数估计不稳定和策略提取困难的问题 - **大规模真实验证**:在16个双臂机器人、8个真实任务(含长时域任务)上验证,单一通用策略随经验积累持续提升,达到**平均95%成功率**,长时域任务提升最大
🏆 总体贡献
- 提出**LWD框架**,为通用机器人策略的**持续部署-学习** 提供了系统化的离线到在线RL范式,弥合了离线预训练与在线微调之间的鸿沟 - 引入**DIVL** 和**QAM** 两项技术组件,解决了舰队长尾数据下的稀疏奖励和分布偏移问题,可复用于其他VLA策略的在线改进 - 通过大规模真实机器人舰队实验(16台机器人、8种任务)证明了框架的有效性,展示了通用策略通过持续学习达到**95%成功率** 的潜力,尤其是长时域任务的显著提升 - 为未来**机器人策略的自我改进(self-improvement)** 和**大规模部署协同学习** 提供了实践基准和方法论