边部署边学习：面向通用型机器人策略的大规模强化学习

📝 论文摘要

通用机器人策略日益受益于大规模预训练，但仅靠离线数据不足以实现稳健的实际部署。部署中的机器人会遇到分布偏移、长尾故障、任务变异以及人类纠正机会等固定演示数据集无法完全捕捉的情况。我们提出了“边部署边学习”（LWD）框架，这是一个面向通用视觉-语言-动作（VLA）策略的机队规模离线到在线强化学习持续后训练框架。从预训练的VLA策略出发，LWD通过利用机器人机队收集的自主 rollout 和人类干预，实现了部署、共享物理经验、策略改进与重新部署之间的闭环。为了从异构、稀疏奖励的机队数据中稳定学习，LWD结合了分布隐式价值学习（DIVL）进行鲁棒价值估计，以及伴随匹配Q学习（QAM）用于基于流的VLA动作生成器中的策略提取。我们在由16台双臂机器人组成的机队上，对包括语义杂货补货和3-5分钟长时域任务的八项实际操控任务进行了验证。单个通用策略随着机队经验的积累持续改进，平均成功率达到95%，其中长时域任务的提升最为显著。

🎯 研究动机

- 通用机器人策略虽受益于大规模预训练，但纯离线数据不足以保证鲁棒的**实际部署(real-world deployment)**，因为部署中会遇到**分布偏移(distribution shifts)**、**长尾故障(long-tail failures)**、任务变化和人工纠正等固定演示无法覆盖的情况 - 现有方法缺乏一种**持续后训练(continual post-training)** 机制，能在机器人舰队部署过程中闭环改进策略 - 目标是在真实机器人舰队中利用部署后的交互经验（自主rollout和人类干预）持续提升通用**视觉-语言-动作(Vision-Language-Action, VLA)** 策略的性能

🔧 核心方法

- 提出**LWD(Learning While Deploying)** 框架，一种**离线到在线强化学习(offline-to-online RL)** 方法，用于VLA策略的**持续后训练(continual post-training)** - 构建闭环流程：部署 -> 收集共享物理经验（自主rollout和人类干预） -> 策略改进 -> 重新部署 - 采用**分布隐式值学习(Distributional Implicit Value Learning, DIVL)** 进行鲁棒的**值估计(value estimation)**，处理异构、稀疏奖励的舰队数据 - 结合**通过伴随匹配进行Q学习(Q-learning via Adjoint Matching, QAM)**，从**基于流的动作生成器(flow-based action generator)** 中提取策略，稳定在线学习

💡 核心创新

- **首创性**：首次提出**舰队规模(fleet-scale)** 的离线到在线强化学习框架，用于通用VLA策略的真实世界持续后训练，而非仅在仿真中 - **闭环部署-学习机制**：利用真实机器人舰队中的自主rollout和人类干预作为共享物理经验，实现闭环策略迭代，突破纯离线数据的局限 - **稳定学习技术**：针对异构、稀疏奖励的舰队数据，结合**DIVL** 和**QAM** 两种创新技术，解决了在线学习中值函数估计不稳定和策略提取困难的问题 - **大规模真实验证**：在16个双臂机器人、8个真实任务（含长时域任务）上验证，单一通用策略随经验积累持续提升，达到**平均95%成功率**，长时域任务提升最大

🏆 总体贡献

- 提出**LWD框架**，为通用机器人策略的**持续部署-学习** 提供了系统化的离线到在线RL范式，弥合了离线预训练与在线微调之间的鸿沟 - 引入**DIVL** 和**QAM** 两项技术组件，解决了舰队长尾数据下的稀疏奖励和分布偏移问题，可复用于其他VLA策略的在线改进 - 通过大规模真实机器人舰队实验（16台机器人、8种任务）证明了框架的有效性，展示了通用策略通过持续学习达到**95%成功率** 的潜力，尤其是长时域任务的显著提升 - 为未来**机器人策略的自我改进(self-improvement)** 和**大规模部署协同学习** 提供了实践基准和方法论

边部署边学习：面向通用型机器人策略的大规模强化学习
Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

📊 核心分析

边部署边学习：面向通用型机器人策略的大规模强化学习 Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

📊 核心分析

边部署边学习：面向通用型机器人策略的大规模强化学习
Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies