- 通用机器人策略虽受益于大规模预训练,但纯离线数据不足以保证鲁棒的**实际部署(real-world deployment)**,因为部署中会遇到**分布偏移(distribution shifts)**、**长尾故障(long-tail failures)**、任务变化和人工纠正等固定演示无法覆盖的情况
- 现有方法缺乏一种**持续后训练(continual post-training)** 机制,能在机器人舰队部署过程中闭环改进策略
- 目标是在真实机器人舰队中利用部署后的交互经验(自主rollout和人类干预)持续提升通用**视觉-语言-动作(Vision-Language-Action, VLA)** 策略的性能
- 提出**LWD(Learning While Deploying)** 框架,一种**离线到在线强化学习(offline-to-online RL)** 方法,用于VLA策略的**持续后训练(continual post-training)**
- 构建闭环流程:部署 -> 收集共享物理经验(自主rollout和人类干预) -> 策略改进 -> 重新部署
- 采用**分布隐式值学习(Distributional Implicit Value Learning, DIVL)** 进行鲁棒的**值估计(value estimation)**,处理异构、稀疏奖励的舰队数据
- 结合**通过伴随匹配进行Q学习(Q-learning via Adjoint Matching, QAM)**,从**基于流的动作生成器(flow-based action generator)** 中提取策略,稳定在线学习
- **首创性**:首次提出**舰队规模(fleet-scale)** 的离线到在线强化学习框架,用于通用VLA策略的真实世界持续后训练,而非仅在仿真中
- **闭环部署-学习机制**:利用真实机器人舰队中的自主rollout和人类干预作为共享物理经验,实现闭环策略迭代,突破纯离线数据的局限
- **稳定学习技术**:针对异构、稀疏奖励的舰队数据,结合**DIVL** 和**QAM** 两种创新技术,解决了在线学习中值函数估计不稳定和策略提取困难的问题
- **大规模真实验证**:在16个双臂机器人、8个真实任务(含长时域任务)上验证,单一通用策略随经验积累持续提升,达到**平均95%成功率**,长时域任务提升最大
- 提出**LWD框架**,为通用机器人策略的**持续部署-学习** 提供了系统化的离线到在线RL范式,弥合了离线预训练与在线微调之间的鸿沟
- 引入**DIVL** 和**QAM** 两项技术组件,解决了舰队长尾数据下的稀疏奖励和分布偏移问题,可复用于其他VLA策略的在线改进
- 通过大规模真实机器人舰队实验(16台机器人、8种任务)证明了框架的有效性,展示了通用策略通过持续学习达到**95%成功率** 的潜力,尤其是长时域任务的显著提升
- 为未来**机器人策略的自我改进(self-improvement)** 和**大规模部署协同学习** 提供了实践基准和方法论