← 返回论文列表

RDGen:通过强化学习生成高质量机器人学习演示
RDGen: Demonstration Generation for High-Quality Robot Learning via Reinforcement Learning

作者: Zijian Zhu, Menglin Zou, Zhuang Li 等5人
arXiv: 2605.30957v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型已成为通用机器人控制领域一种有前景的范式。然而,其性能从根本上仍受限于高质量机器人轨迹数据的可用性。在当前的机器人学习实践中,此类数据主要通过人类遥操作收集,但这种方式劳动密集、成本高昂且难以扩展。本文提出RDGen,一种用于生成高质量机器人演示的仿真到现实(sim-to-real)强化学习框架。RDGen并非仅仅将强化学习作为最终控制策略,而是利用训练好的强化学习策略作为结构化轨迹生成器。该系统包含三个模块:基于VLM的任务解析器(用于识别任务相关物体)、基于Grounding DINO的物体定位器,以及从仿真迁移到真实机器人的强化学习策略。成功执行的轨迹被采集为干净、高质量的演示数据,用于下游VLA训练;同时,仿真阶段以极低的边际成本额外提供了可扩展的轨迹来源。在抓取放置任务上的实验表明,迁移后的强化学习策略实现了高任务成功率。与人类遥操作相比,RDGen生成的轨迹更加平滑,并带来了更优的下游VLA性能。这些结果表明,强化学习生成的演示可以为机器人策略学习提供更可靠且更一致的监督信号。

📊 核心分析

🎯 研究动机
- 解决**视觉-语言-动作模型(VLA)** 训练数据依赖人工遥操作(teleoperation)的问题,人工遥操作成本高、耗时且难以规模化 - 现有机器人学习实践受限于**高质量轨迹数据(high-quality trajectory data)** 的获取 - 研究背景:VLA模型作为通用机器人控制范式,其性能根本受限于训练数据的质量和可用性
🔧 核心方法
- 提出**RDGen** 框架:一种由仿真到现实(sim-to-real)的**强化学习(RL)** 演示生成方法,将训练好的RL策略作为结构化轨迹生成器 - 系统包含三个模块:**VLM任务解析器(VLM-based task parser)** 识别任务相关物体,**Grounding DINO目标定位器(object localizer)**,以及从仿真迁移到真实机器人的**RL策略(RL policy)** - 成功rollout被收集为干净、高质量的演示数据,用于下游VLA模型训练;仿真阶段还提供可扩展的额外轨迹
💡 核心创新
- **方法创新**:首次将**强化学习(RL)** 策略作为轨迹生成器,而非仅作为最终控制策略,实现结构化演示生成 - **数据质量提升**:生成的轨迹比人工遥操作(teleoperation)显著更平滑,提供更可靠、一致的监督信号 - **可扩展性**:通过仿真到现实(sim-to-real)迁移,在仿真中可低成本生成大量额外高质量演示,克服人工采集的规模化瓶颈
🏆 总体贡献
- 为机器人学习领域提供了一种通过**强化学习(RL)** 自动生成高质量演示数据的范式,替代昂贵的人工遥操作 - 在拾取放置(pick-and-place)任务上验证,RL生成演示训练的下游VLA模型性能优于人工遥操作的效果 - 开源了完整的框架和流程,促进高保真机器人数据自动生成的进一步研究