- 解决**视觉-语言-动作模型(VLA)** 训练数据依赖人工遥操作(teleoperation)的问题,人工遥操作成本高、耗时且难以规模化
- 现有机器人学习实践受限于**高质量轨迹数据(high-quality trajectory data)** 的获取
- 研究背景:VLA模型作为通用机器人控制范式,其性能根本受限于训练数据的质量和可用性
- 提出**RDGen** 框架:一种由仿真到现实(sim-to-real)的**强化学习(RL)** 演示生成方法,将训练好的RL策略作为结构化轨迹生成器
- 系统包含三个模块:**VLM任务解析器(VLM-based task parser)** 识别任务相关物体,**Grounding DINO目标定位器(object localizer)**,以及从仿真迁移到真实机器人的**RL策略(RL policy)**
- 成功rollout被收集为干净、高质量的演示数据,用于下游VLA模型训练;仿真阶段还提供可扩展的额外轨迹
- **方法创新**:首次将**强化学习(RL)** 策略作为轨迹生成器,而非仅作为最终控制策略,实现结构化演示生成
- **数据质量提升**:生成的轨迹比人工遥操作(teleoperation)显著更平滑,提供更可靠、一致的监督信号
- **可扩展性**:通过仿真到现实(sim-to-real)迁移,在仿真中可低成本生成大量额外高质量演示,克服人工采集的规模化瓶颈
- 为机器人学习领域提供了一种通过**强化学习(RL)** 自动生成高质量演示数据的范式,替代昂贵的人工遥操作
- 在拾取放置(pick-and-place)任务上验证,RL生成演示训练的下游VLA模型性能优于人工遥操作的效果
- 开源了完整的框架和流程,促进高保真机器人数据自动生成的进一步研究