该论文旨在解决灵巧机器人操作基础模型规模化训练中高质量、动作对齐的演示数据获取瓶颈问题。研究背景是:虽然无机器人的人类演示(如UMI范式)为传统遥操作提供了可扩展的替代方案,但现有系统存在硬件人机工程学不佳、工作流程开环以及缺乏系统化数据混合策略等限制。
论文提出了一个软硬件协同设计的系统XRZero-G0,用于具身数据收集和策略学习。具体方法包括:
- 设计了一个配备顶视摄像头和双专用夹爪的人机工程学虚拟现实接口,以直接提高收集效率。
- 提出一个针对非本体感知数据的闭环收集、检查、训练和评估流程,以确保数据集可靠性。
- 研究了无机器人数据的经验缩放行为和最优混合比例。
论文的核心创新点在于:
- **硬件-软件协同设计系统**:集成了人机工程学VR接口、专用夹爪和顶视摄像头,显著提升了数据收集效率和人机交互体验。
- **闭环质量控制流程**:针对非本体感知数据建立了透明的质量保证机制,实现了85%的数据有效率,解决了现有开环工作流程的可靠性问题。
- **数据混合比例实证研究**:首次系统探索了无机器人数据与少量真实机器人数据的最优混合比例(如10:1),在保持性能的同时将采集成本降低20倍。
- **零样本跨具身迁移**:构建了2000小时的无机器人数据集,并实现了向目标物理机器人的零样本迁移,展示了高度可扩展的通用现实世界操作方法。
论文对该领域的整体贡献包括:
- 提出了一个完整的软硬件系统XRZero-G0,为高质量具身数据收集提供了可复现的解决方案。
- 建立了可靠的数据质量控制流程和最优数据混合策略,为大规模机器人操作学习提供了方法论指导。
- 通过实证证明了大规模无机器人数据与少量真实机器人数据混合的高效性,大幅降低了数据采集成本。
- 开源了项目代码和数据集,推动了灵巧操作研究社区的发展。