该论文旨在解决通用操作接口(Universal Manipulation Interface, UMI)在现实世界应用中的局限性。研究背景是:UMI虽然实现了便携式腕戴数据采集,但其依赖单目视觉SLAM(Simultaneous Localization and Mapping),使其在遮挡、动态场景和跟踪失败的情况下表现脆弱,限制了其在真实环境中的适用性。
论文提出了UMI-3D,其核心方法包括:
- 在腕戴式接口中紧密集成一个轻量级、低成本的激光雷达(LiDAR)传感器。
- 开发以激光雷达为中心的SLAM,在挑战性条件下实现精确的度量尺度姿态估计。
- 构建一个硬件同步的多模态感知管道。
- 提出一个统一的时空校准框架,用于对齐视觉观测与激光雷达点云,生成一致的演示3D表示。
- 尽管保持了原始的2D视觉运动策略(visuomotor policy)公式,但通过改进的数据质量提升了策略性能。
论文的核心创新点在于:
- **多模态感知扩展**:首次将低成本激光雷达与腕戴式UMI硬件紧密集成,从纯视觉感知扩展到3D空间感知,解决了原始系统对视觉SLAM的过度依赖及其固有缺陷。
- **鲁棒的数据采集系统**:通过激光雷达中心(LiDAR-centric)的SLAM和硬件同步的多模态管道,显著提升了在遮挡、动态等复杂真实场景下数据采集的鲁棒性和可靠性,这是纯视觉方案难以实现的。
- **统一的校准框架**:提出的时空校准框架确保了视觉与激光雷达数据在时空上的一致性,生成了高质量、一致的3D演示表示,为学习更复杂的操作任务奠定了基础。
- **保持便携性与性能提升的平衡**:在显著提升系统感知能力和数据质量的同时,成功保持了原始UMI的便携性和可访问性,并支持端到端的数据采集、对齐、训练和部署流程。
论文对该领域的总体贡献包括:
- **系统贡献**:提出了UMI-3D,一个开源、便携、鲁棒且可扩展的多模态操作数据采集与学习系统,将UMI从视觉受限感知扩展到3D空间感知。
- **能力提升**:实验证明,UMI-3D不仅提高了标准操作任务的成功率,而且能够学习对原始纯视觉UMI具有挑战性或不可行的任务,例如大变形物体操作和铰接物体操作。
- **资源开放**:所有硬件和软件组件均已开源,旨在促进大规模操作数据集的收集,并加速具身智能(embodied intelligence)领域的研究。