该论文旨在解决移动操作(mobile manipulation)中的视图泛化(view generalization)问题。研究背景是:现有方法通常采用两阶段范式(先导航到对接点(docking point),再进行固定基座操作),但在实际部署中,由于对接点的偏移会导致观察视角变化,现有强大的视觉运动(visuomotor)策略难以泛化。
论文提出了一个名为DockAnywhere的低成本演示生成(demonstration generation)框架。具体方法包括:
- 将单条演示轨迹提升(lift)到多个可行的对接配置:通过解耦(docking-dependent)依赖于对接的基座运动与在不同视角下保持不变的、富含接触(contact-rich)的操作技能。
- 在可行性约束下采样可行的对接提议(docking proposals),并通过结构保持增强(structure-preserving augmentation)生成对应轨迹。
- 在3D空间中合成视觉观察:将机器人和物体表示为点云(point clouds),并应用点级(point-level)空间编辑,以确保跨视角下观察与动作的一致性。
论文的核心创新点在于:
- 提出了一个新颖的、数据高效(data-efficient)的演示生成框架,能够从单条人类演示中自动生成大量、多样且物理可行的轨迹,专门用于解决移动操作中的对接点变化导致的视角泛化问题。
- 其关键独特之处在于“解耦与提升”的思想:将轨迹分解为与对接相关的基座运动和视角不变的操作技能,从而允许基座运动根据新的对接点进行适配,同时保留核心操作技能。这不同于需要大量演示数据或难以泛化到新视角的传统方法。
- 通过点云表示和空间编辑在3D空间中合成视觉观察,确保了生成数据在观察-动作对上的跨视角一致性,这是实现有效策略学习的关键。
论文对该领域的整体贡献是:
- 提出并验证了DockAnywhere框架,它显著提升了移动操作策略在对接点变化下的成功率和泛化能力。
- 在ManiSkill仿真环境和真实机器人平台上的大量实验表明,该方法能有效泛化到训练中未见的对接点所对应的新视角。
- 该方法通过高效的数据生成,降低了对大量真实世界演示数据的依赖,为提升移动操作策略在真实世界部署中的鲁棒性和泛化性提供了一种有效的解决方案。