当前机器人建图系统通常基于机器人自身传感器构建度量-语义场景表示,但这种'第一人称'地图受限于机器人的物理形态或技能,导致环境中的许多方面(如无法打开的抽屉、无法触及的壁柜)未被探索,地图表示不完整。需要更强大的机器人来填补这些空白。
论文提出Pandora方法,核心是利用人类佩戴Project Aria眼镜自然探索场景时采集的自我中心(egocentric)视觉数据。具体步骤包括:
- 使用简单的启发式方法从自我中心数据中恢复铰接式物体部件的模型
- 将这些模型集成到3D场景图(3D scene graph)表示中,以更好地理解物体动态和物体-容器关系
论文的核心创新点在于:
- **首创利用自我中心视觉数据构建铰接式3D场景图**:与现有基于机器人自身传感器或其他输入模态的方法不同,该方法通过人类自然探索获得的数据直接获取铰接知识,突破了机器人物理限制带来的感知盲区
- **实现了从人类到机器人的知识迁移**:将人类探索获得的铰接物体知识(如抽屉开合、柜门转动)直接迁移到任何可部署机器人,解决了传统方法因机器人能力限制导致的地图不完整问题
- **构建了包含动态铰接结构的场景表示**:在传统3D场景图基础上增加了对物体铰接部件和动态关系的建模,使场景表示更加完整和实用
论文对该领域的整体贡献包括:
- 提出了一种利用自我中心视觉数据构建铰接式3D场景图的新范式,弥补了传统机器人建图方法的感知盲区
- 展示了该方法恢复的铰接物体部件模型质量与基于其他输入模态的最先进方法相当
- 验证了铰接式3D场景图能显著增强机器人的移动操作能力,在波士顿动力Spot机器人执行检索隐藏目标物品的任务中展示了实际应用价值
- 为机器人感知和场景理解领域提供了一种更完整、更具动态性的场景表示方法