该论文旨在解决现有以自我为中心(egocentric)的模拟器存在的两个关键问题:
- 缺乏明确的3D基础(3D grounding),导致在视角变化下出现结构漂移(structural drift)
- 将场景视为静态(static),无法在多阶段交互(multi-stage interactions)中更新世界状态(world states)
论文提出了EgoSim系统,包含以下核心技术:
- 将3D场景建模为可更新的世界状态(updatable world states)
- 通过几何-动作感知的观察模拟模型(Geometry-action-aware Observation Simulation model)生成具身交互(embodiment interactions)
- 通过交互感知的状态更新模块(Interaction-aware State Updating module)确保空间一致性(spatial consistency)
- 设计可扩展的数据处理流程(scalable pipeline),从大规模单目以自我为中心的视频(in-the-wild large-scale monocular egocentric videos)中提取静态点云(static point clouds)、相机轨迹(camera trajectories)和具身动作(embodiment actions)
- 开发低成本数据采集系统EgoCap,使用未校准的智能手机(uncalibrated smartphones)进行现实世界数据收集
论文的核心创新点包括:
- 首次提出闭环(closed-loop)的以自我为中心的世界模拟器,能够持续更新底层3D场景状态(underlying 3D scene state)以实现连续模拟(continuous simulation)
- 通过将3D场景建模为可更新的世界状态,同时解决了现有方法的结构漂移和静态场景限制
- 设计了创新的数据采集和处理流程,克服了密集对齐的场景-交互训练对(scene-interaction training pairs)难以获取的关键数据瓶颈(data bottleneck)
- 开发了低成本、易用的EgoCap系统,显著降低了现实世界数据收集的门槛
论文对该领域的整体贡献包括:
- 提出了EgoSim系统,在视觉质量(visual quality)、空间一致性和对复杂场景及野外灵巧交互(in-the-wild dexterous interactions)的泛化能力(generalization)方面显著优于现有方法
- 支持跨具身(cross-embodiment)迁移到机器人操作(robotic manipulation)
- 提供了可扩展的数据采集和处理解决方案,为未来研究提供了宝贵的数据资源
- 代码和数据集将开源,促进相关领域的发展