EgoSim：面向具身交互生成的自中心世界模拟器

📝 论文摘要

我们推出EgoSim，一个闭环的以自我为中心的世界模拟器，能够生成空间一致的交互视频，并持续更新底层3D场景状态以实现连续模拟。现有的以自我为中心模拟器要么缺乏明确的3D基础，导致视角变化下的结构漂移；要么将场景视为静态，无法在多阶段交互中更新世界状态。EgoSim通过将3D场景建模为可更新的世界状态，解决了这两个限制。我们通过几何-动作感知的观察模拟模型生成具身交互，并借助交互感知状态更新模块确保空间一致性。为克服因难以获取密集对齐的场景-交互训练对而造成的关键数据瓶颈，我们设计了一个可扩展的流程，从野外大规模单目以自我为中心视频中提取静态点云、相机轨迹和具身动作。我们还引入了EgoCap，一个支持使用未校准智能手机进行低成本现实世界数据采集的系统。大量实验表明，EgoSim在视觉质量、空间一致性以及对复杂场景和野外灵巧交互的泛化能力方面显著优于现有方法，同时支持跨具身迁移至机器人操作。代码和数据集即将开源。项目页面位于egosimulator.github.io。

🎯 研究动机

该论文旨在解决现有以自我为中心(egocentric)的模拟器存在的两个关键问题： - 缺乏明确的3D基础(3D grounding)，导致在视角变化下出现结构漂移(structural drift) - 将场景视为静态(static)，无法在多阶段交互(multi-stage interactions)中更新世界状态(world states)

🔧 核心方法

论文提出了EgoSim系统，包含以下核心技术： - 将3D场景建模为可更新的世界状态(updatable world states) - 通过几何-动作感知的观察模拟模型(Geometry-action-aware Observation Simulation model)生成具身交互(embodiment interactions) - 通过交互感知的状态更新模块(Interaction-aware State Updating module)确保空间一致性(spatial consistency) - 设计可扩展的数据处理流程(scalable pipeline)，从大规模单目以自我为中心的视频(in-the-wild large-scale monocular egocentric videos)中提取静态点云(static point clouds)、相机轨迹(camera trajectories)和具身动作(embodiment actions) - 开发低成本数据采集系统EgoCap，使用未校准的智能手机(uncalibrated smartphones)进行现实世界数据收集

💡 核心创新

论文的核心创新点包括： - 首次提出闭环(closed-loop)的以自我为中心的世界模拟器，能够持续更新底层3D场景状态(underlying 3D scene state)以实现连续模拟(continuous simulation) - 通过将3D场景建模为可更新的世界状态，同时解决了现有方法的结构漂移和静态场景限制 - 设计了创新的数据采集和处理流程，克服了密集对齐的场景-交互训练对(scene-interaction training pairs)难以获取的关键数据瓶颈(data bottleneck) - 开发了低成本、易用的EgoCap系统，显著降低了现实世界数据收集的门槛

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了EgoSim系统，在视觉质量(visual quality)、空间一致性和对复杂场景及野外灵巧交互(in-the-wild dexterous interactions)的泛化能力(generalization)方面显著优于现有方法 - 支持跨具身(cross-embodiment)迁移到机器人操作(robotic manipulation) - 提供了可扩展的数据采集和处理解决方案，为未来研究提供了宝贵的数据资源 - 代码和数据集将开源，促进相关领域的发展

EgoSim：面向具身交互生成的自中心世界模拟器
EgoSim: Egocentric World Simulator for Embodied Interaction Generation

📊 核心分析

EgoSim：面向具身交互生成的自中心世界模拟器 EgoSim: Egocentric World Simulator for Embodied Interaction Generation

📊 核心分析

EgoSim：面向具身交互生成的自中心世界模拟器
EgoSim: Egocentric World Simulator for Embodied Interaction Generation