- 现有统一世界模型(如UWM)仅建模2D像素空间,无法同时满足实时机器人动作执行与高保真4D世界(视频+3D重建)合成的需求
- 机器人任务要求在低延迟下解码动作,同时生成高质量的未来世界预测,但现有方法难以平衡动作效率与生成质量
- 研究背景:预训练**视频扩散模型(video diffusion model)** 具有强大的视觉先验,但如何将其高效适配到4D建模与实时控制中仍是挑战
- 提出 **X-WAM** 统一框架,通过预测多视角RGB-D视频来想象未来世界,利用预训练**视频扩散模型(video diffusion model)** 的视觉先验
- 采用轻量级结构适配:复制预训练**扩散变换器(Diffusion Transformer)** 的最后几个块作为专门的**深度预测分支(depth prediction branch)**,高效重建未来空间信息
- 提出**异步噪声采样(Asynchronous Noise Sampling, ANS)**,推理时使用异步去噪调度:用较少步骤快速解码动作,用完整步骤生成高保真视频;训练时从联合分布采样以对齐推理分布
- **首创性**:首次在单一框架中统一实时机器人动作执行与高保真4D世界(视频+3D重建)合成,突破2D像素世界模型的局限
- **异步噪声采样(ANS)**:解耦动作解码与视频生成的去噪步数,在不降低生成质量的前提下显著提升动作效率,实现实时控制
- **轻量级深度适配**:仅复制扩散模型的最后几个块用于深度预测,避免了从零训练3D模块,保留了预训练知识的强大先验
- 为机器人操作领域提供了**统一4D世界模型** 的新范式,弥合了2D像素世界模型与真实物理世界之间的鸿沟
- 在RoboCasa和RoboTwin 2.0基准上达到**最优成功率** (79.2%和90.7%),在视觉与几何指标上超越现有方法
- 基于5800+小时机器人数据的大规模预训练,展示了模型在多样化真实世界任务中的泛化能力与实用性