← 返回论文列表

从视频先验与异步去噪的统一4D世界动作建模
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

作者: Jun Guo, Qiwei Li, Peiyan Li 等10人
arXiv: 2604.26694v1
分类: cs.RO, cs.AI, cs.CV
📝 论文摘要
我们提出X-WAM——一种统一的4D世界模型,将实时机器人动作执行与高保真4D世界合成(视频+3D重建)整合于单一框架,解决了先前统一世界模型(如UWM)仅建模2D像素空间且无法平衡动作效率与世界建模质量的关键局限。为利用预训练视频扩散模型的强视觉先验,X-WAM通过预测多视角RGB-D视频来想象未来世界,并通过轻量级结构适配高效获取空间信息:将预训练扩散Transformer的最后几个块复制到专用的深度预测分支中,用于重建未来空间信息。此外,我们提出异步噪声采样(ANS)以联合优化生成质量与动作解码效率。ANS在推理时采用专门的异步去噪调度,通过较少步骤快速解码动作以实现高效的实时执行,同时将完整步骤序列用于生成高保真视频。ANS并非在训练期间完全解耦时间步,而是从它们的联合分布中采样以对齐推理分布。在超过5800小时机器人数据上预训练的X-WAM,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,同时生成的高保真4D重建与生成在视觉和几何指标上均超越现有方法。

📊 核心分析

🎯 研究动机
- 现有统一世界模型(如UWM)仅建模2D像素空间,无法同时满足实时机器人动作执行与高保真4D世界(视频+3D重建)合成的需求 - 机器人任务要求在低延迟下解码动作,同时生成高质量的未来世界预测,但现有方法难以平衡动作效率与生成质量 - 研究背景:预训练**视频扩散模型(video diffusion model)** 具有强大的视觉先验,但如何将其高效适配到4D建模与实时控制中仍是挑战
🔧 核心方法
- 提出 **X-WAM** 统一框架,通过预测多视角RGB-D视频来想象未来世界,利用预训练**视频扩散模型(video diffusion model)** 的视觉先验 - 采用轻量级结构适配:复制预训练**扩散变换器(Diffusion Transformer)** 的最后几个块作为专门的**深度预测分支(depth prediction branch)**,高效重建未来空间信息 - 提出**异步噪声采样(Asynchronous Noise Sampling, ANS)**,推理时使用异步去噪调度:用较少步骤快速解码动作,用完整步骤生成高保真视频;训练时从联合分布采样以对齐推理分布
💡 核心创新
- **首创性**:首次在单一框架中统一实时机器人动作执行与高保真4D世界(视频+3D重建)合成,突破2D像素世界模型的局限 - **异步噪声采样(ANS)**:解耦动作解码与视频生成的去噪步数,在不降低生成质量的前提下显著提升动作效率,实现实时控制 - **轻量级深度适配**:仅复制扩散模型的最后几个块用于深度预测,避免了从零训练3D模块,保留了预训练知识的强大先验
🏆 总体贡献
- 为机器人操作领域提供了**统一4D世界模型** 的新范式,弥合了2D像素世界模型与真实物理世界之间的鸿沟 - 在RoboCasa和RoboTwin 2.0基准上达到**最优成功率** (79.2%和90.7%),在视觉与几何指标上超越现有方法 - 基于5800+小时机器人数据的大规模预训练,展示了模型在多样化真实世界任务中的泛化能力与实用性