从视频先验与异步去噪的统一4D世界动作建模

📝 论文摘要

我们提出X-WAM——一种统一的4D世界模型，将实时机器人动作执行与高保真4D世界合成（视频+3D重建）整合于单一框架，解决了先前统一世界模型（如UWM）仅建模2D像素空间且无法平衡动作效率与世界建模质量的关键局限。为利用预训练视频扩散模型的强视觉先验，X-WAM通过预测多视角RGB-D视频来想象未来世界，并通过轻量级结构适配高效获取空间信息：将预训练扩散Transformer的最后几个块复制到专用的深度预测分支中，用于重建未来空间信息。此外，我们提出异步噪声采样（ANS）以联合优化生成质量与动作解码效率。ANS在推理时采用专门的异步去噪调度，通过较少步骤快速解码动作以实现高效的实时执行，同时将完整步骤序列用于生成高保真视频。ANS并非在训练期间完全解耦时间步，而是从它们的联合分布中采样以对齐推理分布。在超过5800小时机器人数据上预训练的X-WAM，在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率，同时生成的高保真4D重建与生成在视觉和几何指标上均超越现有方法。

🎯 研究动机

- 现有统一世界模型（如UWM）仅建模2D像素空间，无法同时满足实时机器人动作执行与高保真4D世界（视频+3D重建）合成的需求 - 机器人任务要求在低延迟下解码动作，同时生成高质量的未来世界预测，但现有方法难以平衡动作效率与生成质量 - 研究背景：预训练**视频扩散模型(video diffusion model)** 具有强大的视觉先验，但如何将其高效适配到4D建模与实时控制中仍是挑战

🔧 核心方法

- 提出 **X-WAM** 统一框架，通过预测多视角RGB-D视频来想象未来世界，利用预训练**视频扩散模型(video diffusion model)** 的视觉先验 - 采用轻量级结构适配：复制预训练**扩散变换器(Diffusion Transformer)** 的最后几个块作为专门的**深度预测分支(depth prediction branch)**，高效重建未来空间信息 - 提出**异步噪声采样(Asynchronous Noise Sampling, ANS)**，推理时使用异步去噪调度：用较少步骤快速解码动作，用完整步骤生成高保真视频；训练时从联合分布采样以对齐推理分布

💡 核心创新

- **首创性**：首次在单一框架中统一实时机器人动作执行与高保真4D世界（视频+3D重建）合成，突破2D像素世界模型的局限 - **异步噪声采样(ANS)**：解耦动作解码与视频生成的去噪步数，在不降低生成质量的前提下显著提升动作效率，实现实时控制 - **轻量级深度适配**：仅复制扩散模型的最后几个块用于深度预测，避免了从零训练3D模块，保留了预训练知识的强大先验

🏆 总体贡献

- 为机器人操作领域提供了**统一4D世界模型** 的新范式，弥合了2D像素世界模型与真实物理世界之间的鸿沟 - 在RoboCasa和RoboTwin 2.0基准上达到**最优成功率** （79.2%和90.7%），在视觉与几何指标上超越现有方法 - 基于5800+小时机器人数据的大规模预训练，展示了模型在多样化真实世界任务中的泛化能力与实用性

从视频先验与异步去噪的统一4D世界动作建模
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

📊 核心分析

从视频先验与异步去噪的统一4D世界动作建模 Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

📊 核心分析

从视频先验与异步去噪的统一4D世界动作建模
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising