多视角视频扩散策略：一种三维时空感知的视频动作模型

📝 论文摘要

机器人操作需要同时理解环境的3维空间结构及其时间演化规律，但现有策略大多忽略了其中一方面或两者。这些策略通常依赖二维视觉观测和基于静态图像-文本对预训练的骨干网络，导致数据需求量大且对环境动态理解有限。为此，我们提出多视角视频扩散策略MV-VDP，该策略能联合建模环境的3维时空状态。其核心思想是同步预测多视角热力图视频与RGB视频，这实现了双重目标：1）使视频预训练的表征格式与动作微调阶段对齐；2）不仅明确机器人应执行的动作，还预测环境在动作影响下的预期演化轨迹。大量实验表明，MV-VDP能够实现数据高效、鲁棒性强、可泛化且可解释的操作。仅需十条演示轨迹且无需额外预训练，MV-VDP即可成功执行复杂现实任务，在一系列模型超参数下展现强鲁棒性，泛化至分布外场景，并预测逼真的未来视频。在Meta-World仿真平台和真实机器人平台上的实验证明，MV-VDP在基于视频预测、3D建模及视觉-语言-动作三类模型中均取得持续优势，为数据高效的多任务操作确立了新的技术标杆。

🎯 研究动机

该论文旨在解决机器人操作任务中现有策略的两个主要局限： - 大多数策略依赖2D视觉观察和在静态图像-文本对上预训练的骨干网络，导致数据需求高且对环境动态理解有限。 - 现有方法通常忽视环境的3D空间结构或时间演化，或两者兼有，难以高效处理复杂的操作任务。

🔧 核心方法

论文提出了MV-VDP（多视角视频扩散策略），这是一种联合建模环境3D时空状态的方法： - 核心是同时预测多视角热图视频(heatmap videos)和RGB视频。 - 该方法将视频预训练的表征格式与动作微调对齐。 - 它不仅指定机器人应采取的动作，还预测环境如何响应这些动作而演化。 - 基于扩散模型(diffusion model)框架，在仅有10条演示轨迹且无需额外预训练的条件下实现高效学习。

💡 核心创新

论文的核心创新点在于： - **3D时空感知的视频动作联合建模**：首次将多视角视频预测与动作生成在统一的扩散策略框架中结合，同时建模空间（3D）和时间动态。 - **表征对齐创新**：通过同时预测热图视频和RGB视频，实现了视频预训练表征与动作微调任务的自然对齐，解决了传统方法因格式不匹配导致的数据低效问题。 - **双重预测机制**：不仅输出动作，还显式预测环境的未来演化视频，使策略具备内在可解释性并能通过环境反馈进行自我验证。

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了MV-VDP，一种数据高效、鲁棒、可泛化且可解释的多任务操作新方法。 - 在Meta-World和真实机器人平台上实验证明，其性能一致优于基于视频预测、基于3D以及视觉-语言-动作模型的方法，确立了数据高效多任务操作的新技术水准(state of the art)。 - 仅需极少演示（10条轨迹）且无需额外预训练即可完成复杂真实世界任务，显著降低了机器人学习的数据需求。 - 提供了可预测真实未来视频的能力，增强了策略的透明度和可靠性。

多视角视频扩散策略：一种三维时空感知的视频动作模型
Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model

📊 核心分析

多视角视频扩散策略：一种三维时空感知的视频动作模型 Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model

📊 核心分析

多视角视频扩散策略：一种三维时空感知的视频动作模型
Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model