该论文旨在解决机器人操作任务中现有策略的两个主要局限:
- 大多数策略依赖2D视觉观察和在静态图像-文本对上预训练的骨干网络,导致数据需求高且对环境动态理解有限。
- 现有方法通常忽视环境的3D空间结构或时间演化,或两者兼有,难以高效处理复杂的操作任务。
论文提出了MV-VDP(多视角视频扩散策略),这是一种联合建模环境3D时空状态的方法:
- 核心是同时预测多视角热图视频(heatmap videos)和RGB视频。
- 该方法将视频预训练的表征格式与动作微调对齐。
- 它不仅指定机器人应采取的动作,还预测环境如何响应这些动作而演化。
- 基于扩散模型(diffusion model)框架,在仅有10条演示轨迹且无需额外预训练的条件下实现高效学习。
论文的核心创新点在于:
- **3D时空感知的视频动作联合建模**:首次将多视角视频预测与动作生成在统一的扩散策略框架中结合,同时建模空间(3D)和时间动态。
- **表征对齐创新**:通过同时预测热图视频和RGB视频,实现了视频预训练表征与动作微调任务的自然对齐,解决了传统方法因格式不匹配导致的数据低效问题。
- **双重预测机制**:不仅输出动作,还显式预测环境的未来演化视频,使策略具备内在可解释性并能通过环境反馈进行自我验证。
论文对该领域的整体贡献包括:
- 提出了MV-VDP,一种数据高效、鲁棒、可泛化且可解释的多任务操作新方法。
- 在Meta-World和真实机器人平台上实验证明,其性能一致优于基于视频预测、基于3D以及视觉-语言-动作模型的方法,确立了数据高效多任务操作的新技术水准(state of the art)。
- 仅需极少演示(10条轨迹)且无需额外预训练即可完成复杂真实世界任务,显著降低了机器人学习的数据需求。
- 提供了可预测真实未来视频的能力,增强了策略的透明度和可靠性。