该论文旨在解决机器人策略学习(policy learning)中现有世界动作模型(World Action Models, WAMs)的两个关键问题:
• 现有方法通常依赖独立于视频主干网络的动作模块或使用非像素基础(non-pixel-grounded)的动作表示,这限制了预训练视频模型知识的充分利用。
• 现有方法的动作表示在跨视角(viewpoints)和跨环境(environments)的迁移能力上存在局限。
论文提出了一个名为“动作图像(Action Images)”的统一世界动作模型,其核心方法包括:
• 将策略学习问题重新表述为多视角视频生成(multiview video generation)任务。
• 将7自由度(7-DoF)的机器人动作转换为可解释的“动作图像”——这是一种基于2D像素(pixel-grounded)的多视角动作视频,能够显式地跟踪机器人手臂的运动。
• 利用视频主干网络(video backbone)本身作为零样本策略(zero-shot policy),无需额外的策略头(policy head)或独立动作模块。
论文的核心创新点在于提出了一种全新的、基于像素的动作表示范式:
• **像素基础的动作表示(Pixel-Grounded Action Representation)**:与现有工作使用低维动作令牌(low-dimensional action tokens)不同,本工作将高维动作显式地编码为可解释的、多视角的“动作图像”视频。这使得动作在视觉上是可追踪和可解释的。
• **统一的视频生成框架(Unified Video Generation Framework)**:将策略学习、视频-动作联合生成(video-action joint generation)、动作条件视频生成(action-conditioned video generation)和动作标注(action labeling)统一在一个共享的表示和模型之下,实现了多功能一体化。
• **主干网络即策略(Backbone-as-Policy)**:得益于像素基础的动作表示,预训练的视频主干网络可以直接作为零样本策略执行,无需任何额外的适配模块,极大地简化了架构并促进了知识迁移。
论文对该领域的总体贡献包括:
• **方法论贡献**:提出并验证了“动作图像”这一将策略学习视为多视角视频生成的新范式,为机器人学习提供了一种更直观、更统一且可迁移性更强的表示方法。
• **性能贡献**:在RLBench仿真环境和真实世界评估中,该模型实现了最先进的零样本成功率(zero-shot success rates),并在视频-动作联合生成质量上超越了先前的视频空间世界模型(video-space world models)。
• **方向性贡献**:证明了可解释的、像素基础的动作表示是将强大的视频生成模型应用于机器人策略学习的一条有效且富有前景的技术路线。