← 返回论文列表

动作图像:通过多视角视频生成的端到端策略学习
Action Images: End-to-End Policy Learning via Multiview Video Generation

作者: Haoyu Zhen, Zixian Gao, Qiao Sun 等9人
arXiv: 2604.06168v1
分类: cs.CV, cs.RO
📝 论文摘要
世界动作模型作为机器人策略学习的一个新兴方向,因其能够利用强大的视频骨干网络对未来状态进行建模而备受关注。然而,现有方法通常依赖独立的动作模块,或使用非像素基础的动作表示,这导致难以充分利用预训练视频模型的知识,并限制了跨视角和跨环境的迁移能力。本研究提出"动作图像"这一统一的世界动作模型,将策略学习构建为多视角视频生成任务。不同于将控制指令编码为低维标记,我们将七自由度机器人动作转化为可解释的动作图像——这种基于二维像素的多视角动作视频能够显式追踪机械臂运动轨迹。这种像素基础的动作表示使得视频骨干网络本身即可作为零样本策略,无需额外的策略头或动作模块。除控制功能外,该统一模型在共享表征框架下还能支持视频-动作联合生成、动作条件视频生成以及动作标注任务。在RLBench仿真环境和真实场景的评估中,我们的模型实现了最优的零样本成功率,并在视频-动作联合生成质量上超越了现有视频空间世界模型,表明可解释的动作图像是策略学习的一条有效路径。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人策略学习(policy learning)中现有世界动作模型(World Action Models, WAMs)的两个关键问题: • 现有方法通常依赖独立于视频主干网络的动作模块或使用非像素基础(non-pixel-grounded)的动作表示,这限制了预训练视频模型知识的充分利用。 • 现有方法的动作表示在跨视角(viewpoints)和跨环境(environments)的迁移能力上存在局限。
🔧 核心方法
论文提出了一个名为“动作图像(Action Images)”的统一世界动作模型,其核心方法包括: • 将策略学习问题重新表述为多视角视频生成(multiview video generation)任务。 • 将7自由度(7-DoF)的机器人动作转换为可解释的“动作图像”——这是一种基于2D像素(pixel-grounded)的多视角动作视频,能够显式地跟踪机器人手臂的运动。 • 利用视频主干网络(video backbone)本身作为零样本策略(zero-shot policy),无需额外的策略头(policy head)或独立动作模块。
💡 核心创新
论文的核心创新点在于提出了一种全新的、基于像素的动作表示范式: • **像素基础的动作表示(Pixel-Grounded Action Representation)**:与现有工作使用低维动作令牌(low-dimensional action tokens)不同,本工作将高维动作显式地编码为可解释的、多视角的“动作图像”视频。这使得动作在视觉上是可追踪和可解释的。 • **统一的视频生成框架(Unified Video Generation Framework)**:将策略学习、视频-动作联合生成(video-action joint generation)、动作条件视频生成(action-conditioned video generation)和动作标注(action labeling)统一在一个共享的表示和模型之下,实现了多功能一体化。 • **主干网络即策略(Backbone-as-Policy)**:得益于像素基础的动作表示,预训练的视频主干网络可以直接作为零样本策略执行,无需任何额外的适配模块,极大地简化了架构并促进了知识迁移。
🏆 总体贡献
论文对该领域的总体贡献包括: • **方法论贡献**:提出并验证了“动作图像”这一将策略学习视为多视角视频生成的新范式,为机器人学习提供了一种更直观、更统一且可迁移性更强的表示方法。 • **性能贡献**:在RLBench仿真环境和真实世界评估中,该模型实现了最先进的零样本成功率(zero-shot success rates),并在视频-动作联合生成质量上超越了先前的视频空间世界模型(video-space world models)。 • **方向性贡献**:证明了可解释的、像素基础的动作表示是将强大的视频生成模型应用于机器人策略学习的一条有效且富有前景的技术路线。