该论文旨在解决机器人基础模型训练中高质量演示数据稀缺的问题。研究背景是:大规模人类遥操作数据训练推动了机器人基础模型的发展,但收集任务特定的演示数据成本高昂且劳动密集。合成数据(特别是生成视频)是一个有前景的方向,但现有方法存在以下局限:
- 世界模型(World Models)不提供配对的行动轨迹,不适合策略学习
- 世界-行动(World-Action)模型虽然能预测行动,但视频与行动的对齐性不足
- 两阶段流水线(先生成视频再推断行动)效率低下且存在误差累积
论文提出了VAG(双流视频-行动生成)框架,具体方法包括:
- 采用基于流匹配(flow-matching)的统一双流架构,在视觉和语言条件约束下联合生成视频和行动
- 通过同步两个分支的去噪过程,确保生成的一致性
- 使用自适应3D池化(adaptive 3D pooling)机制,将紧凑的全局视频上下文信息传递到行动分支
- 在模拟和真实世界环境中进行验证,支持可执行轨迹回放
论文的核心创新点在于:
- 提出了首个基于流匹配的双流联合生成框架,实现了视频与行动的高质量同步生成,解决了现有方法中模态对齐不足的问题
- 设计了自适应3D池化机制,实现了从视频分支到行动分支的有效上下文传递,增强了跨模态一致性
- 将世界-行动建模从传统的两阶段分解转变为端到端的联合生成,避免了误差累积并提高了效率
- 证明了生成的合成数据能有效提升下游策略的泛化能力,为具身数据合成提供了实用解决方案
论文对该领域的整体贡献包括:
- 提出了VAG这一新型世界-行动模型,为具身数据合成提供了高效的视频-行动对生成方案
- 在模拟和真实环境中验证了框架的有效性,生成的视频-行动对具有竞争力的预测质量
- 证明了合成预训练数据能显著提升下游策略的泛化性能
- 为机器人基础模型的规模化训练提供了高质量合成数据生成的新范式