VAG：面向具身数据合成的双流视频-动作生成

📝 论文摘要

基于大规模人类遥操作数据训练的机器人基础模型近期取得进展，使得机器人能够执行日益复杂的现实世界任务。然而，扩展这些系统仍然困难，因为收集特定任务演示既昂贵又劳动密集。合成数据，特别是生成视频，提供了一个有前景的方向，但现有的世界模型并不直接适用于策略学习，因为它们不提供配对的动作轨迹。世界-动作模型通过预测带有视觉输出的动作部分解决了这一问题，但往往缺乏强大的视频-动作对齐，而先生成视频再推断动作的两阶段流程则引入了低效率和误差累积。为解决这些限制，我们提出了VAG，一个基于流匹配的统一双流框架，在视觉和语言条件下联合生成视频和动作。通过同步两个分支的去噪过程，并使用自适应3D池化机制将紧凑的全局视频上下文传递到动作分支，VAG提高了生成过程中的跨模态一致性。在模拟和现实世界环境中，VAG生成对齐的视频-动作对，具有竞争力的预测质量，支持可执行轨迹回放，并提供有用的合成预训练数据，从而改善下游策略的泛化能力，表明其作为具身数据合成的实用世界-动作模型的潜力。

🎯 研究动机

该论文旨在解决机器人基础模型训练中高质量演示数据稀缺的问题。研究背景是：大规模人类遥操作数据训练推动了机器人基础模型的发展，但收集任务特定的演示数据成本高昂且劳动密集。合成数据（特别是生成视频）是一个有前景的方向，但现有方法存在以下局限： - 世界模型(World Models)不提供配对的行动轨迹，不适合策略学习 - 世界-行动(World-Action)模型虽然能预测行动，但视频与行动的对齐性不足 - 两阶段流水线（先生成视频再推断行动）效率低下且存在误差累积

🔧 核心方法

论文提出了VAG（双流视频-行动生成）框架，具体方法包括： - 采用基于流匹配(flow-matching)的统一双流架构，在视觉和语言条件约束下联合生成视频和行动 - 通过同步两个分支的去噪过程，确保生成的一致性 - 使用自适应3D池化(adaptive 3D pooling)机制，将紧凑的全局视频上下文信息传递到行动分支 - 在模拟和真实世界环境中进行验证，支持可执行轨迹回放

💡 核心创新

论文的核心创新点在于： - 提出了首个基于流匹配的双流联合生成框架，实现了视频与行动的高质量同步生成，解决了现有方法中模态对齐不足的问题 - 设计了自适应3D池化机制，实现了从视频分支到行动分支的有效上下文传递，增强了跨模态一致性 - 将世界-行动建模从传统的两阶段分解转变为端到端的联合生成，避免了误差累积并提高了效率 - 证明了生成的合成数据能有效提升下游策略的泛化能力，为具身数据合成提供了实用解决方案

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了VAG这一新型世界-行动模型，为具身数据合成提供了高效的视频-行动对生成方案 - 在模拟和真实环境中验证了框架的有效性，生成的视频-行动对具有竞争力的预测质量 - 证明了合成预训练数据能显著提升下游策略的泛化性能 - 为机器人基础模型的规模化训练提供了高质量合成数据生成的新范式

VAG：面向具身数据合成的双流视频-动作生成
VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis

📊 核心分析

VAG：面向具身数据合成的双流视频-动作生成 VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis

📊 核心分析

VAG：面向具身数据合成的双流视频-动作生成
VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis