- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型依赖大规模真实世界视频,而模拟数据虽廉价且可并行收集,但存在严重的**视觉域差距(visual domain gap)** 和环境多样性不足,导致真实世界泛化能力弱
- 需要一种高效的视频数据增强方法,将模拟视频转化为逼真的训练视频,同时保留任务语义和动作轨迹
- 提出一个高效的**视频增强框架(video augmentation framework)**,包含三个步骤:从模拟中提取结构化条件(通过**视频语义分割(video semantic segmentation)** 和**视频描述(video captioning)**)、重写描述以多样化环境、使用**条件视频迁移模型(conditional video transfer model)** 合成逼真视频
- 引入**扩散特征重用机制(diffusion feature-reuse mechanism)**,在相邻时间步重用视频token以加速生成
- 采用**核心集采样策略(coreset sampling strategy)**,在有限计算资源下识别紧凑、非冗余的子集进行数据增强
- **首次** 提出将模拟VLA视频高效转化为真实感视频的**端到端(end-to-end)** 增强框架,同时保留任务语义和动作轨迹
- 创新性地结合**结构化条件提取** 与**扩散特征重用**,大幅提升视频生成效率,使大规模增强变得可行
- 引入**核心集采样** 策略,在有限计算预算下选择最具代表性的子集进行增强,避免冗余计算
- 在多个基准(Robotwin 2.0、LIBERO、LIBERO-Plus)和真实机器人平台上验证了方法的有效性,例如在Robotwin 2.0上提升**RDT-1B** 模型8%,在LIBERO-Plus上提升**π₀** 模型5.1%
- 为VLA模型的数据增强提供了一种低成本、可扩展的范式,弥合了模拟与真实之间的视觉鸿沟
- 开源代码(GitHub)促进了社区的复现和后续研究