← 返回论文列表

从模拟中见真实:面向视觉-语言-动作数据增强的高效视频迁移
Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation

作者: Chenyu Hui, Xiaodi Huang, Siyu Xu 等8人
arXiv: 2605.02757v1
分类: cs.CV, cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型通常依赖大规模真实世界视频,而仿真数据虽具有低成本和高并行采集优势,却常因显著的视觉域差异与环境多样性不足导致真实世界泛化能力薄弱。本文提出一种高效视频增强框架,可将仿真VLA视频转换为逼真的训练视频,同时保留任务语义与动作轨迹。该流水线通过视频语义分割与字幕生成技术从仿真环境中提取结构化条件,重写字幕以增加环境多样性,并利用条件视频迁移模型合成逼真视频。为实现规模化数据增强,我们引入扩散特征复用机制,通过跨相邻时间步复用视频令牌加速生成,并设计核心集采样策略,在有限算力下筛选紧凑无冗余的子集进行增强。在Robotwin 2.0、LIBERO、LIBERO-Plus及真实机器人平台上的大量实验表明,该方法持续提升模型性能。例如,该方法使RDT-1B在Robotwin 2.0上提升8%,使$π_0$在更具挑战性的LIBERO-Plus基准中提高5.1%。代码已开源:https://github.com/nanfangxiansheng/Seeing-Realism-from-Simulation。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型依赖大规模真实世界视频,而模拟数据虽廉价且可并行收集,但存在严重的**视觉域差距(visual domain gap)** 和环境多样性不足,导致真实世界泛化能力弱 - 需要一种高效的视频数据增强方法,将模拟视频转化为逼真的训练视频,同时保留任务语义和动作轨迹
🔧 核心方法
- 提出一个高效的**视频增强框架(video augmentation framework)**,包含三个步骤:从模拟中提取结构化条件(通过**视频语义分割(video semantic segmentation)** 和**视频描述(video captioning)**)、重写描述以多样化环境、使用**条件视频迁移模型(conditional video transfer model)** 合成逼真视频 - 引入**扩散特征重用机制(diffusion feature-reuse mechanism)**,在相邻时间步重用视频token以加速生成 - 采用**核心集采样策略(coreset sampling strategy)**,在有限计算资源下识别紧凑、非冗余的子集进行数据增强
💡 核心创新
- **首次** 提出将模拟VLA视频高效转化为真实感视频的**端到端(end-to-end)** 增强框架,同时保留任务语义和动作轨迹 - 创新性地结合**结构化条件提取** 与**扩散特征重用**,大幅提升视频生成效率,使大规模增强变得可行 - 引入**核心集采样** 策略,在有限计算预算下选择最具代表性的子集进行增强,避免冗余计算
🏆 总体贡献
- 在多个基准(Robotwin 2.0、LIBERO、LIBERO-Plus)和真实机器人平台上验证了方法的有效性,例如在Robotwin 2.0上提升**RDT-1B** 模型8%,在LIBERO-Plus上提升**π₀** 模型5.1% - 为VLA模型的数据增强提供了一种低成本、可扩展的范式,弥合了模拟与真实之间的视觉鸿沟 - 开源代码(GitHub)促进了社区的复现和后续研究