← 返回论文列表

VISTA: 基于视觉与物理验证的UMI数据自适应用于VLA训练
VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training

作者: Siyuan Yang, Linzheng Guo, Ouyang Lu 等13人
arXiv: 2606.04708v1
分类: cs.RO, cs.AI
📝 论文摘要
通用操作接口(UMI)实现了无需特定硬件遥操作的可扩展真实世界机器人数据采集,然而利用UMI数据训练大规模视觉-语言-动作(VLA)模型仍面临根本性挑战。我们识别出两个关键不匹配:腕戴式鱼眼视图存在严重径向畸变且以局部夹爪为中心,对于预训练VLM属于分布外数据;人类采集的轨迹频繁违反运动学约束、引发碰撞或超出控制器带宽,导致VLA策略学习到物理上不可行的动作。针对这些挑战,我们提出VISTA框架,通过三个协同组件弥合上述双重鸿沟:(i)UMI-VQA——首个针对腕戴式鱼眼观测的大规模视觉问答数据集,通过辅助视觉-语言监督将VLM表征对齐至畸变视觉域;(ii)系统性物理验证管线,在训练前对数据进行完整性预检,并为每条有效轨迹的轨迹连续性、自碰撞风险及执行保真度评分;(iii)两阶段协同训练方案,联合学习UMI-VQA的视觉-语言基础能力和已验证轨迹的动作预测。实验表明,引入UMI-VQA能够持续提升下游策略性能,且物理验证分数对部署成功率具有强预测能力。在多样化的仿真和真实世界操作任务中,VISTA显著优于包括$π_{0.5}$、LingBot-VLA和Wall-X在内的强基线。我们向社区开源了物理验证管线、UMI-VQA数据集、已验证轨迹数据及预训练模型。

📊 核心分析

🎯 研究动机
- 现有**通用操作接口(Universal Manipulation Interface, UMI)** 数据在训练大规模**视觉-语言-动作模型(Vision-Language-Action, VLA)** 时存在两个关键不匹配:一是腕装鱼眼视图的严重径向畸变和局部视角导致预训练**视觉语言模型(Vision-Language Model, VLM)** 分布外;二是人类采集的轨迹常违反运动学限制、产生碰撞或超出控制器带宽,导致VLA学习物理上不可行的动作 - 研究背景:UMI虽然实现了无需专用遥操作的规模化数据采集,但如何有效利用这些数据训练VLA模型仍面临根本挑战,现有方法未能同时解决视觉域偏移和物理可行性问题
🔧 核心方法
- 提出**VISTA** 框架,包含三个协同组件:**UMI-VQA**——首个大规模面向腕装鱼眼观测的**视觉问答(Visual Question Answering, VQA)** 数据集,通过辅助视觉语言监督将VLM表示对齐到畸变视觉域;**系统化的物理验证管道(physical-validation pipeline)**——对每个有效轨迹进行数据完整性预检、轨迹连续性、自碰撞风险和执​​行保真度评分;**两阶段联合训练(two-stage co-training)**——先在UMI-VQA上学习视觉语言基础,再在验证过的轨迹上学习动作预测 - 具体技术:使用大规模VQA数据微调VLM,通过物理验证评分筛选高质量轨迹,两阶段训练流程分别优化视觉语言对齐和动作策略学习
💡 核心创新
- **首次系统性解决UMI数据与VLA训练的双重不匹配**:同时处理视觉域偏移(鱼眼畸变导致的分布外)和物理可行性问题(轨迹违反现实约束),而非仅关注单一挑战 - **提出UMI-VQA**:首个专为腕装鱼眼观测设计的大规模VQA数据集,通过辅助视觉语言监督将VLM表示对齐到畸变视觉域,显著提升跨域泛化能力 - **引入多维物理验证管道(physical-validation pipeline)**:对轨迹进行连续性、自碰撞风险、执行保真度等多维度评分,自动筛选出物理上可行的训练数据,避免VLA学习不可行动作 - **两阶段联合训练策略**:先对齐视觉语言表示(UMI-VQA),再学习动作预测(验证轨迹),有效避免领域漂移和无效数据污染,相比单阶段或直接训练效果更优
🏆 总体贡献
- 提供了一套完整的**VISTA框架**,包括UMI-VQA数据集、物理验证管道、两阶段训练方法,在多种仿真和真实操作任务上显著优于强基线(如π₀.₅、LingBot-VLA、Wall-X),证明该方法可有效桥接UMI数据与VLA训练的鸿沟 - 实验证实**UMI-VQA可一致提升下游策略性能**,且**物理验证评分与部署成功率强相关**,为数据筛选提供了可量化的理论依据 - 开源了物理验证管道、UMI-VQA、验证轨迹数据和预训练模型,促进社区复现、扩展与后续研究,推动低成本遥操作数据在VLA训练中的应用