← 返回论文列表

VISTA:基于视觉和物理验证的UMI数据适配用于VLA训练
VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training

作者: Siyuan Yang, Linzheng Guo, Ouyang Lu 等13人
arXiv: 2606.04708
分类: cs.RO, cs.AI
📝 论文摘要
通用操作接口(UMI)使得无需特定硬件遥操作即可进行可扩展的真实世界机器人数据采集,但利用UMI数据训练大规模视觉-语言-动作(VLA)模型仍面临根本性挑战。我们识别出两个关键不匹配:腕载鱼眼视图存在严重径向畸变且以夹爪为中心的局部视角,使得预训练VLM面临分布外问题;此外,人工采集的轨迹频繁违反运动学约束、引发碰撞或超出控制器带宽,导致VLA策略学习到物理不可行的动作。为解决这些挑战,我们提出VISTA框架,通过三个协同组件弥合这一双重鸿沟:(i)UMI-VQA,首个专为腕载鱼眼观测定制的大规模视觉问答数据集,通过辅助视觉-语言监督使VLM表示适应畸变视觉域;(ii)系统性物理验证流水线,在轨迹进入训练前执行数据完整性预检,并对每条有效轨迹进行轨迹连续性、自碰撞风险和执行保真度评分;(iii)两阶段协同训练策略,在UMI-VQA上联合学习视觉-语言基础,并在验证后的轨迹上学习动作预测。实验表明,融入UMI-VQA能持续提升下游策略性能,且物理验证分数对部署成功率具有强预测性。在多样化的仿真和真实世界操作任务中,VISTA显著优于包括π₀.₅、LingBot-VLA和Wall-X在内的强基线方法。我们公开了物理验证流水线、UMI-VQA、验证后的轨迹数据及预训练模型。

📊 核心分析

🎯 研究动机
- 现有**通用操作接口(Universal Manipulation Interface, UMI)** 数据可用于可扩展的机器人数据采集,但直接用其训练大规模**视觉-语言-动作(Vision-Language-Action, VLA)** 模型存在两个关键不匹配 - 第一个不匹配:腕装**鱼眼视图(wrist-mounted fisheye)** 存在严重径向畸变和局部夹爪中心视角,导致预训练VLM遇到**分布外(out-of-distribution)** 问题 - 第二个不匹配:人类收集的轨迹常违反**运动学限制(kinematic limits)**、发生碰撞或超出控制器带宽,使VLA策略学到物理上不可行的动作 - 研究背景:UMI数据低成本易获取,但缺乏适配VLA训练的视觉对齐和物理验证方法
🔧 核心方法
- 提出**VISTA** 框架,包含三个协同组件:**UMI-VQA**、**物理验证管线(physical-validation pipeline)** 和**两阶段联合训练(two-stage co-training)** - **UMI-VQA**:首个面向腕装鱼眼观测的大规模**视觉问答(Visual Question Answering, VQA)** 数据集,通过辅助视觉-语言监督对齐VLM表示到畸变视觉域 - **物理验证管线**:对每条轨迹先进行数据完整性预检查,再对有效轨迹评分,包括**轨迹连续性(trajectory continuity)**、**自碰撞风险(self-collision risk)** 和**执行保真度(execution fidelity)** - **两阶段联合训练**:第一阶段在UMI-VQA上学习视觉-语言基础,第二阶段在验证通过的轨迹上学习动作预测
💡 核心创新
- **双缺口系统性桥接**:首次同时解决UMI数据到VLA训练的**视觉分布偏移(visual distribution shift)** 和**物理可行性(physical feasibility)** 两大缺口 - **首个专用VQA数据集**:UMI-VQA专门针对腕装鱼眼视图畸变设计,有助于VLM适应非标准视觉输入 - **物理验证评分机制**:将轨迹的物理合理性量化评分并用于训练筛选,显著提升部署成功率 - **端到端训练流程**:提出两阶段联合训练配方,同时增强视觉语言理解和动作预测能力
🏆 总体贡献
- 为VLA训练利用低成本UMI数据提供了系统化的解决方案,显著降低对专用遥操作硬件的依赖 - 在多种模拟和真实操作任务上,**VISTA** 显著超越强基线(如π₀.₅、LingBot-VLA、Wall-X) - 开源**物理验证管线**、**UMI-VQA** 数据集、验证后的轨迹数据及预训练模型,促进社区复现与后续研究