- 现有**通用操作接口(Universal Manipulation Interface, UMI)** 数据可用于可扩展的机器人数据采集,但直接用其训练大规模**视觉-语言-动作(Vision-Language-Action, VLA)** 模型存在两个关键不匹配
- 第一个不匹配:腕装**鱼眼视图(wrist-mounted fisheye)** 存在严重径向畸变和局部夹爪中心视角,导致预训练VLM遇到**分布外(out-of-distribution)** 问题
- 第二个不匹配:人类收集的轨迹常违反**运动学限制(kinematic limits)**、发生碰撞或超出控制器带宽,使VLA策略学到物理上不可行的动作
- 研究背景:UMI数据低成本易获取,但缺乏适配VLA训练的视觉对齐和物理验证方法
- 提出**VISTA** 框架,包含三个协同组件:**UMI-VQA**、**物理验证管线(physical-validation pipeline)** 和**两阶段联合训练(two-stage co-training)**
- **UMI-VQA**:首个面向腕装鱼眼观测的大规模**视觉问答(Visual Question Answering, VQA)** 数据集,通过辅助视觉-语言监督对齐VLM表示到畸变视觉域
- **物理验证管线**:对每条轨迹先进行数据完整性预检查,再对有效轨迹评分,包括**轨迹连续性(trajectory continuity)**、**自碰撞风险(self-collision risk)** 和**执行保真度(execution fidelity)**
- **两阶段联合训练**:第一阶段在UMI-VQA上学习视觉-语言基础,第二阶段在验证通过的轨迹上学习动作预测
- **双缺口系统性桥接**:首次同时解决UMI数据到VLA训练的**视觉分布偏移(visual distribution shift)** 和**物理可行性(physical feasibility)** 两大缺口
- **首个专用VQA数据集**:UMI-VQA专门针对腕装鱼眼视图畸变设计,有助于VLM适应非标准视觉输入
- **物理验证评分机制**:将轨迹的物理合理性量化评分并用于训练筛选,显著提升部署成功率
- **端到端训练流程**:提出两阶段联合训练配方,同时增强视觉语言理解和动作预测能力
- 为VLA训练利用低成本UMI数据提供了系统化的解决方案,显著降低对专用遥操作硬件的依赖
- 在多种模拟和真实操作任务上,**VISTA** 显著超越强基线(如π₀.₅、LingBot-VLA、Wall-X)
- 开源**物理验证管线**、**UMI-VQA** 数据集、验证后的轨迹数据及预训练模型,促进社区复现与后续研究