VISTA: 基于视觉与物理验证的UMI数据自适应用于VLA训练

📝 论文摘要

通用操作接口（UMI）实现了无需特定硬件遥操作的可扩展真实世界机器人数据采集，然而利用UMI数据训练大规模视觉-语言-动作（VLA）模型仍面临根本性挑战。我们识别出两个关键不匹配：腕戴式鱼眼视图存在严重径向畸变且以局部夹爪为中心，对于预训练VLM属于分布外数据；人类采集的轨迹频繁违反运动学约束、引发碰撞或超出控制器带宽，导致VLA策略学习到物理上不可行的动作。针对这些挑战，我们提出VISTA框架，通过三个协同组件弥合上述双重鸿沟：（i）UMI-VQA——首个针对腕戴式鱼眼观测的大规模视觉问答数据集，通过辅助视觉-语言监督将VLM表征对齐至畸变视觉域；（ii）系统性物理验证管线，在训练前对数据进行完整性预检，并为每条有效轨迹的轨迹连续性、自碰撞风险及执行保真度评分；（iii）两阶段协同训练方案，联合学习UMI-VQA的视觉-语言基础能力和已验证轨迹的动作预测。实验表明，引入UMI-VQA能够持续提升下游策略性能，且物理验证分数对部署成功率具有强预测能力。在多样化的仿真和真实世界操作任务中，VISTA显著优于包括$π_{0.5}$、LingBot-VLA和Wall-X在内的强基线。我们向社区开源了物理验证管线、UMI-VQA数据集、已验证轨迹数据及预训练模型。

🎯 研究动机

- 现有**通用操作接口(Universal Manipulation Interface, UMI)** 数据在训练大规模**视觉-语言-动作模型(Vision-Language-Action, VLA)** 时存在两个关键不匹配：一是腕装鱼眼视图的严重径向畸变和局部视角导致预训练**视觉语言模型(Vision-Language Model, VLM)** 分布外；二是人类采集的轨迹常违反运动学限制、产生碰撞或超出控制器带宽，导致VLA学习物理上不可行的动作 - 研究背景：UMI虽然实现了无需专用遥操作的规模化数据采集，但如何有效利用这些数据训练VLA模型仍面临根本挑战，现有方法未能同时解决视觉域偏移和物理可行性问题

🔧 核心方法

- 提出**VISTA** 框架，包含三个协同组件：**UMI-VQA**——首个大规模面向腕装鱼眼观测的**视觉问答(Visual Question Answering, VQA)** 数据集，通过辅助视觉语言监督将VLM表示对齐到畸变视觉域；**系统化的物理验证管道(physical-validation pipeline)**——对每个有效轨迹进行数据完整性预检、轨迹连续性、自碰撞风险和执行保真度评分；**两阶段联合训练(two-stage co-training)**——先在UMI-VQA上学习视觉语言基础，再在验证过的轨迹上学习动作预测 - 具体技术：使用大规模VQA数据微调VLM，通过物理验证评分筛选高质量轨迹，两阶段训练流程分别优化视觉语言对齐和动作策略学习

💡 核心创新

- **首次系统性解决UMI数据与VLA训练的双重不匹配**：同时处理视觉域偏移（鱼眼畸变导致的分布外）和物理可行性问题（轨迹违反现实约束），而非仅关注单一挑战 - **提出UMI-VQA**：首个专为腕装鱼眼观测设计的大规模VQA数据集，通过辅助视觉语言监督将VLM表示对齐到畸变视觉域，显著提升跨域泛化能力 - **引入多维物理验证管道(physical-validation pipeline)**：对轨迹进行连续性、自碰撞风险、执行保真度等多维度评分，自动筛选出物理上可行的训练数据，避免VLA学习不可行动作 - **两阶段联合训练策略**：先对齐视觉语言表示（UMI-VQA），再学习动作预测（验证轨迹），有效避免领域漂移和无效数据污染，相比单阶段或直接训练效果更优

🏆 总体贡献

- 提供了一套完整的**VISTA框架**，包括UMI-VQA数据集、物理验证管道、两阶段训练方法，在多种仿真和真实操作任务上显著优于强基线（如π₀.₅、LingBot-VLA、Wall-X），证明该方法可有效桥接UMI数据与VLA训练的鸿沟 - 实验证实**UMI-VQA可一致提升下游策略性能**，且**物理验证评分与部署成功率强相关**，为数据筛选提供了可量化的理论依据 - 开源了物理验证管道、UMI-VQA、验证轨迹数据和预训练模型，促进社区复现、扩展与后续研究，推动低成本遥操作数据在VLA训练中的应用

VISTA: 基于视觉与物理验证的UMI数据自适应用于VLA训练
VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training

📊 核心分析

VISTA: 基于视觉与物理验证的UMI数据自适应用于VLA训练 VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training

📊 核心分析

VISTA: 基于视觉与物理验证的UMI数据自适应用于VLA训练
VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training