面向机器人导航任务的自我中心视频与示范协同训练

📝 论文摘要

视觉-语言-动作（VLA）模型在各类机器人任务中展现出巨大潜力，但其性能高度依赖大规模高质量训练数据，而通过真实机器人采集此类数据成本高昂且耗时。尽管已有研究探索利用以自我为中心的人类视频增强操作数据集，但将此类方法应用于移动机器人导航时，因运动过程中的视角变化而面临挑战。本文提出一种框架，将人类行走视频转换为适用于移动机器人模仿学习的数据集。该方法通过估计人类视频中的相机运动，将其转化为与地面移动机器人兼容的动作表征。通过联合训练基于人类来源和机器人采集数据的VLA模型，该模型的语言理解能力和动作生成鲁棒性均优于仅使用单一数据源的训练效果。在水果搜索导航任务上的实验表明，人类以自我为中心的视角视频为移动机器人学习提供了有效且可扩展的数据来源。

🎯 研究动机

- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型训练依赖大规模高质量数据，但真实机器人数据收集成本高、耗时久的问题 - 现有工作虽尝试使用**自我中心人类视频(egocentric human videos)** 增强操作数据集，但用于移动机器人导航时面临**视角变化** 挑战 - 研究背景：VLA模型在多样化机器人任务中有前景，但数据瓶颈制约其泛化能力，需要可扩展的低成本数据源

🔧 核心方法

- 提出框架将**自我中心行走视频(egocentric walking videos)** 转换为移动机器人**模仿学习(imitation learning)** 数据集 - 从人类视频中估计**相机运动(camera motion)**，并将其变换为与地面移动机器人兼容的**动作表示(action representation)** - 采用**联合训练(co-training)** 策略，同时使用人类衍生数据和机器人收集数据训练VLA模型

💡 核心创新

- **跨视角动作迁移**：首次将自我中心人类行走视频中的运动信息系统地转换为移动机器人动作，克服**视角变化(locomotion viewpoint change)** 障碍 - **数据增强框架**：提出端到端流程，从人类视频到机器人动作表示的自动转换，无需额外标注 - **协同训练增益**：联合人类与机器人数据提升**语言理解(language understanding)** 和**动作生成鲁棒性**，优于任一单源训练

🏆 总体贡献

- 为移动机器人导航提供了一种**低成本、可扩展** 的数据来源（人类自我中心视频） - 在水果搜索导航任务上验证了该方法有效，证明人类视频可作为移动机器人**模仿学习(imitation learning)** 的可行数据源 - 推动了**视觉-语言-动作(VLA)** 模型在真实机器人场景下的实际部署，降低数据收集门槛

面向机器人导航任务的自我中心视频与示范协同训练
Co-training with Ego-centric Video and Demonstration for Robot Navigation Task

📊 核心分析

面向机器人导航任务的自我中心视频与示范协同训练 Co-training with Ego-centric Video and Demonstration for Robot Navigation Task

📊 核心分析

面向机器人导航任务的自我中心视频与示范协同训练
Co-training with Ego-centric Video and Demonstration for Robot Navigation Task