- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型训练依赖大规模高质量数据,但真实机器人数据收集成本高、耗时久的问题
- 现有工作虽尝试使用**自我中心人类视频(egocentric human videos)** 增强操作数据集,但用于移动机器人导航时面临**视角变化** 挑战
- 研究背景:VLA模型在多样化机器人任务中有前景,但数据瓶颈制约其泛化能力,需要可扩展的低成本数据源
- 提出框架将**自我中心行走视频(egocentric walking videos)** 转换为移动机器人**模仿学习(imitation learning)** 数据集
- 从人类视频中估计**相机运动(camera motion)**,并将其变换为与地面移动机器人兼容的**动作表示(action representation)**
- 采用**联合训练(co-training)** 策略,同时使用人类衍生数据和机器人收集数据训练VLA模型
- **跨视角动作迁移**:首次将自我中心人类行走视频中的运动信息系统地转换为移动机器人动作,克服**视角变化(locomotion viewpoint change)** 障碍
- **数据增强框架**:提出端到端流程,从人类视频到机器人动作表示的自动转换,无需额外标注
- **协同训练增益**:联合人类与机器人数据提升**语言理解(language understanding)** 和**动作生成鲁棒性**,优于任一单源训练
- 为移动机器人导航提供了一种**低成本、可扩展** 的数据来源(人类自我中心视频)
- 在水果搜索导航任务上验证了该方法有效,证明人类视频可作为移动机器人**模仿学习(imitation learning)** 的可行数据源
- 推动了**视觉-语言-动作(VLA)** 模型在真实机器人场景下的实际部署,降低数据收集门槛