- 现有**具身基础模型(embodied foundation models)**在机器人操作中依赖大规模机器人演示数据,数据获取成本高
- 利用人类数据可减轻依赖,但**具身差距(embodiment gap)**导致可迁移知识难以有效提取
- 人类行为背后的**意图(intention)**可作为桥接具身差距的中间表示,现有工作未显式建模意图
- 提出**GazeVLA框架**,通过**注视(gaze)**显式建模人类意图,因为注视自然先于物理动作且是可观测的意图代理
- 模型先在大型**自我中心(egocentric)**人类数据集上预训练,学习人类意图与动作的协同关系,再在少量机器人/人类数据上微调
- 推理时采用**思维链(Chain-of-Thought)**推理范式,依次预测意图再执行动作
- **首次显式学习并迁移人类意图**:利用注视作为意图的中间表示,桥接人类与机器人的具身差距
- **预训练-微调范式**:在大规模人类数据上预训练意图-动作联合表示,再通过少量数据适配机器人,降低对机器人演示的依赖
- **思维链推理**:在推理阶段将意图预测作为先导步骤,提升动作规划的语义一致性与可解释性
- 为机器人操作提供了一种利用人类意图进行知识迁移的新范式,有效缓解具身差距问题
- 在仿真与真实场景、长时程与细粒度任务、少样本与鲁棒性测试上均达到**最优性能(SOTA)**
- 验证了注视作为意图代理的可行性,为后续具身智能研究提供了可复现的基准与思路