GazeVLA：面向机器人操作的人类意图学习

📝 论文摘要

具身基础模型在机器人操作领域取得了显著突破，但仍高度依赖大规模机器人演示数据。尽管近期研究尝试利用人类数据来缓解这一依赖，但由于人类与机器人之间存在固有的具身鸿沟，如何有效提取可迁移知识仍是重大挑战。我们认为人类行为背后的意图可作为弥合这一鸿沟的有效中间表征。本文提出一种显式学习与迁移人类意图的新框架以促进机器人操作。具体而言，我们通过目光建模意图——目光自然先于物理动作发生，且是人类意图的可观测代理。该模型首先在大规模第一人称人类数据集上进行预训练以捕捉人类意图及其与动作的协同关系，随后在少量机器人与人类数据上进行微调。推理阶段，模型采用思维链推理范式，在执行动作前按序预测意图。在仿真与真实场景、长时域与精细任务、少样本与鲁棒性基准测试中的广泛评估表明，我们的方法始终优于强基线模型，具备更优泛化能力，并达到了最先进性能。

🎯 研究动机

- 现有**具身基础模型(embodied foundation models)**在机器人操作中依赖大规模机器人演示数据，数据获取成本高 - 利用人类数据可减轻依赖，但**具身差距(embodiment gap)**导致可迁移知识难以有效提取 - 人类行为背后的**意图(intention)**可作为桥接具身差距的中间表示，现有工作未显式建模意图

🔧 核心方法

- 提出**GazeVLA框架**，通过**注视(gaze)**显式建模人类意图，因为注视自然先于物理动作且是可观测的意图代理 - 模型先在大型**自我中心(egocentric)**人类数据集上预训练，学习人类意图与动作的协同关系，再在少量机器人/人类数据上微调 - 推理时采用**思维链(Chain-of-Thought)**推理范式，依次预测意图再执行动作

💡 核心创新

- **首次显式学习并迁移人类意图**：利用注视作为意图的中间表示，桥接人类与机器人的具身差距 - **预训练-微调范式**：在大规模人类数据上预训练意图-动作联合表示，再通过少量数据适配机器人，降低对机器人演示的依赖 - **思维链推理**：在推理阶段将意图预测作为先导步骤，提升动作规划的语义一致性与可解释性

🏆 总体贡献

- 为机器人操作提供了一种利用人类意图进行知识迁移的新范式，有效缓解具身差距问题 - 在仿真与真实场景、长时程与细粒度任务、少样本与鲁棒性测试上均达到**最优性能(SOTA)** - 验证了注视作为意图代理的可行性，为后续具身智能研究提供了可复现的基准与思路

GazeVLA：面向机器人操作的人类意图学习
GazeVLA: Learning Human Intention for Robotic Manipulation

📊 核心分析

GazeVLA：面向机器人操作的人类意图学习 GazeVLA: Learning Human Intention for Robotic Manipulation

📊 核心分析

GazeVLA：面向机器人操作的人类意图学习
GazeVLA: Learning Human Intention for Robotic Manipulation