- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型仅依赖语言指令,难以精确传达人类意图
- 实际场景中语言无法清楚指定哪个相似物体、动作位置或动态目标变化
- 需要更直观、低负担的交互模态来弥补语言模糊性
- 提出**Gaze2Act** 框架,先通过**跨视图语义匹配(cross-view semantic matching)** 将第一人称视角的注视映射到机器人视角
- 生成物体掩码和注视点,实现**粗到细(coarse-to-fine)** 的目标指定
- 将注视线索通过**感知层提示(perception-level prompting)** 和**动作层条件(action-level conditioning)** 整合到策略中,引导机器人关注相关区域并执行精确交互
- **首创性**:首次将人类**目光(gaze)** 作为动态、直观的意图信号融入**VLA** 框架,解决语言指令的模糊性
- **跨视图映射**:提出从第一人称注视到机器人视角的映射方法,弥补**自我-外部视角(ego-exo view)** 差异
- **双层集成**:通过感知层和动作层分别注入注视信息,实现从目标识别到动作执行的精细控制
- 在**Unitree G1人形机器人** 上系统评估了7类任务、16个真实机器人任务,取得**意图准确率** 和**任务成功率** 的**最优(state-of-the-art)** 性能
- 在物体区分、细粒度交互和动态意图引导方面显著优于基线方法
- 验证了人类目光是一种**自然、低负担、高表达性** 的模态,为**人在环路(human-in-the-loop) VLA控制** 提供了新范式