Gaze2Act：基于注视条件的视觉-语言-动作策略用于交互式机器人操作

📝 论文摘要

视觉-语言-动作（VLA）模型近期通过遵循语言指令在机器人学习中展现出强大潜力。然而在实践中，仅凭语言往往难以精确传达人类意图：在相似候选对象中描述具体要交互哪个物体、在物体何处执行操作、或执行过程中目标可能发生何种变化都颇具挑战。为解决这一局限，我们提出Gaze2Act——一种利用人类注视作为动态直觉意图信号以完成复杂交互操作的新型VLA框架。Gaze2Act首先通过跨视角语义匹配将第一人称注视映射至机器人视角，从而弥合自我-外部视角差异，生成物体掩码和注视点以实现由粗到精的目标指定。随后，这些线索通过感知层提示和动作层条件化融入策略，使机器人能在动态意图引导下关注相关区域并执行精确交互。在宇树G1人形机器人上跨越七个任务类别及16项真实机器人任务的系统评估中，Gaze2Act在意图准确率和任务成功率两项指标上均达到最优水平，在目标消歧、细粒度交互和动态意图引导方面显著超越基线方法。这些结果表明，人类注视为人在回路的VLA控制提供了一种自然、低负担且高表达性的模态。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型仅依赖语言指令，难以精确传达人类意图 - 实际场景中语言无法清楚指定哪个相似物体、动作位置或动态目标变化 - 需要更直观、低负担的交互模态来弥补语言模糊性

🔧 核心方法

- 提出**Gaze2Act** 框架，先通过**跨视图语义匹配(cross-view semantic matching)** 将第一人称视角的注视映射到机器人视角 - 生成物体掩码和注视点，实现**粗到细(coarse-to-fine)** 的目标指定 - 将注视线索通过**感知层提示(perception-level prompting)** 和**动作层条件(action-level conditioning)** 整合到策略中，引导机器人关注相关区域并执行精确交互

💡 核心创新

- **首创性**：首次将人类**目光(gaze)** 作为动态、直观的意图信号融入**VLA** 框架，解决语言指令的模糊性 - **跨视图映射**：提出从第一人称注视到机器人视角的映射方法，弥补**自我-外部视角(ego-exo view)** 差异 - **双层集成**：通过感知层和动作层分别注入注视信息，实现从目标识别到动作执行的精细控制

🏆 总体贡献

- 在**Unitree G1人形机器人** 上系统评估了7类任务、16个真实机器人任务，取得**意图准确率** 和**任务成功率** 的**最优(state-of-the-art)** 性能 - 在物体区分、细粒度交互和动态意图引导方面显著优于基线方法 - 验证了人类目光是一种**自然、低负担、高表达性** 的模态，为**人在环路(human-in-the-loop) VLA控制** 提供了新范式

Gaze2Act：基于注视条件的视觉-语言-动作策略用于交互式机器人操作
Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation

📊 核心分析

Gaze2Act：基于注视条件的视觉-语言-动作策略用于交互式机器人操作 Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation

📊 核心分析

Gaze2Act：基于注视条件的视觉-语言-动作策略用于交互式机器人操作
Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation