← 返回论文列表

IntentionNav:基于隐含人类指令的意图驱动目标导航基准
IntentionNav: A Benchmark for Intent-Driven Object Navigation from Implicit Human Instruction

作者: Lin Qian, Shijie Li, Sihao Lin 等7人
arXiv: 2605.23187v1
分类: cs.CV, cs.RO
📝 论文摘要
现有的目标导航基准通常指示具身智能体寻找特定物体类别,如微波炉或椅子。面向人类用户的具身人工智能常常面临更间接的指令:"我需要加热食物"或"房间感觉闷"。智能体必须推断出能够满足需求的物体,找到场景中存在的实例,并判断目标是否已达成。本文将这一情境研究为意图驱动的目标导航,并引入IntentionNav——一个针对隐含人类指令的主动目标搜索诊断基准。每个任务提供一段自由文本意图、RGB-D观测信息和位姿数据,但不提供目标物体名称。IntentionNav包含176个Isaac Sim场景中的500条意图,涵盖64个目标类别。每条意图以四种受控指令风格改写,并标注四种意图模式之一,在匹配的几何条件下将表面表述与语义线索类型分离。这种配对设计支持对目标推断、语言鲁棒性、邻域可达性以及终端成功(而非仅聚合成功)的分析。我们采用固定主动导航智能体评估了三种视觉语言模型。模型在48.3%的任务中识别出预期目标,在68.7%的任务中进入目标2米邻域,但成功终止的任务仅占24.9%,达到接地1米成功的任务占5.5%。事件脚本类意图的成功率最高(28.7%),物理状态和可供性意图的成功率较低(分别为19.2%和18.5%),这表明间接人类意图仍是主动具身搜索中目标选择、视觉验证和终端定位的瓶颈。

📊 核心分析

🎯 研究动机
- 现有**物体导航(object navigation)** 基准通常直接告知智能体目标物体类别(如微波炉),但人类指令往往是隐式的(如“我需要加热食物”),智能体必须推断意图对应的物体 - 人类面向的**具身AI(embodied AI)** 需要从间接指令中理解需求,并主动搜索场景中满足意图的物体实例,当前缺乏此类任务的标准化基准 - 研究背景:随着**具身定位(embodied localization)** 和**视觉-语言导航(Vision-and-Language Navigation, VLN)** 的发展,亟需评估智能体在隐式人类意图下的目标推断、场景验证和终止决策能力
🔧 核心方法
- 提出**IntentionNav** 基准,包含500条自由文本意图、176个Isaac Sim场景和64个目标类别,每一条意图不直接给出目标物体名称 - 每个意图使用四种受控指令风格(如直白、委婉、提问等)改写,并标注四种**意图模式(intent modes)** (事件脚本、物理状态、可供性等),将表面措辞与语义线索类型分离 - 采用**成对设计(paired design)**,在匹配的几何条件下控制指令风格和意图模式,支持对**目标推断(target inference)**、**语言鲁棒性(language robustness)**、**邻域可达性(neighborhood reachability)** 和**终止成功(terminal success)** 的细粒度分析 - 使用三个**视觉-语言模型(Vision-Language Model, VLM)** 结合固定主动导航智能体进行实验评估,计算不同阶段成功率
💡 核心创新
- **首创性定义**:首次系统定义并构建了**意图驱动物体导航(intent-driven object navigation)** 任务,区别于传统类别指定式导航,更贴近真实人机交互场景 - **诊断性设计**:基准本身并非仅追求聚合成功,而是通过控制指令风格和意图模式的配对设计,允许分离分析目标推理、视觉验证和终端定位中的具体瓶颈 - **多维度细粒度评估**:引入**邻域成功率(neighborhood success rate, 68.7%)**、**终止成功率(terminal success rate, 24.9%)** 和**接地成功率(grounded success rate, 5.5%)** 等多级指标,揭示模型在意图理解不同阶段的显著衰落 - **揭示关键瓶颈**:量化表明**事件脚本(event-script)意图** (28.7%)成功率显著高于**物理状态(physical-state)** (19.2%)和**可供性(affordance)意图** (18.5%),间接人类意图仍是主动具身搜索的主要挑战
🏆 总体贡献
- 为**具身AI(embodied AI)** 领域提供了一个标准化的诊断基准,专门评估智能体从隐式人类指令推断目标物体并进行主动搜索的能力 - 通过大规模实验(三个VLM)揭示了当前**视觉-语言模型(VLM)** 在意图驱动导航中的严重不足,特别是在目标选择、视觉验证和终端定位环节的准确性 - 提供了细粒度的分析框架和开放式场景(176个Isaac Sim场景、500条意图),促进后续研究在**隐式指令理解(implicit instruction understanding)** 和**目标达成验证(goal verification)** 方向的发展 - 基准的设计哲学(控制变量、多级指标)为其他**人机交互(human-robot interaction)** 任务中评估智能体语言鲁棒性提供了可借鉴的方法论