- 现有**物体导航(object navigation)** 基准通常直接告知智能体目标物体类别(如微波炉),但人类指令往往是隐式的(如“我需要加热食物”),智能体必须推断意图对应的物体
- 人类面向的**具身AI(embodied AI)** 需要从间接指令中理解需求,并主动搜索场景中满足意图的物体实例,当前缺乏此类任务的标准化基准
- 研究背景:随着**具身定位(embodied localization)** 和**视觉-语言导航(Vision-and-Language Navigation, VLN)** 的发展,亟需评估智能体在隐式人类意图下的目标推断、场景验证和终止决策能力
- 提出**IntentionNav** 基准,包含500条自由文本意图、176个Isaac Sim场景和64个目标类别,每一条意图不直接给出目标物体名称
- 每个意图使用四种受控指令风格(如直白、委婉、提问等)改写,并标注四种**意图模式(intent modes)** (事件脚本、物理状态、可供性等),将表面措辞与语义线索类型分离
- 采用**成对设计(paired design)**,在匹配的几何条件下控制指令风格和意图模式,支持对**目标推断(target inference)**、**语言鲁棒性(language robustness)**、**邻域可达性(neighborhood reachability)** 和**终止成功(terminal success)** 的细粒度分析
- 使用三个**视觉-语言模型(Vision-Language Model, VLM)** 结合固定主动导航智能体进行实验评估,计算不同阶段成功率
- **首创性定义**:首次系统定义并构建了**意图驱动物体导航(intent-driven object navigation)** 任务,区别于传统类别指定式导航,更贴近真实人机交互场景
- **诊断性设计**:基准本身并非仅追求聚合成功,而是通过控制指令风格和意图模式的配对设计,允许分离分析目标推理、视觉验证和终端定位中的具体瓶颈
- **多维度细粒度评估**:引入**邻域成功率(neighborhood success rate, 68.7%)**、**终止成功率(terminal success rate, 24.9%)** 和**接地成功率(grounded success rate, 5.5%)** 等多级指标,揭示模型在意图理解不同阶段的显著衰落
- **揭示关键瓶颈**:量化表明**事件脚本(event-script)意图** (28.7%)成功率显著高于**物理状态(physical-state)** (19.2%)和**可供性(affordance)意图** (18.5%),间接人类意图仍是主动具身搜索的主要挑战
- 为**具身AI(embodied AI)** 领域提供了一个标准化的诊断基准,专门评估智能体从隐式人类指令推断目标物体并进行主动搜索的能力
- 通过大规模实验(三个VLM)揭示了当前**视觉-语言模型(VLM)** 在意图驱动导航中的严重不足,特别是在目标选择、视觉验证和终端定位环节的准确性
- 提供了细粒度的分析框架和开放式场景(176个Isaac Sim场景、500条意图),促进后续研究在**隐式指令理解(implicit instruction understanding)** 和**目标达成验证(goal verification)** 方向的发展
- 基准的设计哲学(控制变量、多级指标)为其他**人机交互(human-robot interaction)** 任务中评估智能体语言鲁棒性提供了可借鉴的方法论