- 真实场景中目标物体常位于**不可见区域(invisible regions)**,人类能根据上下文和常识推断其位置,但当前**视觉-语言模型(Vision-Language Model, VLM)** 缺乏这一能力
- 现有基准主要关注可见物体定位,忽略了针对**任务驱动的功能对象(task-driven functional object)** 在不可见场景下的推理需求
- 研究背景:推动VLM从感知向常识推理与空间推理发展,需要专门的评测基准来暴露其局限性
- 基于**SceneFun3D数据集**,通过**半自动流程(semi-automatic pipeline)** 将任务公式化为**2D空间推理(2D spatial reasoning)** 问题,构建包含855个实例的**SceneFunRI** 基准
- 对多个VLM基线进行系统评测,并将**提示分析(prompting analysis)** 分为三类:**强指令提示(Strong Instruction Prompting)**、**基于推理的提示(Reasoning-based Prompting)** 和**空间排除法(Spatial Process of Elimination, SPoE)**
- 使用三种评估指标:**CAcc@75**、**mIoU** 和**Dist** 来衡量模型在不可见区域定位的准确率、交并比和距离误差
- **首创性**:首次提出专门针对**不可见区域推理(reasoning the invisible)** 的任务驱动功能对象定位基准,填补了VLM在遮挡场景中常识推理评测的空白
- **任务定义创新**:将原本复杂的3D遮挡推理简化为**2D空间推理问题**,通过半自动流程高效生成标注,降低了基准构建成本
- **分析框架创新**:提出三类提示策略(强指令、推理增强、空间排除)的系统性分析,揭示了当前VLM在**不可见区域推理(invisible-region reasoning)** 中的不稳定性和具体弱点
- 为**视觉-语言模型(VLM)** 社区提供了一个标准化评测基准,用于度量模型在**常识驱动(commonsense-driven)** 的不可见功能对象定位上的表现
- 通过实验揭示现有最强模型(如Gemini 3 Flash)在此任务上表现低下(CAcc@75仅15.20),明确了VLM在**空间推理(spatial reasoning)** 与**不确定性感知搜索(uncertainty-aware search)** 方面的重大缺项
- 为未来研究指明方向,鼓励开发更紧密整合**任务意图(task intent)**、**常识先验(commonsense priors)**、**空间定位(spatial grounding)** 与**不确定性感知(uncertainty-aware)** 的模型