← 返回论文列表

SceneFunRI:为任务驱动的功能性物体定位推理不可见元素
SceneFunRI: Reasoning the Invisible for Task-Driven Functional Object Localization

作者: Posheng Chen, Powen Cheng, Gueter Josmy Faure 等5人
arXiv: 2605.14704v1
分类: cs.CV, cs.AI, cs.RO
📝 论文摘要
在真实场景中,目标物体可能位于不可见区域。尽管人类通常能根据上下文和常识推断被遮挡物体的位置,但这种能力对于视觉语言模型(VLMs)而言仍是一个重大挑战。为弥补这一不足,我们提出了SceneFunRI——一个用于推理不可见物体的基准。基于SceneFun3D数据集,SceneFunRI通过半自动流水线将任务形式化为二维空间推理问题,包含855个实例。该基准要求模型从任务指令和常识推理中推断不可见功能物体的位置。最强基线模型(Gemini 3 Flash)仅在CAcc@75上达到15.20,mIoU为0.74,Dist为28.65。我们将提示分析分为三类:强指令提示、基于推理的提示和空间排除法(SPoE)。这些发现表明,不可见区域推理仍是当前VLMs中的不稳定能力,这激励了未来研究开发更紧密整合任务意图、常识先验、空间定位和不确定性感知搜索的模型。

📊 核心分析

🎯 研究动机
- 真实场景中目标物体常位于**不可见区域(invisible regions)**,人类能根据上下文和常识推断其位置,但当前**视觉-语言模型(Vision-Language Model, VLM)** 缺乏这一能力 - 现有基准主要关注可见物体定位,忽略了针对**任务驱动的功能对象(task-driven functional object)** 在不可见场景下的推理需求 - 研究背景:推动VLM从感知向常识推理与空间推理发展,需要专门的评测基准来暴露其局限性
🔧 核心方法
- 基于**SceneFun3D数据集**,通过**半自动流程(semi-automatic pipeline)** 将任务公式化为**2D空间推理(2D spatial reasoning)** 问题,构建包含855个实例的**SceneFunRI** 基准 - 对多个VLM基线进行系统评测,并将**提示分析(prompting analysis)** 分为三类:**强指令提示(Strong Instruction Prompting)**、**基于推理的提示(Reasoning-based Prompting)** 和**空间排除法(Spatial Process of Elimination, SPoE)** - 使用三种评估指标:**CAcc@75**、**mIoU** 和**Dist** 来衡量模型在不可见区域定位的准确率、交并比和距离误差
💡 核心创新
- **首创性**:首次提出专门针对**不可见区域推理(reasoning the invisible)** 的任务驱动功能对象定位基准,填补了VLM在遮挡场景中常识推理评测的空白 - **任务定义创新**:将原本复杂的3D遮挡推理简化为**2D空间推理问题**,通过半自动流程高效生成标注,降低了基准构建成本 - **分析框架创新**:提出三类提示策略(强指令、推理增强、空间排除)的系统性分析,揭示了当前VLM在**不可见区域推理(invisible-region reasoning)** 中的不稳定性和具体弱点
🏆 总体贡献
- 为**视觉-语言模型(VLM)** 社区提供了一个标准化评测基准,用于度量模型在**常识驱动(commonsense-driven)** 的不可见功能对象定位上的表现 - 通过实验揭示现有最强模型(如Gemini 3 Flash)在此任务上表现低下(CAcc@75仅15.20),明确了VLM在**空间推理(spatial reasoning)** 与**不确定性感知搜索(uncertainty-aware search)** 方面的重大缺项 - 为未来研究指明方向,鼓励开发更紧密整合**任务意图(task intent)**、**常识先验(commonsense priors)**、**空间定位(spatial grounding)** 与**不确定性感知(uncertainty-aware)** 的模型