← 返回论文列表

AgentGrounder:使用多模态语言模型进行零样本3D视觉点云定位
AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models

作者: Cuong Huynh, Maxim Popov, Denis Gridusov 等4人
arXiv: 2605.25901v1
分类: cs.CV, cs.RO
📝 论文摘要
3D视觉定位(3DVG)是具身智能的关键能力,要求智能体根据自然语言描述在3D场景中定位物体。现有的零样本方法利用2D视觉语言模型(LVLMs),但通常依赖已有的多视角图像集,且受限于标准3D分割工具所提供有限的空间与语义细节。我们提出$\textbf{AgentGrounder}$——一种直接作用于彩色点云的零样本3D视觉定位框架,无需任务特定的3D训练。该方法采用两阶段设计:(1)离线阶段,运用3D模型构建包含实例ID、语义标签和3D边界框的对象查找表(OLT);(2)在线阶段,由工具驱动的智能体分解每个查询,仅从OLT中检索相关候选对象,进行几何评分,并在需要额外视觉证据(如颜色、材质或视角敏感线索)时按需触发图像渲染。与固定锚点-目标匹配流程相比,该设计减少了级联匹配错误,并通过避免无关对象过载提示来提升上下文窗口效率。我们在零样本设置下对ScanRefer和Nr3D进行评测,相比SeeGround在我们的实验配置中观察到一致提升:ScanRefer上[email protected]提升2.5%,Nr3D上提升6.3%,其中Nr3D视角无关查询的增益尤为显著(+6.3%)。这些结果表明,选择性检索、几何推理与自适应视觉检查的结合为开放词汇3D定位提供了实用且稳健的基础。我们的代码已开源:https://github.com/be2rlab/AgentGrounder。

📊 核心分析

🎯 研究动机
- 现有**零样本3D视觉定位(zero-shot 3D visual grounding)** 方法依赖2D视觉语言模型(LVLMs),但受限于多视角图像集合和**3D分割工具(3D segmentation tools)** 提供的有限语义与空间细节 - 传统固定锚点-目标匹配流水线存在**级联匹配误差(cascading matching errors)**,且上下文窗口效率低,提示词中充斥无关对象 - 需要一种无需针对特定任务进行3D训练、能直接在彩色点云上操作的鲁棒零样本框架
🔧 核心方法
- 提出**两阶段框架(two-stage design)**:离线阶段使用3D模型构建**对象查找表(Object Lookup Table, OLT)**,包含实例ID、语义标签和3D边界框 - 在线阶段采用**工具驱动智能体(tool-driven agent)**,分解自然语言查询,从OLT中检索相关候选对象,执行**几何评分(geometric scoring)** - 当需要额外视觉证据(如颜色、材质、视角敏感线索)时,触发**按需图像渲染(on-demand image rendering)** 机制
💡 核心创新
- **首创零样本3D点云接地框架**:直接操作彩色点云,无需任务特定的3D训练,克服现有2D LVLM方法的局限性 - **工具驱动的智能体设计**:分解查询、选择性检索与自适应视觉检查相结合,替代固定锚点匹配,减少了级联错误并提升上下文窗口效率 - **动态按需渲染机制**:仅在需要时触发图像渲染,避免过度依赖预存多视图图像,增强对颜色/材质等细粒度线索的捕捉能力
🏆 总体贡献
- 为**零样本3D视觉定位(zero-shot 3D visual grounding)** 提供了一种实用且鲁棒的新范式 - 在**ScanRefer** 和**Nr3D** 基准上取得一致改进:ScanRefer的[email protected]提升+2.5%,Nr3D提升+6.3%(视图无关查询提升+6.3%) - 结合选择性检索、几何推理和自适应视觉检查,为开放词汇3D接地奠定基础,并开源代码促进社区复现