AgentGrounder：使用多模态语言模型进行零样本3D视觉点云定位

📝 论文摘要

3D视觉定位（3DVG）是具身智能的关键能力，要求智能体根据自然语言描述在3D场景中定位物体。现有的零样本方法利用2D视觉语言模型（LVLMs），但通常依赖已有的多视角图像集，且受限于标准3D分割工具所提供有限的空间与语义细节。我们提出$\textbf{AgentGrounder}$——一种直接作用于彩色点云的零样本3D视觉定位框架，无需任务特定的3D训练。该方法采用两阶段设计：（1）离线阶段，运用3D模型构建包含实例ID、语义标签和3D边界框的对象查找表（OLT）；（2）在线阶段，由工具驱动的智能体分解每个查询，仅从OLT中检索相关候选对象，进行几何评分，并在需要额外视觉证据（如颜色、材质或视角敏感线索）时按需触发图像渲染。与固定锚点-目标匹配流程相比，该设计减少了级联匹配错误，并通过避免无关对象过载提示来提升上下文窗口效率。我们在零样本设置下对ScanRefer和Nr3D进行评测，相比SeeGround在我们的实验配置中观察到一致提升：ScanRefer上[email protected]提升2.5%，Nr3D上提升6.3%，其中Nr3D视角无关查询的增益尤为显著（+6.3%）。这些结果表明，选择性检索、几何推理与自适应视觉检查的结合为开放词汇3D定位提供了实用且稳健的基础。我们的代码已开源：https://github.com/be2rlab/AgentGrounder。

🎯 研究动机

- 现有**零样本3D视觉定位(zero-shot 3D visual grounding)** 方法依赖2D视觉语言模型(LVLMs)，但受限于多视角图像集合和**3D分割工具(3D segmentation tools)** 提供的有限语义与空间细节 - 传统固定锚点-目标匹配流水线存在**级联匹配误差(cascading matching errors)**，且上下文窗口效率低，提示词中充斥无关对象 - 需要一种无需针对特定任务进行3D训练、能直接在彩色点云上操作的鲁棒零样本框架

🔧 核心方法

- 提出**两阶段框架(two-stage design)**：离线阶段使用3D模型构建**对象查找表(Object Lookup Table, OLT)**，包含实例ID、语义标签和3D边界框 - 在线阶段采用**工具驱动智能体(tool-driven agent)**，分解自然语言查询，从OLT中检索相关候选对象，执行**几何评分(geometric scoring)** - 当需要额外视觉证据（如颜色、材质、视角敏感线索）时，触发**按需图像渲染(on-demand image rendering)** 机制

💡 核心创新

- **首创零样本3D点云接地框架**：直接操作彩色点云，无需任务特定的3D训练，克服现有2D LVLM方法的局限性 - **工具驱动的智能体设计**：分解查询、选择性检索与自适应视觉检查相结合，替代固定锚点匹配，减少了级联错误并提升上下文窗口效率 - **动态按需渲染机制**：仅在需要时触发图像渲染，避免过度依赖预存多视图图像，增强对颜色/材质等细粒度线索的捕捉能力

🏆 总体贡献

- 为**零样本3D视觉定位(zero-shot 3D visual grounding)** 提供了一种实用且鲁棒的新范式 - 在**ScanRefer** 和**Nr3D** 基准上取得一致改进：ScanRefer的[email protected]提升+2.5%，Nr3D提升+6.3%（视图无关查询提升+6.3%） - 结合选择性检索、几何推理和自适应视觉检查，为开放词汇3D接地奠定基础，并开源代码促进社区复现

AgentGrounder：使用多模态语言模型进行零样本3D视觉点云定位
AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models

📊 核心分析

AgentGrounder：使用多模态语言模型进行零样本3D视觉点云定位 AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models

📊 核心分析

AgentGrounder：使用多模态语言模型进行零样本3D视觉点云定位
AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models