3D视觉定位(3DVG)是具身智能的关键能力,要求智能体根据自然语言描述在3D场景中定位物体。现有的零样本方法利用2D视觉语言模型(LVLMs),但通常依赖已有的多视角图像集,且受限于标准3D分割工具所提供有限的空间与语义细节。我们提出$\textbf{AgentGrounder}$——一种直接作用于彩色点云的零样本3D视觉定位框架,无需任务特定的3D训练。该方法采用两阶段设计:(1)离线阶段,运用3D模型构建包含实例ID、语义标签和3D边界框的对象查找表(OLT);(2)在线阶段,由工具驱动的智能体分解每个查询,仅从OLT中检索相关候选对象,进行几何评分,并在需要额外视觉证据(如颜色、材质或视角敏感线索)时按需触发图像渲染。与固定锚点-目标匹配流程相比,该设计减少了级联匹配错误,并通过避免无关对象过载提示来提升上下文窗口效率。我们在零样本设置下对ScanRefer和Nr3D进行评测,相比SeeGround在我们的实验配置中观察到一致提升:ScanRefer上
[email protected]提升2.5%,Nr3D上提升6.3%,其中Nr3D视角无关查询的增益尤为显著(+6.3%)。这些结果表明,选择性检索、几何推理与自适应视觉检查的结合为开放词汇3D定位提供了实用且稳健的基础。我们的代码已开源:https://github.com/be2rlab/AgentGrounder。