该论文旨在解决开放词汇目标导航(Open-Vocabulary Object Navigation, OVON)任务中,现有零样本(zero-shot)方法存在的效率问题。研究背景是:在未知环境中,智能体需要定位语言描述的目标。现有方法通常在部分观测下对密集的前沿点(frontier points)进行推理,这导致了路线选择不稳定、重复访问和多余的动作开销。
论文提出了一个名为DRIVE-Nav的结构化框架,其核心方法包括:
- 将探索过程围绕持久的方向(directions)而非原始前沿点进行组织。
- 在240度前向视野范围内,更彻底地检查遇到的方向,并将后续决策限制在仍然相关的方向上。
- 从加权的快速行进法(Fast Marching Method, FMM)路径中提取并跟踪方向候选。
- 维护代表性视图进行语义检查(semantic inspection)。
- 结合视觉语言引导的提示词增强(vision-language-guided prompt enrichment)与跨帧验证(cross-frame verification)来提高语义接地(grounding)的可靠性。
论文的核心创新点在于:
- **探索范式的转变**:从传统的基于密集前沿点(frontier-based)的探索,转变为基于持久方向(direction-based)的探索。这是最关键的创新,旨在从根本上解决重复访问和路径效率低下的问题。
- **结构化探索框架**:通过方向检查(inspection)和验证(verification)来组织探索过程,将决策空间限制在相关方向上,提高了决策的稳定性和效率。
- **语义接地增强技术**:结合了提示词增强和跨帧验证,提升了在开放词汇(open-vocabulary)场景下对语言目标的理解和定位准确性。
论文对该领域的总体贡献是:
- 提出了一个新颖高效的开放词汇导航框架DRIVE-Nav,显著提升了导航的成功率(Success Rate, SR)和路径长度加权成功率(Success weighted by Path Length, SPL)。
- 在HM3D-OVON、HM3Dv2和MP3D等多个基准测试上验证了方法的有效性,取得了领先的性能,特别是在路径效率(SPL)指标上提升显著。
- 证明了方法的可迁移性,成功部署到实体人形机器人上,并在真实世界环境中展示了其有效性。