DRIVE-Nav：面向高效开放词汇导航的定向推理、检查与验证

📝 论文摘要

开放词汇目标导航（OVON）要求具身智能体在未知环境中定位语言指定的目标。现有零样本方法通常在不完整观测下对密集前沿点进行推理，导致路线选择不稳定、重复访问及不必要的动作开销。本文提出DRIVE-Nav结构化框架，该框架围绕持久方向而非原始前沿组织探索。通过更完整地检查已遇到的方向，并将后续决策限制在前向240度视野范围内仍相关的方向上，DRIVE-Nav减少了冗余重访并提升了路径效率。该框架从加权快速行进法（FMM）路径中提取并追踪方向候选，维护代表性视图进行语义检查，同时结合视觉语言引导的提示增强与跨帧验证以提高语义落地可靠性。在HM3D-OVON、HM3Dv2和MP3D数据集上的实验表明，该方法在整体性能与路径效率方面均取得显著提升。在HM3D-OVON数据集上，DRIVE-Nav实现了50.2%的成功率与32.6%的SPL指标，较先前最佳方法分别提升1.9%成功率与5.6% SPL。该方法同时在HM3Dv2和MP3D数据集上取得最优SPL表现，并可迁移至实体人形机器人平台。真实世界部署亦验证了其有效性。项目页面：https://coolmaoguo.github.io/drive-nav-page/

🎯 研究动机

该论文旨在解决开放词汇目标导航(Open-Vocabulary Object Navigation, OVON)任务中，现有零样本(zero-shot)方法存在的效率问题。研究背景是：在未知环境中，智能体需要定位语言描述的目标。现有方法通常在部分观测下对密集的前沿点(frontier points)进行推理，这导致了路线选择不稳定、重复访问和多余的动作开销。

🔧 核心方法

论文提出了一个名为DRIVE-Nav的结构化框架，其核心方法包括： - 将探索过程围绕持久的方向(directions)而非原始前沿点进行组织。 - 在240度前向视野范围内，更彻底地检查遇到的方向，并将后续决策限制在仍然相关的方向上。 - 从加权的快速行进法(Fast Marching Method, FMM)路径中提取并跟踪方向候选。 - 维护代表性视图进行语义检查(semantic inspection)。 - 结合视觉语言引导的提示词增强(vision-language-guided prompt enrichment)与跨帧验证(cross-frame verification)来提高语义接地(grounding)的可靠性。

💡 核心创新

论文的核心创新点在于： - **探索范式的转变**：从传统的基于密集前沿点(frontier-based)的探索，转变为基于持久方向(direction-based)的探索。这是最关键的创新，旨在从根本上解决重复访问和路径效率低下的问题。 - **结构化探索框架**：通过方向检查(inspection)和验证(verification)来组织探索过程，将决策空间限制在相关方向上，提高了决策的稳定性和效率。 - **语义接地增强技术**：结合了提示词增强和跨帧验证，提升了在开放词汇(open-vocabulary)场景下对语言目标的理解和定位准确性。

🏆 总体贡献

论文对该领域的总体贡献是： - 提出了一个新颖高效的开放词汇导航框架DRIVE-Nav，显著提升了导航的成功率(Success Rate, SR)和路径长度加权成功率(Success weighted by Path Length, SPL)。 - 在HM3D-OVON、HM3Dv2和MP3D等多个基准测试上验证了方法的有效性，取得了领先的性能，特别是在路径效率(SPL)指标上提升显著。 - 证明了方法的可迁移性，成功部署到实体人形机器人上，并在真实世界环境中展示了其有效性。

DRIVE-Nav：面向高效开放词汇导航的定向推理、检查与验证
DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation

📊 核心分析

DRIVE-Nav：面向高效开放词汇导航的定向推理、检查与验证 DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation

📊 核心分析

DRIVE-Nav：面向高效开放词汇导航的定向推理、检查与验证
DRIVE-Nav: Directional Reasoning, Inspection, and Verification for Efficient Open-Vocabulary Navigation