该论文旨在解决无训练视觉语言导航(Vision-Language Navigation, VLN)智能体在探索3D环境时存在的效率低下问题。研究背景是:现有基于基础模型的无训练VLN方法依赖于贪婪的前沿选择(greedy frontier selection)和被动空间记忆(passive spatial memory),导致智能体出现局部振荡(local oscillation)和冗余重访(redundant revisiting)等低效行为。
论文提出了MetaNav,一个集成了元认知推理的导航智能体。其核心方法包含三个具体组件:
- 空间记忆(Spatial Memory):构建一个持久化的3D语义地图(3D semantic map)。
- 历史感知规划(History-aware Planning):通过惩罚重访行为来提升探索效率。
- 反思校正(Reflective Correction):检测探索停滞(stagnation),并利用大型语言模型(LLM)生成校正规则(corrective rules),以指导未来的前沿选择(frontier selection)。
论文的核心创新在于为视觉语言导航智能体引入了元认知能力(metacognitive capabilities),使其能够主动监控、诊断和调整自身的探索策略。与现有工作的独特之处在于:
- 现有方法缺乏对自身探索过程的监控和反思,而MetaNav通过“反思校正”模块,使智能体能够诊断策略失败并动态生成校正规则。
- 将历史探索信息(通过“历史感知规划”)系统地整合到决策中,主动抑制低效的重访行为,而不仅仅是 passively 记录空间信息。
- 通过元认知推理框架,将空间记忆、规划与基于LLM的高层策略校正有机结合,实现了从被动反应到主动、自适应规划的范式转变。
论文对该领域的整体贡献主要体现在:
- 提出了首个集成元认知推理的VLN智能体MetaNav,为解决VLN中的低效探索问题提供了一个新颖的框架。
- 在GOAT-Bench、HM3D-OVON和A-EQA等多个基准测试上取得了最先进的(state-of-the-art)性能。
- 在提升性能的同时,显著降低了20.7%的视觉语言模型(VLM)查询次数,证明了元认知推理在提升智能体鲁棒性(robustness)和效率(efficiency)方面的有效性。