← 返回论文列表

停止徘徊:通过元认知推理实现高效视觉语言导航
Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

作者: Xueying Li, Feng Lyu, Hao Wu 等6人
arXiv: 2604.02318v1
分类: cs.RO, cs.CV
📝 论文摘要
基于基础模型的免训练视觉语言导航(VLN)代理能够遵循指令探索三维环境。然而现有方法依赖贪婪边界选择与被动空间记忆,导致局部振荡和重复访问等低效行为。我们认为这源于元认知能力的缺失:智能体无法监控探索进度、诊断策略失败或进行相应调整。为此我们提出MetaNav——一种融合空间记忆、历史感知规划与反思校正的元认知导航智能体。空间记忆构建持久性三维语义地图,历史感知规划通过惩罚重复访问提升效率,反思校正机制能检测停滞状态并调用大语言模型生成指导未来边界选择的修正规则。在GOAT-Bench、HM3D-OVON和A-EQA数据集上的实验表明,MetaNav在减少20.7%视觉语言模型查询量的同时实现了最先进的性能,证明元认知推理能显著提升导航的鲁棒性与效率。

📊 核心分析

🎯 研究动机
该论文旨在解决无训练视觉语言导航(Vision-Language Navigation, VLN)智能体在探索3D环境时存在的效率低下问题。研究背景是:现有基于基础模型的无训练VLN方法依赖于贪婪的前沿选择(greedy frontier selection)和被动空间记忆(passive spatial memory),导致智能体出现局部振荡(local oscillation)和冗余重访(redundant revisiting)等低效行为。
🔧 核心方法
论文提出了MetaNav,一个集成了元认知推理的导航智能体。其核心方法包含三个具体组件: - 空间记忆(Spatial Memory):构建一个持久化的3D语义地图(3D semantic map)。 - 历史感知规划(History-aware Planning):通过惩罚重访行为来提升探索效率。 - 反思校正(Reflective Correction):检测探索停滞(stagnation),并利用大型语言模型(LLM)生成校正规则(corrective rules),以指导未来的前沿选择(frontier selection)。
💡 核心创新
论文的核心创新在于为视觉语言导航智能体引入了元认知能力(metacognitive capabilities),使其能够主动监控、诊断和调整自身的探索策略。与现有工作的独特之处在于: - 现有方法缺乏对自身探索过程的监控和反思,而MetaNav通过“反思校正”模块,使智能体能够诊断策略失败并动态生成校正规则。 - 将历史探索信息(通过“历史感知规划”)系统地整合到决策中,主动抑制低效的重访行为,而不仅仅是 passively 记录空间信息。 - 通过元认知推理框架,将空间记忆、规划与基于LLM的高层策略校正有机结合,实现了从被动反应到主动、自适应规划的范式转变。
🏆 总体贡献
论文对该领域的整体贡献主要体现在: - 提出了首个集成元认知推理的VLN智能体MetaNav,为解决VLN中的低效探索问题提供了一个新颖的框架。 - 在GOAT-Bench、HM3D-OVON和A-EQA等多个基准测试上取得了最先进的(state-of-the-art)性能。 - 在提升性能的同时,显著降低了20.7%的视觉语言模型(VLM)查询次数,证明了元认知推理在提升智能体鲁棒性(robustness)和效率(efficiency)方面的有效性。