层级语义增强导航：面向视觉语言导航的最优传输与图驱动推理

📝 论文摘要

在连续环境中的视觉-语言导航（VLN-CE）对自主智能体提出了严峻挑战，要求其无缝集成自然语言指令与视觉观察，以在复杂三维室内空间中进行导航。现有方法在长程任务中常因场景理解有限、规划效率低下以及缺乏稳健的决策框架而表现不佳。本文提出**层次化语义增强导航（HSAN）**框架，这是一种通过三项协同创新重新定义VLN-CE的开创性方法。首先，HSAN构建动态层次化语义场景图，利用视觉-语言模型捕获从物体到区域再到分区的多层次环境表征，从而实现精细的空间推理。其次，采用基于最优传输的拓扑规划器（以Kantorovich对偶性为基础），通过平衡语义相关性、空间可达性及理论最优性保证，选择长期目标。第三，图感知强化学习策略确保精确的底层控制，在稳健避障的同时导航子目标。通过融合谱图理论、最优传输及先进多模态学习，HSAN克服了先前工作中静态地图与启发式规划器的局限。在多个具有挑战性的VLN-CE数据集上的广泛实验表明，HSAN实现了最先进的性能，在导航成功率及向未见环境泛化方面均有显著提升。

🎯 研究动机

- 连续环境下的**视觉-语言导航(Vision-Language Navigation in Continuous Environments, VLN-CE)** 对自主代理构成严峻挑战，要求无缝整合自然语言指令和视觉观察 - 现有方法在**长时任务(long-horizon tasks)** 中表现不佳，受限于场景理解不足、规划效率低和缺乏稳健的决策框架 - 静态地图和启发式规划器存在根本缺陷，无法适应复杂3D室内空间的动态变化

🔧 核心方法

- 提出**层次语义增强导航(Hierarchical Semantic-Augmented Navigation, HSAN)** 框架，包含三个协同创新模块 - 构建**动态层次语义场景图(dynamic hierarchical semantic scene graph)**，利用**视觉-语言模型(vision-language models)** 捕获从物体到区域到地点的多级环境表示 - 采用基于**最优传输(optimal transport)** 的拓扑规划器，基于**Kantorovich对偶(Kantorovich's duality)** 理论选择长期目标，平衡语义相关性与空间可达性 - 设计**图感知的强化学习(graph-aware reinforcement learning)策略**，实现精确的低层控制，导航子目标并稳健避障

💡 核心创新

- **首创性集成**：首次将**谱图理论(spectral graph theory)**、**最优运输(optimal transport)** 和**多模态学习(multi-modal learning)** 统一到VLN-CE框架中 - **层次化场景表示**：动态语义场景图克服了传统静态地图的局限，支持细粒度空间推理 - **理论最优性保证**：最优传输规划器通过Kantorovich对偶提供目标选择的全局最优性理论保证 - **端到端协同**：高层规划与低层控制通过图感知强化学习无缝连接，避免了启发式规划器的误差累积

🏆 总体贡献

- 提出**HSAN框架**，为连续环境下的视觉-语言导航提供了全新的范式 - 在多个挑战性数据集上达到**最先进(state-of-the-art)** 性能，导航成功率和泛化到未见环境上有显著提升 - 整合了谱图理论、最优传输和多模态学习等理论工具，推动了VLN-CE领域的技术边界 - 为后续研究提供了可复现的基准和开源框架基础（论文中提及开源代码）

层级语义增强导航：面向视觉语言导航的最优传输与图驱动推理
Hierarchical Semantic-Augmented Navigation: Optimal Transport and Graph-Driven Reasoning for Vision-Language Navigation

📊 核心分析

层级语义增强导航：面向视觉语言导航的最优传输与图驱动推理 Hierarchical Semantic-Augmented Navigation: Optimal Transport and Graph-Driven Reasoning for Vision-Language Navigation

📊 核心分析

层级语义增强导航：面向视觉语言导航的最优传输与图驱动推理
Hierarchical Semantic-Augmented Navigation: Optimal Transport and Graph-Driven Reasoning for Vision-Language Navigation