- 连续环境下的**视觉-语言导航(Vision-Language Navigation in Continuous Environments, VLN-CE)** 对自主代理构成严峻挑战,要求无缝整合自然语言指令和视觉观察
- 现有方法在**长时任务(long-horizon tasks)** 中表现不佳,受限于场景理解不足、规划效率低和缺乏稳健的决策框架
- 静态地图和启发式规划器存在根本缺陷,无法适应复杂3D室内空间的动态变化
- 提出**层次语义增强导航(Hierarchical Semantic-Augmented Navigation, HSAN)** 框架,包含三个协同创新模块
- 构建**动态层次语义场景图(dynamic hierarchical semantic scene graph)**,利用**视觉-语言模型(vision-language models)** 捕获从物体到区域到地点的多级环境表示
- 采用基于**最优传输(optimal transport)** 的拓扑规划器,基于**Kantorovich对偶(Kantorovich's duality)** 理论选择长期目标,平衡语义相关性与空间可达性
- 设计**图感知的强化学习(graph-aware reinforcement learning)策略**,实现精确的低层控制,导航子目标并稳健避障
- **首创性集成**:首次将**谱图理论(spectral graph theory)**、**最优运输(optimal transport)** 和**多模态学习(multi-modal learning)** 统一到VLN-CE框架中
- **层次化场景表示**:动态语义场景图克服了传统静态地图的局限,支持细粒度空间推理
- **理论最优性保证**:最优传输规划器通过Kantorovich对偶提供目标选择的全局最优性理论保证
- **端到端协同**:高层规划与低层控制通过图感知强化学习无缝连接,避免了启发式规划器的误差累积
- 提出**HSAN框架**,为连续环境下的视觉-语言导航提供了全新的范式
- 在多个挑战性数据集上达到**最先进(state-of-the-art)** 性能,导航成功率和泛化到未见环境上有显著提升
- 整合了谱图理论、最优传输和多模态学习等理论工具,推动了VLN-CE领域的技术边界
- 为后续研究提供了可复现的基准和开源框架基础(论文中提及开源代码)