← 返回论文列表

是什么限制了视觉与语言导航?
What Limits Vision-and-Language Navigation ?

作者: Yunheng Wang, Yuetong Fang, Taowen Wang 等12人
arXiv: 2605.13328v1
分类: cs.RO, cs.AI, cs.CL, cs.CV
📝 论文摘要
视觉-语言导航(VLN)是具身智能的基石。然而,当前智能体在从仿真环境迁移至现实部署时,往往遭受显著的性能下降,主要源于感知不稳定性(如光照变化和运动模糊)以及指令描述不充分。尽管现有方法试图通过扩大模型规模和训练数据来弥合这一差距,但我们认为瓶颈在于缺乏鲁棒的空间锚定和跨领域先验知识。本文提出StereoNav——一个鲁棒的视觉-语言-动作框架,旨在增强现实环境中的导航一致性。为弥合合成训练与物理执行之间的固有鸿沟,我们引入**目标位置先验**作为持久性桥梁。这些先验提供了跨领域不变的稳定视觉引导,即使在指令模糊时也能有效锚定智能体。此外,为缓解运动模糊和光照变化等视觉干扰,StereoNav利用立体视觉构建语义与几何的统一表征,通过增强深度感知实现精确动作预测。在R2R-CE和RxR-CE上的大量实验表明,StereoNav在自中心RGB模式下取得了最优性能,成功率(SR)和路径加权成功率(SPL)分别达到81.1%和68.3%、67.5%和52.0%,同时使用的参数量和训练数据显著少于先前的基于规模扩展的方法。更重要的是,真实世界机器人部署实验证实,StereoNav在复杂非结构化环境中显著提升了导航可靠性。项目页面:https://yunheng-wang.github.io/stereonav-public.github.io。

📊 核心分析

🎯 研究动机
- 解决了**视觉-语言导航(Visual-and-Language Navigation, VLN)** 从仿真环境迁移到真实世界时性能显著下降的问题 - 根本瓶颈在于缺乏**鲁棒的空间定位(robust spatial grounding)** 和**跨域先验(cross-domain priors)**,而非单纯依赖扩大模型和数据规模 - 现有方法在感知不稳定(光照变化、运动模糊)和指令不明确场景下表现不佳
🔧 核心方法
- 提出**StereoNav** 框架,引入**目标位置先验(Target-Location Priors)** 作为跨域持久桥梁,提供域不变的稳定视觉引导 - 利用**立体视觉(stereo vision)** 构建语义与几何的统一表示,通过增强深度感知实现精确动作预测 - 结合**视觉-语言-动作(Vision-Language-Action, VLA)** 范式,端到端学习导航策略
💡 核心创新
- **首创性**:提出**目标位置先验(Target-Location Priors)** 作为跨域持久桥梁,有效解决指令模糊和域间视觉差异问题 - **轻量化高效**:相比现有缩放模型和数据规模的方法,使用**更少参数和训练数据** 却达到SOTA性能 - **立体视觉融合**:首次在VLN中利用**立体视觉(stereo vision)** 联合编码语义与几何,缓解运动模糊和光照扰动
🏆 总体贡献
- 在**R2R-CE** 和**RxR-CE** 基准上取得**SOTA(state-of-the-art)** 表现,SR和SPL分别达到81.1%/68.3%和67.5%/52.0% - 真实机器人部署验证了**复杂非结构化环境** 下的导航可靠性显著提升 - 提供开源项目页面和代码,促进社区复现与后续研究