是什么限制了视觉与语言导航？

What Limits Vision-and-Language Navigation ?

作者: Yunheng Wang, Yuetong Fang, Taowen Wang 等12人

arXiv: 2605.13328v1

分类: cs.RO, cs.AI, cs.CL, cs.CV

📝 论文摘要

视觉-语言导航（VLN）是具身智能的基石。然而，当前智能体在从仿真环境迁移至现实部署时，往往遭受显著的性能下降，主要源于感知不稳定性（如光照变化和运动模糊）以及指令描述不充分。尽管现有方法试图通过扩大模型规模和训练数据来弥合这一差距，但我们认为瓶颈在于缺乏鲁棒的空间锚定和跨领域先验知识。本文提出StereoNav——一个鲁棒的视觉-语言-动作框架，旨在增强现实环境中的导航一致性。为弥合合成训练与物理执行之间的固有鸿沟，我们引入**目标位置先验**作为持久性桥梁。这些先验提供了跨领域不变的稳定视觉引导，即使在指令模糊时也能有效锚定智能体。此外，为缓解运动模糊和光照变化等视觉干扰，StereoNav利用立体视觉构建语义与几何的统一表征，通过增强深度感知实现精确动作预测。在R2R-CE和RxR-CE上的大量实验表明，StereoNav在自中心RGB模式下取得了最优性能，成功率（SR）和路径加权成功率（SPL）分别达到81.1%和68.3%、67.5%和52.0%，同时使用的参数量和训练数据显著少于先前的基于规模扩展的方法。更重要的是，真实世界机器人部署实验证实，StereoNav在复杂非结构化环境中显著提升了导航可靠性。项目页面：https://yunheng-wang.github.io/stereonav-public.github.io。

📊 核心分析

🎯 研究动机

- 解决了**视觉-语言导航(Visual-and-Language Navigation, VLN)** 从仿真环境迁移到真实世界时性能显著下降的问题 - 根本瓶颈在于缺乏**鲁棒的空间定位(robust spatial grounding)** 和**跨域先验(cross-domain priors)**，而非单纯依赖扩大模型和数据规模 - 现有方法在感知不稳定（光照变化、运动模糊）和指令不明确场景下表现不佳

🔧 核心方法

- 提出**StereoNav** 框架，引入**目标位置先验(Target-Location Priors)** 作为跨域持久桥梁，提供域不变的稳定视觉引导 - 利用**立体视觉(stereo vision)** 构建语义与几何的统一表示，通过增强深度感知实现精确动作预测 - 结合**视觉-语言-动作(Vision-Language-Action, VLA)** 范式，端到端学习导航策略

💡 核心创新

- **首创性**：提出**目标位置先验(Target-Location Priors)** 作为跨域持久桥梁，有效解决指令模糊和域间视觉差异问题 - **轻量化高效**：相比现有缩放模型和数据规模的方法，使用**更少参数和训练数据** 却达到SOTA性能 - **立体视觉融合**：首次在VLN中利用**立体视觉(stereo vision)** 联合编码语义与几何，缓解运动模糊和光照扰动

🏆 总体贡献

- 在**R2R-CE** 和**RxR-CE** 基准上取得**SOTA(state-of-the-art)** 表现，SR和SPL分别达到81.1%/68.3%和67.5%/52.0% - 真实机器人部署验证了**复杂非结构化环境** 下的导航可靠性显著提升 - 提供开源项目页面和代码，促进社区复现与后续研究