- 解决了**视觉-语言导航(Visual-and-Language Navigation, VLN)** 从仿真环境迁移到真实世界时性能显著下降的问题
- 根本瓶颈在于缺乏**鲁棒的空间定位(robust spatial grounding)** 和**跨域先验(cross-domain priors)**,而非单纯依赖扩大模型和数据规模
- 现有方法在感知不稳定(光照变化、运动模糊)和指令不明确场景下表现不佳
- 提出**StereoNav** 框架,引入**目标位置先验(Target-Location Priors)** 作为跨域持久桥梁,提供域不变的稳定视觉引导
- 利用**立体视觉(stereo vision)** 构建语义与几何的统一表示,通过增强深度感知实现精确动作预测
- 结合**视觉-语言-动作(Vision-Language-Action, VLA)** 范式,端到端学习导航策略
- **首创性**:提出**目标位置先验(Target-Location Priors)** 作为跨域持久桥梁,有效解决指令模糊和域间视觉差异问题
- **轻量化高效**:相比现有缩放模型和数据规模的方法,使用**更少参数和训练数据** 却达到SOTA性能
- **立体视觉融合**:首次在VLN中利用**立体视觉(stereo vision)** 联合编码语义与几何,缓解运动模糊和光照扰动
- 在**R2R-CE** 和**RxR-CE** 基准上取得**SOTA(state-of-the-art)** 表现,SR和SPL分别达到81.1%/68.3%和67.5%/52.0%
- 真实机器人部署验证了**复杂非结构化环境** 下的导航可靠性显著提升
- 提供开源项目页面和代码,促进社区复现与后续研究