当前视觉语言导航(visual-language navigation)方法面临三大瓶颈:
- 异构机器人兼容性差,难以统一部署于不同形态的机器人平台
- 实时性能不足,且导航安全性有待提升
- 无法支持开放词汇(open-vocabulary)语义泛化和多模态(multimodal)任务输入
提出FSUNav框架,采用大脑-小脑(Cerebrum-Cerebellum)架构:
- 小脑模块:高频端到端(end-to-end)模块,基于深度强化学习(deep reinforcement learning)开发通用局部规划器,实现跨异构平台的统一导航
- 大脑模块:构建三层推理模型,利用视觉语言模型(Vision-Language Models, VLMs)建立端到端检测与验证机制,支持零样本(zero-shot)开放词汇目标导航
- 支持多模态输入(文本、目标描述、图像)
核心创新在于大脑-小脑架构的提出与创新性整合:
- 首次将视觉语言模型(VLMs)与仿生神经架构结合,实现功能分离与协同:小脑负责高频安全运动控制,大脑负责高层语义推理
- 通过通用局部规划器统一异构机器人导航接口,突破平台差异性限制
- 构建无需预定义ID的零样本开放词汇导航能力,支持未见过的语义目标
- 建立三层推理模型与端到端验证机制,显著提升任务成功率
论文的整体贡献包括:
- 提出首个面向快速、安全、通用零样本目标导航的完整架构FSUNav
- 在MP3D、HM3D、OVON等多个基准测试中实现最先进(state-of-the-art)性能,在物体、实例图像和任务导航上显著超越现有方法
- 通过真实世界多机器人平台部署验证了框架的鲁棒性和实际适用性
- 为视觉语言导航领域提供了同时解决效率、安全性和泛化能力的新范式