传统越野自主导航方法依赖多个独立模型分别处理地形分类、高度估计和滑移/坡度量化,这需要分别训练每个组件、准备特定任务数据集并进行微调。论文旨在解决这种多模型系统带来的复杂性和效率问题。
论文提出了一种零样本(zero-shot)方法:
- 使用SAM2进行环境分割
- 将原始图像和带有数字标签标注的分割掩码图像同时输入给视觉语言模型(Vision-Language Model, VLM)
- 通过提示(prompt)让VLM识别哪些数字标签对应的区域是可行驶的
- 将该系统与规划和控制模块结合,形成统一框架
论文的核心创新在于:
- 提出了一个基于视觉提示(visual prompt)的零样本推理框架,完全避免了传统方法中对多个专门化模型进行单独训练和微调的需求
- 首次将SAM2的分割能力与VLM的推理能力相结合,通过简单的数字标签标注和自然语言提示,让VLM直接完成可行驶区域识别这一复杂任务
- 利用VLM的固有推理能力替代了传统的显式地形特定模型,实现了从感知到决策的端到端简化
论文的整体贡献包括:
- 在越野地图构建领域提出了一个统一、简化的框架,显著降低了系统复杂性
- 在高分辨率分割数据集上超越了最先进的可训练模型性能
- 在Isaac Sim越野环境中实现了完整的全栈导航能力,验证了方法的实用性
- 展示了多模态大语言模型(Multimodal LLMs)在机器人越野导航中的实际应用潜力