- 自主地面机器人在大规模室外环境需要同时具备**鲁棒的长距离导航** 和**细粒度的“最后一英里”探索** 能力
- 现有**视觉-语言导航(VLN)** 方法仅适用于短距离任务,缺乏**地理空间基础(geospatial grounding)** 支撑长距离任务
- 基于**OpenStreetMap(OSM)** 的方法依赖云端**大语言模型(LLM)**,易产生事实性幻觉,且无法根据人类指令执行“最后一英里”探索
- 提出**G-DRAGON** 检索增强框架,通过基于轻量级**大语言模型(LLM)** 的生成式检索将自然语言指令映射到版本化的本地**OSM实体**,获得精确坐标用于全局路径规划
- 设计**高层规划模块(high-level planning module)** 桥接全局拓扑路径与**同时定位与建图(SLAM)** 系统,将地理空间路点投影到机器人可导航坐标系
- 在“最后一英里”阶段,采用基于边界的前沿探索和**开放集语义体素映射(open-set semantic voxel mapping)** 定位**开放词汇目标(open-vocabulary targets)**
- **首创性**:首次将**检索增强生成(retrieval-augmented generation)** 与轻量级LLM结合用于室外导航,实现精准**地理空间定位(geospatial grounding)** 并避免云端LLM的幻觉问题
- **统一框架**:无缝整合**长距离全局规划** 与**局部细粒度探索**,打破了现有方法在两者之间的割裂
- **开放词汇能力**:通过**开放集语义映射(open-set semantic mapping)** 支持任意自然语言描述的目标定位,无需预定义类别
- **真实世界验证**:在**无人地面车辆(UGV)** 上成功完成500米轨迹的人员搜索任务,验证了系统的实际可用性
- 为室外开放世界导航提供了一个新颖的**检索增强(retrieval-augmented)** 范式,有效结合地理信息与语言指令
- 在仿真环境中超越现有**最先进(SOTA)** 基线,并在真实城市环境中得到验证
- 开源框架有望推动**户外自主机器人** 在搜索救援、物流等领域的应用,促进后续研究复现与改进