G-DRAGON：面向检索增强户外导航的地理空间推理与动态规划

📝 论文摘要

在大型室外环境中自主运行的地面机器人需要同时具备鲁棒的远程导航能力与精细的“最后一英里”探索能力。当前视觉语言导航（VLN）领域的进展主要适用于短距离任务，缺乏面向远程任务的地理空间基础。部分依赖云端大语言模型（LLM）的OpenStreetMap（OSM）方法容易产生事实性幻觉，且无法基于人类指令进行“最后一英里”探索。针对这些挑战，我们提出了G-DRAGON——一种面向室外开放世界导航的检索增强框架。该框架通过基于轻量级LLM的生成式检索将自然语言指令映射到带版本的本地OSM实体，从而获得用于全局路径规划的精确坐标。高层规划模块将全局拓扑路径与SLAM系统衔接，将地理空间航点投影到机器人的可导航框架内。在“最后一英里”阶段，框架切换至基于边界的探索与开集语义体素映射，以定位开放词汇目标。仿真实验结果表明，该框架性能优于现有基线。此外，我们在未见的真实城市环境中，于无人地面车辆（UGV）上验证了该系统，成功完成了轨迹长达500米的人员搜索任务。

🎯 研究动机

- 自主地面机器人在大规模室外环境需要同时具备**鲁棒的长距离导航** 和**细粒度的“最后一英里”探索** 能力 - 现有**视觉-语言导航(VLN)** 方法仅适用于短距离任务，缺乏**地理空间基础(geospatial grounding)** 支撑长距离任务 - 基于**OpenStreetMap(OSM)** 的方法依赖云端**大语言模型(LLM)**，易产生事实性幻觉，且无法根据人类指令执行“最后一英里”探索

🔧 核心方法

- 提出**G-DRAGON** 检索增强框架，通过基于轻量级**大语言模型(LLM)** 的生成式检索将自然语言指令映射到版本化的本地**OSM实体**，获得精确坐标用于全局路径规划 - 设计**高层规划模块(high-level planning module)** 桥接全局拓扑路径与**同时定位与建图(SLAM)** 系统，将地理空间路点投影到机器人可导航坐标系 - 在“最后一英里”阶段，采用基于边界的前沿探索和**开放集语义体素映射(open-set semantic voxel mapping)** 定位**开放词汇目标(open-vocabulary targets)**

💡 核心创新

- **首创性**：首次将**检索增强生成(retrieval-augmented generation)** 与轻量级LLM结合用于室外导航，实现精准**地理空间定位(geospatial grounding)** 并避免云端LLM的幻觉问题 - **统一框架**：无缝整合**长距离全局规划** 与**局部细粒度探索**，打破了现有方法在两者之间的割裂 - **开放词汇能力**：通过**开放集语义映射(open-set semantic mapping)** 支持任意自然语言描述的目标定位，无需预定义类别 - **真实世界验证**：在**无人地面车辆(UGV)** 上成功完成500米轨迹的人员搜索任务，验证了系统的实际可用性

🏆 总体贡献

- 为室外开放世界导航提供了一个新颖的**检索增强(retrieval-augmented)** 范式，有效结合地理信息与语言指令 - 在仿真环境中超越现有**最先进(SOTA)** 基线，并在真实城市环境中得到验证 - 开源框架有望推动**户外自主机器人** 在搜索救援、物流等领域的应用，促进后续研究复现与改进

G-DRAGON：面向检索增强户外导航的地理空间推理与动态规划
G-DRAGON: Geospatial Reasoning and Dynamic Planning for Retrieval-Augmented Outdoor Navigation

📊 核心分析

G-DRAGON：面向检索增强户外导航的地理空间推理与动态规划 G-DRAGON: Geospatial Reasoning and Dynamic Planning for Retrieval-Augmented Outdoor Navigation

📊 核心分析

G-DRAGON：面向检索增强户外导航的地理空间推理与动态规划
G-DRAGON: Geospatial Reasoning and Dynamic Planning for Retrieval-Augmented Outdoor Navigation