- 现有**鸟瞰图(BEV)** 导航面临两个关键挑战:如何充分利用全局信息以及如何在执行过程中可靠使用该信息
- 传统里程计存在长期漂移问题,影响长距离导航精度
- 希望将**图像生成模型(image generation model)** 的泛化能力迁移到**具身导航(embodied navigation)** 中,以理解人类意图并生成可通行区域
- 提出一个导航系统,使用**鸟瞰图(BEV)** 作为全局先验,并设计**跨视图定位(cross-view localization)** 来对齐机器人里程计与BEV地图
- 采用**图像生成模型(image generation model)** 从自然语言中解析人类意图,识别目标位置并生成**可通行性掩码(traversability masks)**
- 系统仅使用常规的**局部运动规划器(local motion planner)**,无需复杂全局规划器,实现长距离导航
- **首创性**:首次将**图像生成模型(image generation model)** 的泛化能力直接迁移到**具身导航(embodied navigation)** 任务中,利用其世界理解能力
- **跨视图定位(cross-view localization)** 机制:通过对齐BEV地图与机器人里程计,有效缓解传统里程计的长期漂移问题,无需额外传感器
- **自然语言驱动的端到端导航**:通过语言理解人类意图,结合BEV全局先验生成可通行区域,跳过了传统语义地图构建步骤
- 展示了如何将基础模型的**世界理解能力(world-understanding capabilities)** 转移到具身导航,使机器人受益于现有图像生成模型的强大泛化能力
- 在标准基准和实际**无人机(UAV)** 平台上验证了方法的有效性,成功完成160米户外长距离导航任务
- 为利用**生成模型(generative models)** 进行机器人导航提供了新范式,降低了导航对精确传感器和复杂规划的依赖