PathPainter：将图像生成模型的泛化能力迁移到具身导航

📝 论文摘要

鸟瞰图已被广泛证明能为导航提供有价值的先验信息。尽管此类视角提供了全局信息，但仍存在两个关键挑战：如何充分利用这些信息，以及如何在执行过程中可靠地使用它们。本文提出了一种利用鸟瞰图作为全局先验的导航系统，专为地面及近地面机器人平台设计。该系统采用图像生成模型从自然语言中解读人类意图，识别目标目的地，并生成可穿越性掩码。在执行阶段，我们引入跨视角定位技术，将机器人里程计与鸟瞰图对齐，以缓解传统里程计中的长期漂移问题。我们通过大量基准实验对所提方法进行评估，并在无人机平台上进一步验证。仅使用传统局部运动规划器，无人机便成功完成了160米室外远程导航任务。本工作展示了基础模型的世界理解能力如何迁移至具身导航，使机器人能够受益于现有图像生成模型的强泛化能力。

🎯 研究动机

- 现有**鸟瞰图(BEV)** 导航面临两个关键挑战：如何充分利用全局信息以及如何在执行过程中可靠使用该信息 - 传统里程计存在长期漂移问题，影响长距离导航精度 - 希望将**图像生成模型(image generation model)** 的泛化能力迁移到**具身导航(embodied navigation)** 中，以理解人类意图并生成可通行区域

🔧 核心方法

- 提出一个导航系统，使用**鸟瞰图(BEV)** 作为全局先验，并设计**跨视图定位(cross-view localization)** 来对齐机器人里程计与BEV地图 - 采用**图像生成模型(image generation model)** 从自然语言中解析人类意图，识别目标位置并生成**可通行性掩码(traversability masks)** - 系统仅使用常规的**局部运动规划器(local motion planner)**，无需复杂全局规划器，实现长距离导航

💡 核心创新

- **首创性**：首次将**图像生成模型(image generation model)** 的泛化能力直接迁移到**具身导航(embodied navigation)** 任务中，利用其世界理解能力 - **跨视图定位(cross-view localization)** 机制：通过对齐BEV地图与机器人里程计，有效缓解传统里程计的长期漂移问题，无需额外传感器 - **自然语言驱动的端到端导航**：通过语言理解人类意图，结合BEV全局先验生成可通行区域，跳过了传统语义地图构建步骤

🏆 总体贡献

- 展示了如何将基础模型的**世界理解能力(world-understanding capabilities)** 转移到具身导航，使机器人受益于现有图像生成模型的强大泛化能力 - 在标准基准和实际**无人机(UAV)** 平台上验证了方法的有效性，成功完成160米户外长距离导航任务 - 为利用**生成模型(generative models)** 进行机器人导航提供了新范式，降低了导航对精确传感器和复杂规划的依赖

PathPainter：将图像生成模型的泛化能力迁移到具身导航
PathPainter: Transferring the Generalization Ability of Image Generation Models to Embodied Navigation

📊 核心分析

PathPainter：将图像生成模型的泛化能力迁移到具身导航 PathPainter: Transferring the Generalization Ability of Image Generation Models to Embodied Navigation

📊 核心分析

PathPainter：将图像生成模型的泛化能力迁移到具身导航
PathPainter: Transferring the Generalization Ability of Image Generation Models to Embodied Navigation