← 返回论文列表

PathPainter:将图像生成模型的泛化能力迁移到具身导航
PathPainter: Transferring the Generalization Ability of Image Generation Models to Embodied Navigation

作者: Yijin Wang, Yuru Tian, Xijie Huang 等8人
arXiv: 2605.07496v1
分类: cs.RO
📝 论文摘要
鸟瞰图已被广泛证明能为导航提供有价值的先验信息。尽管此类视角提供了全局信息,但仍存在两个关键挑战:如何充分利用这些信息,以及如何在执行过程中可靠地使用它们。本文提出了一种利用鸟瞰图作为全局先验的导航系统,专为地面及近地面机器人平台设计。该系统采用图像生成模型从自然语言中解读人类意图,识别目标目的地,并生成可穿越性掩码。在执行阶段,我们引入跨视角定位技术,将机器人里程计与鸟瞰图对齐,以缓解传统里程计中的长期漂移问题。我们通过大量基准实验对所提方法进行评估,并在无人机平台上进一步验证。仅使用传统局部运动规划器,无人机便成功完成了160米室外远程导航任务。本工作展示了基础模型的世界理解能力如何迁移至具身导航,使机器人能够受益于现有图像生成模型的强泛化能力。

📊 核心分析

🎯 研究动机
- 现有**鸟瞰图(BEV)** 导航面临两个关键挑战:如何充分利用全局信息以及如何在执行过程中可靠使用该信息 - 传统里程计存在长期漂移问题,影响长距离导航精度 - 希望将**图像生成模型(image generation model)** 的泛化能力迁移到**具身导航(embodied navigation)** 中,以理解人类意图并生成可通行区域
🔧 核心方法
- 提出一个导航系统,使用**鸟瞰图(BEV)** 作为全局先验,并设计**跨视图定位(cross-view localization)** 来对齐机器人里程计与BEV地图 - 采用**图像生成模型(image generation model)** 从自然语言中解析人类意图,识别目标位置并生成**可通行性掩码(traversability masks)** - 系统仅使用常规的**局部运动规划器(local motion planner)**,无需复杂全局规划器,实现长距离导航
💡 核心创新
- **首创性**:首次将**图像生成模型(image generation model)** 的泛化能力直接迁移到**具身导航(embodied navigation)** 任务中,利用其世界理解能力 - **跨视图定位(cross-view localization)** 机制:通过对齐BEV地图与机器人里程计,有效缓解传统里程计的长期漂移问题,无需额外传感器 - **自然语言驱动的端到端导航**:通过语言理解人类意图,结合BEV全局先验生成可通行区域,跳过了传统语义地图构建步骤
🏆 总体贡献
- 展示了如何将基础模型的**世界理解能力(world-understanding capabilities)** 转移到具身导航,使机器人受益于现有图像生成模型的强大泛化能力 - 在标准基准和实际**无人机(UAV)** 平台上验证了方法的有效性,成功完成160米户外长距离导航任务 - 为利用**生成模型(generative models)** 进行机器人导航提供了新范式,降低了导航对精确传感器和复杂规划的依赖