与我同行：面向以人为中心的户外辅助的长时域社交导航

📝 论文摘要

协助人类在开放世界户外环境中工作时，机器人需要将高层次的自然语言意图转化为安全、长时域且符合社会规范的导航行为。现有的基于地图的方法依赖昂贵的预构建高清地图，而基于学习的策略主要局限于室内和短时域场景。为弥合这一差距，我们提出"Walk with Me"框架——一种无需地图的、基于高层人类指令实现长时域社交导航的系统。该框架利用GPS背景信息及公共地图API中轻量级候选兴趣点，实现语义目的地定位与航路点生成。高层视觉-语言模型将抽象指令转化为具体目的地，并规划粗略的航路点序列。在执行阶段，一个基于观测的路由机制会判断低层视觉-语言-动作策略能否应对当前情景，或是否需要高层视觉-语言模型进行显式安全推理。常规路段由低层VLA执行，而拥挤路口等复杂场景则会触发高层推理，并在不安全时启动"停等"行为。通过结合语义意图定位、无地图长时域规划、安全感知推理及低层动作生成，"Walk with Me"实现了以人为中心的实用型户外社交导航。

🎯 研究动机

- 解决在开放世界户外环境中，机器人如何将高层自然语言指令转化为安全、长期且符合社交规范的导航行为的问题 - 现有基于地图的方法依赖昂贵的高精地图(pre-built HD map)，而基于学习的方法多局限于室内和短期场景，缺乏长期导航能力 - 研究背景：随着服务机器人向户外扩展，需要无需地图的长期社会导航框架以支持人类辅助任务

🔧 核心方法

- 提出**Walk with Me** 框架，完全无需预建地图，利用**GPS上下文(GPS context)** 和公共地图API的轻量级候选兴趣点进行语义目的地定位和航点提议 - 采用**高层视觉-语言模型(High-Level Vision-Language Model, VLM)** 将抽象指令转化为具体目的地并规划粗略航点序列 - 引入**观察感知路由机制(observation-aware routing mechanism)**，动态判断当前场景由低层**视觉-语言-动作(Visual-Language-Action, VLA)** 策略执行，还是由高层VLM进行显式安全推理 - 低层VLA处理常规导航段，高层VLM在拥挤路口等复杂情境触发**停止-等待(stop-and-wait)** 行为，实现安全感知规划

💡 核心创新

- **首创性**：首次将高层语义意图定位、无地图长期规划、安全感知推理与低层动作生成统一在一个框架中，实现户外长期社会导航 - **无需预建地图**：相比现有地图依赖方法，仅用GPS和公共API候选点即可完成长期规划，大幅降低部署成本 - **分层路由机制**：通过观察感知路由在高层VLM和低层VLA之间动态切换，兼顾常规执行效率与复杂情境的安全推理 - **社交合规性**：在拥挤场景中主动触发停止-等待行为，而非简单绕过，体现对人类社交规范的尊重

🏆 总体贡献

- 为户外辅助机器人提供了一种实用的**无地图长期社会导航范式**，弥合了高层指令与低层动作之间的鸿沟 - 在长期规划与社交遵从方面取得了突破，使得机器人能在开放世界环境中理解并执行诸如“跟我走”之类的高层语言指令 - 通过将语义理解、安全推理与强化学习策略结合，推动了**人机协同导航** 领域的发展，为后续研究提供了可复用的框架设计思路

与我同行：面向以人为中心的户外辅助的长时域社交导航
Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

📊 核心分析

与我同行：面向以人为中心的户外辅助的长时域社交导航 Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

📊 核心分析

与我同行：面向以人为中心的户外辅助的长时域社交导航
Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance