- 解决在开放世界户外环境中,机器人如何将高层自然语言指令转化为安全、长期且符合社交规范的导航行为的问题
- 现有基于地图的方法依赖昂贵的高精地图(pre-built HD map),而基于学习的方法多局限于室内和短期场景,缺乏长期导航能力
- 研究背景:随着服务机器人向户外扩展,需要无需地图的长期社会导航框架以支持人类辅助任务
- 提出**Walk with Me** 框架,完全无需预建地图,利用**GPS上下文(GPS context)** 和公共地图API的轻量级候选兴趣点进行语义目的地定位和航点提议
- 采用**高层视觉-语言模型(High-Level Vision-Language Model, VLM)** 将抽象指令转化为具体目的地并规划粗略航点序列
- 引入**观察感知路由机制(observation-aware routing mechanism)**,动态判断当前场景由低层**视觉-语言-动作(Visual-Language-Action, VLA)** 策略执行,还是由高层VLM进行显式安全推理
- 低层VLA处理常规导航段,高层VLM在拥挤路口等复杂情境触发**停止-等待(stop-and-wait)** 行为,实现安全感知规划
- **首创性**:首次将高层语义意图定位、无地图长期规划、安全感知推理与低层动作生成统一在一个框架中,实现户外长期社会导航
- **无需预建地图**:相比现有地图依赖方法,仅用GPS和公共API候选点即可完成长期规划,大幅降低部署成本
- **分层路由机制**:通过观察感知路由在高层VLM和低层VLA之间动态切换,兼顾常规执行效率与复杂情境的安全推理
- **社交合规性**:在拥挤场景中主动触发停止-等待行为,而非简单绕过,体现对人类社交规范的尊重
- 为户外辅助机器人提供了一种实用的**无地图长期社会导航范式**,弥合了高层指令与低层动作之间的鸿沟
- 在长期规划与社交遵从方面取得了突破,使得机器人能在开放世界环境中理解并执行诸如“跟我走”之类的高层语言指令
- 通过将语义理解、安全推理与强化学习策略结合,推动了**人机协同导航** 领域的发展,为后续研究提供了可复用的框架设计思路