VLM集成室内移动机器人的语义自主框架：混合确定性推理与跨机器人自适应记忆

📝 论文摘要

自主室内移动机器人能够利用ROS 2 Navigation 2等成熟框架可靠地导航至度量坐标，但缺乏解释表达意图而非位置的自然语言指令的能力。视觉-语言模型提供了弥合这一差距所需的语义推理能力，但其推理延迟（在消费级硬件上每次决策需2-9秒）以及逐会话遗忘限制了实际部署。本文提出了语义自主栈（Semantic Autonomy Stack），一个用于语义自主室内导航的六层参考框架，并在搭载现成边缘硬件的实体机器人上验证了一个完整实例，该实例融合了混合确定性-VLM推理与跨机器人自适应记忆。一个七步参数解析器能在0.1毫秒内处理88%的指令，无需调用语言模型、摄像头或GPU；仅当指令真正歧义时才会升级至VLM推理。一个具有明确范围分类法（全局环境知识、每位操作员偏好、每台机器人能力）的五类语义记忆框架实现了跨会话学习与跨机器人知识转移：通过一台机器人上的VLM交互学习到的偏好被提升为确定性解析，并通过共享编译摘要转移至第二台机器人，实现了实测10.3万倍的延迟降低。在两台定制差分驱动机器人上进行的实验验证涵盖了82项场景级决策和三轮会话，结果表明语义迁移准确率为100%（33/33，95%置信区间[0.894, 1.000]），语义解析准确率为100%，并且实现了多机器人并发操作的可行性——所有操作均在无板载GPU的Raspberry Pi 5平台上完成，无需任何训练数据。

🎯 研究动机

- 现有室内移动机器人框架（如ROS 2 Navigation 2）虽能可靠导航到度量坐标，但无法理解表达意图而非位置的自然语言指令 - **视觉-语言模型(Vision-Language Model, VLM)** 具备语义推理能力，但在消费级硬件上推理延迟高达2-9秒/决策，且存在会话间遗忘(amnesia)问题，限制了实际部署

🔧 核心方法

- 提出**语义自主堆栈(Semantic Autonomy Stack)**，一个六层参考框架，并验证了包含**混合确定性-VLM推理(hybrid deterministic-VLM reasoning)** 和**跨机器人自适应记忆(cross-robot adaptive memory)** 的完整实例 - 设计**七步参数解析器(seven-step parametric resolver)**，可在0.1毫秒内处理88%的指令而无需调用语言模型、摄像头或GPU；仅真正模糊的指令升级到VLM推理 - 构建**五类语义记忆框架(five-category semantic memory framework)**，包含显式范围分类（全局环境知识、单操作员偏好、单机器人能力），实现跨会话学习与跨机器人知识转移

💡 核心创新

- **混合推理架构**：结合确定性规则与VLM，优先使用轻量级解析器处理大部分指令，仅在模糊情况下调用VLM，大幅降低计算开销 - **跨机器人自适应记忆**：VLM交互中学习的偏好被提升为确定性解析规则，并通过共享编译摘要(digest)转移到另一机器人，实现103,000倍的延迟降低 - **零训练数据且无需专用GPU**：在Raspberry Pi 5上完成全部实验，证明方法对边缘硬件的普适性

🏆 总体贡献

- 为VLM集成的室内移动机器人提供了系统化的**语义自主框架(Semantic Autonomy Stack)**，填补了自然语言导航与高效推理之间的空白 - 在82个场景级决策和3个会话的实验中，实现100%语义转移准确率（33/33，95% CI [0.894, 1.000]）和100%语义解析准确率，并验证了多机器人并发可行性 - 展示了无需训练数据、基于边缘设备即可实现高效语义导航的实用范式，促进该领域实际应用

VLM集成室内移动机器人的语义自主框架：混合确定性推理与跨机器人自适应记忆
A Semantic Autonomy Framework for VLM-Integrated Indoor Mobile Robots: Hybrid Deterministic Reasoning and Cross-Robot Adaptive Memory

📊 核心分析

VLM集成室内移动机器人的语义自主框架：混合确定性推理与跨机器人自适应记忆 A Semantic Autonomy Framework for VLM-Integrated Indoor Mobile Robots: Hybrid Deterministic Reasoning and Cross-Robot Adaptive Memory

📊 核心分析

VLM集成室内移动机器人的语义自主框架：混合确定性推理与跨机器人自适应记忆
A Semantic Autonomy Framework for VLM-Integrated Indoor Mobile Robots: Hybrid Deterministic Reasoning and Cross-Robot Adaptive Memory