- 现有室内移动机器人框架(如ROS 2 Navigation 2)虽能可靠导航到度量坐标,但无法理解表达意图而非位置的自然语言指令
- **视觉-语言模型(Vision-Language Model, VLM)** 具备语义推理能力,但在消费级硬件上推理延迟高达2-9秒/决策,且存在会话间遗忘(amnesia)问题,限制了实际部署
- 提出**语义自主堆栈(Semantic Autonomy Stack)**,一个六层参考框架,并验证了包含**混合确定性-VLM推理(hybrid deterministic-VLM reasoning)** 和**跨机器人自适应记忆(cross-robot adaptive memory)** 的完整实例
- 设计**七步参数解析器(seven-step parametric resolver)**,可在0.1毫秒内处理88%的指令而无需调用语言模型、摄像头或GPU;仅真正模糊的指令升级到VLM推理
- 构建**五类语义记忆框架(five-category semantic memory framework)**,包含显式范围分类(全局环境知识、单操作员偏好、单机器人能力),实现跨会话学习与跨机器人知识转移
- **混合推理架构**:结合确定性规则与VLM,优先使用轻量级解析器处理大部分指令,仅在模糊情况下调用VLM,大幅降低计算开销
- **跨机器人自适应记忆**:VLM交互中学习的偏好被提升为确定性解析规则,并通过共享编译摘要(digest)转移到另一机器人,实现103,000倍的延迟降低
- **零训练数据且无需专用GPU**:在Raspberry Pi 5上完成全部实验,证明方法对边缘硬件的普适性
- 为VLM集成的室内移动机器人提供了系统化的**语义自主框架(Semantic Autonomy Stack)**,填补了自然语言导航与高效推理之间的空白
- 在82个场景级决策和3个会话的实验中,实现100%语义转移准确率(33/33,95% CI [0.894, 1.000])和100%语义解析准确率,并验证了多机器人并发可行性
- 展示了无需训练数据、基于边缘设备即可实现高效语义导航的实用范式,促进该领域实际应用