该论文旨在解决机器人智能体在复杂环境中高效构建和检索记忆与观察信息的问题。研究背景是:随着应用于机器人技术的智能体人工智能发展,对能够高效处理记忆的智能体需求日益增长。机器人需要构建记忆结构以支持有效的人机交互,而人类期望机器人能够快速提供关于位置、事件或物体的精确信息,这要求机器人在类似人类的推理时间内做出响应。
论文提出了Embodied Light Graph Retrieval Agent (EmbodiedLGR-Agent)架构,该方法结合了:
- 基于视觉-语言模型(visual-language model, VLM)驱动的智能体架构,用于构建密集且高效的环境表示。
- 一种混合的构建-检索(hybrid building-retrieval)方法,该方法建立在参数高效的VLM之上。
- 使用语义图(semantic graph)存储关于物体及其位置的低层级信息。
- 同时,通过传统的检索增强架构(retrieval-augmented architecture)保留对观察场景的高层级描述。
论文的核心创新点在于:
- 提出了一个集成了轻量级图表示(lightweight graph representation)与检索(retrieval)的混合架构,专门用于机器人智能体的语义-空间记忆(semantic-spatial memory)。
- 与现有工作相比,其独特之处在于:
1. 通过参数高效的VLM和语义图的结合,实现了对环境的高效记忆表示,既存储了低层级的物体与位置信息,又保留了高层级的场景描述。
2. 该架构在保持任务精度的同时,显著提升了推理和查询速度,达到了最先进的性能水平。
3. 成功在物理机器人上进行了实际部署,证明了其在真实世界人机交互场景中的实用价值,且整个视觉-语言模型和构建-检索流程均在本地运行。
论文对该领域的整体贡献包括:
- 提出了一种新颖的机器人智能体架构(EmbodiedLGR-Agent),有效解决了环境记忆的高效表示与快速检索问题。
- 在NaVQA数据集上实现了最先进的推理和查询时间性能,同时在全局任务上保持了与当前最先进方法相竞争的准确率。
- 通过在实际物理机器人上的成功部署,验证了该方法的实用性和在真实世界人机交互场景中的有效性,推动了具身智能(embodied AI)向实际应用的发展。