eMEM：一种面向具身智能体的混合时空记忆系统

📝 论文摘要

我们介绍了eMEM（具身记忆），一种基于混合图的记忆系统，专为在物理环境中操作的具身代理设计。当前的代理记忆架构（如生成代理、MemGPT和A-MEM）将记忆视为文本流或知识图谱，但具身代理需要同时能够按意义、空间和时间进行检索的记忆。eMEM通过一个单一图模型背后的多索引架构（SQLite用于结构化存储，hnswlib用于近似最近邻语义搜索，以及R-树用于空间查询）填补了这一空白。一个分层整合管道将原始感知观察转化为压缩摘要，模仿生物系统中的海马-新皮层整合。十个面向代理的回忆工具将记忆检索原语（包括概念到位置的解析和跨层回忆）作为LLM工具调用的第一类操作暴露出来。该系统完全嵌入，并与代理同进程运行。此外，我们介绍了eMEM-Bench v1，这是一个基于ProcTHOR-10K场景构建的基准，用于具身记忆评估。该基准明确围绕八个认知心理学范式（DRM诱饵、模式分离、模式完成、来源监控、上下文依赖检索、长时程干扰、序列位置和干扰增强保留曲线）组织，每个范式都经过选择，以便结果能够在更广泛的记忆系统文献（包括人类和先前代理记忆系统）中找到可解释的对应；这是一种表面任务基准（如LoCoMo或OpenEQA）无法提供的诊断水平。eMEM在988个探针上取得了80.8的加权平均分，对于房间唯一物品，在1小时到1年的模拟延迟下保持了天花板水平的平坦保留曲线。我们展示了纯RAG基线（flat_rag消融）在上下文依赖检索上损失30分，在DRM诱饵拒绝上损失29分，从而分别隔离了多层存储和整合的贡献。我们同时发布该系统与基准。

🎯 研究动机

- 现行**具身智能体(embodied agent)** 内存架构（如Generative Agents、MemGPT）将内存视为文本流或知识图谱，无法同时支持按语义、空间和时间的多维度检索 - 具身智能体在物理环境中操作，需要一种既能按含义搜索、又能按空间位置和时间戳访问的内存系统 - 现有基准（如LoCoMo、OpenEQA）提供表面任务评估，但缺乏基于认知心理学范式的诊断性可解释评测

🔧 核心方法

- 提出**eMEM(Embodied Memory)** 混合图内存系统，采用**多索引架构(multi-index architecture)**：SQLite负责结构化存储、hnswlib用于近似最近邻语义搜索、R-tree处理空间查询，统一在单一图模型下 - 设计**层级整合流水线(tiered consolidation pipeline)**，将原始感知观测转化为压缩摘要，模仿生物系统中的海马-新皮质巩固过程 - 提供**十个智能体可调用回忆工具(agent-facing recall tools)**，包括概念到位置解析和跨层回忆等原语，供LLM工具调用 - 构建**eMEM-Bench v1** 基准，基于ProcTHOR-10K场景，围绕八种认知心理学范式（如DRM诱饵、模式分离、长期干扰等）组织探针评估

💡 核心创新

- **首创性**：首个同时集成**语义搜索、空间索引和时间结构化存储** 的混合图内存系统，专为具身智能体设计 - **生物启发**：层级整合流水线直接类比**海马-新皮质巩固(hippocampal-neocortical consolidation)**，实现从原始感知到压缩摘要的记忆转换 - **诊断性基准**：eMEM-Bench基于认知心理学范式，提供可解释的评估维度（如保留曲线、DRM诱饵拒绝），超越现有表面任务基准 - **效率与贡献分离**：通过纯RAG基线(flat_rag)消融实验，证明多层存储和巩固分别贡献了30分以上的性能提升

🏆 总体贡献

- 为具身智能体领域提供了一种**多维度可检索混合图内存系统**，填补了现有方法在时空-语义联合检索上的空白 - 在eMEM-Bench v1（988个探针）上达到**80.8加权平均分**，保留曲线在1小时到1年模拟延迟内保持平坦，验证了长期记忆的稳定性 - 开源**eMEM系统与eMEM-Bench v1基准代码**，促进社区复现、评估与后续研究

eMEM：一种面向具身智能体的混合时空记忆系统
eMEM：一种面向具身智能体的混合时空记忆系统

📊 核心分析

eMEM：一种面向具身智能体的混合时空记忆系统 eMEM：一种面向具身智能体的混合时空记忆系统

📊 核心分析

eMEM：一种面向具身智能体的混合时空记忆系统
eMEM：一种面向具身智能体的混合时空记忆系统