← 返回论文列表

MemCompiler:编译,不要注入——用于具身智能体的状态条件记忆
MemCompiler: Compile, Don't Inject -- State-Conditioned Memory for Embodied Agents

作者: Xin Ding, Xinrui Wang, Yifan Yang 等12人
arXiv: 2605.07594v1
分类: cs.RO
📝 论文摘要
现有的具身智能体记忆系统通常将检索到的记忆作为静态上下文在任务开始时注入,我们将这种范式称为“提前整体记忆注入”(AMMI)。然而,这种静态设计会迅速与智能体的动态状态产生偏差,甚至可能使轻量级执行器的性能低于无记忆基线。针对这一问题,我们提出了MemCompiler,它将记忆利用重新定义为“状态条件记忆编译”。一个经过学习的记忆编译器读取记录智能体当前执行状态的结构化简报,动态选择并仅将相关记忆编译为可执行指导。该指导通过文本通道以及一个潜在软记忆通道传递,后者保留了无法用文本表达的感知信息。在Alf World、EmbodiedBench和ScienceWorld三个平台上,MemCompiler在开源骨干模型上相较于无记忆基线持续提升(最高提升129%),达到或接近闭源前沿系统,并将每步延迟降低60%,这表明状态感知的记忆编译同时提升了效果和效率。

📊 核心分析

🎯 研究动机
- 现有具身智能体(embodied agent)记忆系统采用**提前注入的静态记忆(Ahead-of-time Monolithic Memory Injection, AMMI)** 范式,即在episode开始时将检索到的记忆作为静态上下文注入 - 该静态设计会与智能体不断变化的状态**快速失配(misalignment)**,导致性能下降 - 轻量级执行器(lightweight executor)在使用静态记忆时甚至可能**低于无记忆基线(no-memory baseline)**,亟需一种状态感知的动态记忆利用方法
🔧 核心方法
- 提出**MemCompiler** 框架,将记忆利用重构为**状态条件记忆编译(State-Conditioned Memory Compilation)** - 设计一个**学习型记忆编译器(Learned Memory Compiler)**,读取结构化**Brief State** (描述智能体当前执行状态的紧凑表示),并动态选择和编译相关记忆 - 编译后的可执行指导通过**文本通道(text channel)** 和**潜在软记忆通道(latent Soft-Mem channel)** 双重传递,后者保留文本无法表述的感知信息(perceptual information)
💡 核心创新
- **范式转变**:从静态的“一次性注入”转变为**状态条件的动态编译**,使记忆与智能体当前执行状态对齐 - **双通道指导**:同时利用**文本** 和**潜在软记忆(Soft-Mem)** 通道,弥补文本表达能力的不足 - **效率提升**:每步延迟(**per-step latency**)降低60%,同时性能显著提升(最高+129%),实现效果与效率的兼顾
🏆 总体贡献
- 揭示了**静态记忆注入(AMMI)** 范式的根本缺陷,并提供了有效的替代方案 - 在**Alf World**、**EmbodiedBench**、**ScienceWorld** 等多个具身智能体基准上,持续优于无记忆基线,匹配或接近前沿闭源系统 - 提出的**状态条件记忆编译** 为记忆增强型具身智能体研究提供了新方向,兼具实用性和可扩展性