- 机器人需要在**部分可观测环境(partially observable environments)** 中依靠过去的观察和动作完成长时域任务,**记忆(memory)** 是机器人智能的关键组成部分
- 现有的机器人记忆基准测试存在以下不足:缺乏用于记忆形成的**多模态注释(multimodal annotations)**、任务覆盖和结构复杂度有限、仅局限于仿真环境而无真实世界评估
- 为解决这些空白,需要构建一个大规模、结构复杂、包含真实世界评估的记忆基准
- 提出**RoboMemArena**,包含26个任务,平均轨迹长度超过1000步,68.9%的子任务是**记忆依赖(memory-dependent)** 的
- 生成管道利用**视觉-语言模型(Vision-Language Model, VLM)** 设计和组合子任务,通过**原子函数(atomic functions)** 生成完整轨迹,并提供记忆相关注释(包括子任务指令和原生关键帧注释)
- 设计**PrediMem**,一个**双系统视觉-语言-动作(dual-system VLA)** 架构:高层VLM规划器管理包含**近期缓冲(recent buffer)** 和**关键帧缓冲(keyframe buffer)** 的记忆库,并使用**预测编码头(predictive coding head)** 增强对任务动态的敏感性
- **首创大规模、高复杂度基准**:首次提供平均轨迹长度超1000步、近70%子任务依赖记忆的基准,并包含**真实世界评估(real-world evaluation)**
- **自动化标注生成管道**:利用VLM自动设计子任务、生成轨迹并提供**多模态记忆注释(multimodal memory annotations)**,降低人工成本
- **双系统VLA架构PrediMem**:引入**预测编码机制(predictive coding mechanism)** 优化记忆管理,通过双缓冲记忆库和预测头提升对动态环境的适应能力
- 为机器人记忆研究提供了**大规模、高难度、具有真实世界评估** 的基准测试RoboMemArena,填补了现有基准在任务长度、记忆依赖度和物理评估方面的空白
- 提出了**PrediMem** 这一创新VLA架构,在RoboMemArena上**优于所有基线(baselines)**,为记忆管理、模型架构和复杂记忆系统的**缩放律(scaling laws)** 提供了深入见解
- 开源基准和代码,促进社区对机器人长时域记忆问题的可重复研究与后续发展