RoboMemArena：一个全面且具有挑战性的机器人记忆基准测试

📝 论文摘要

记忆是机器人智能的关键组成部分，因为机器人必须依赖过去的观察和动作，在部分可观测环境中完成长时域任务。然而，现有的机器人记忆基准仍缺乏用于记忆构建的多模态标注，任务覆盖范围和结构复杂度有限，且仅限于仿真环境，缺乏真实世界评估。我们通过RoboMemArena弥补了这一空白——该大规模基准包含26个任务，每个任务的平均轨迹长度超过1000步，其中68.9%的子任务依赖于记忆。其生成流程利用视觉语言模型（VLM）设计和组合子任务，通过原子函数生成完整轨迹，并提供与记忆相关的标注（包括子任务指令和原生关键帧标注），同时配对真实世界记忆任务以支持物理评估。我们还设计了双系统VLA模型PrediMem，其中高层VLM规划器管理包含近期帧和关键帧缓冲区的记忆库，并使用预测编码头增强对任务动态的敏感性。在RoboMemArena上的大量实验表明，PrediMem优于所有基线方法，并为复杂记忆系统的记忆管理、模型架构和缩放规律提供了深入见解。

🎯 研究动机

- 机器人需要在**部分可观测环境(partially observable environments)** 中依靠过去的观察和动作完成长时域任务，**记忆(memory)** 是机器人智能的关键组成部分 - 现有的机器人记忆基准测试存在以下不足：缺乏用于记忆形成的**多模态注释(multimodal annotations)**、任务覆盖和结构复杂度有限、仅局限于仿真环境而无真实世界评估 - 为解决这些空白，需要构建一个大规模、结构复杂、包含真实世界评估的记忆基准

🔧 核心方法

- 提出**RoboMemArena**，包含26个任务，平均轨迹长度超过1000步，68.9%的子任务是**记忆依赖(memory-dependent)** 的 - 生成管道利用**视觉-语言模型(Vision-Language Model, VLM)** 设计和组合子任务，通过**原子函数(atomic functions)** 生成完整轨迹，并提供记忆相关注释（包括子任务指令和原生关键帧注释） - 设计**PrediMem**，一个**双系统视觉-语言-动作(dual-system VLA)** 架构：高层VLM规划器管理包含**近期缓冲(recent buffer)** 和**关键帧缓冲(keyframe buffer)** 的记忆库，并使用**预测编码头(predictive coding head)** 增强对任务动态的敏感性

💡 核心创新

- **首创大规模、高复杂度基准**：首次提供平均轨迹长度超1000步、近70%子任务依赖记忆的基准，并包含**真实世界评估(real-world evaluation)** - **自动化标注生成管道**：利用VLM自动设计子任务、生成轨迹并提供**多模态记忆注释(multimodal memory annotations)**，降低人工成本 - **双系统VLA架构PrediMem**：引入**预测编码机制(predictive coding mechanism)** 优化记忆管理，通过双缓冲记忆库和预测头提升对动态环境的适应能力

🏆 总体贡献

- 为机器人记忆研究提供了**大规模、高难度、具有真实世界评估** 的基准测试RoboMemArena，填补了现有基准在任务长度、记忆依赖度和物理评估方面的空白 - 提出了**PrediMem** 这一创新VLA架构，在RoboMemArena上**优于所有基线(baselines)**，为记忆管理、模型架构和复杂记忆系统的**缩放律(scaling laws)** 提供了深入见解 - 开源基准和代码，促进社区对机器人长时域记忆问题的可重复研究与后续发展

RoboMemArena：一个全面且具有挑战性的机器人记忆基准测试
RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

📊 核心分析

RoboMemArena：一个全面且具有挑战性的机器人记忆基准测试 RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark

📊 核心分析

RoboMemArena：一个全面且具有挑战性的机器人记忆基准测试
RoboMemArena: A Comprehensive and Challenging Robotic Memory Benchmark