该论文旨在解决机器人操作任务中的记忆需求问题。研究背景是:机器人操作任务对记忆的需求各不相同,从无需记忆的马尔可夫任务到依赖单次或多次交互试验历史信息的非马尔可夫任务。现有方法简单地扩展视觉运动策略的观测历史,常因分布偏移和过拟合导致性能显著下降。
论文提出了门控记忆策略(Gated Memory Policy, GMP),这是一种视觉运动策略。具体方法包括:
- 学习何时回忆记忆:采用一个可学习的记忆门机制,仅在必要时选择性激活历史上下文,以提高鲁棒性和反应性。
- 学习回忆什么:引入一个轻量级的交叉注意力模块,构建有效的潜在记忆表示。
- 增强鲁棒性:在历史动作中注入扩散噪声,以减轻训练和推理期间对噪声或不准确历史的敏感性。
论文的核心创新点在于:
- 提出了一个可学习的记忆门机制,实现了对历史信息的动态、选择性使用,而非简单扩展历史窗口,从而解决了长历史策略中的分布偏移和过拟合问题。
- 将轻量级交叉注意力模块与记忆门机制相结合,高效地构建和利用潜在记忆表示。
- 创新性地在历史动作中注入扩散噪声,作为一种正则化技术,增强了策略对噪声历史的鲁棒性,这在训练和推理阶段都有效。
论文对该领域的整体贡献包括:
- 提出了门控记忆策略,在非马尔可夫基准测试MemMimic上,相比长历史基线方法实现了30.1%的平均成功率提升。
- 在RoboMimic的马尔可夫任务上保持了有竞争力的性能,证明了其通用性。
- 为解决机器人操作中非马尔可夫任务的记忆问题提供了一个新颖且有效的框架,并通过开源代码、数据和部署指南促进了该领域的研究和应用。