门控记忆策略 - Yuki N 的世界

📝 论文摘要

机器人操作任务展现出不同的记忆需求，从无需记忆的马尔可夫任务，到依赖单次或多次交互历史信息的非马尔可夫任务。令人意外的是，单纯扩展视觉运动策略的观测历史常因分布偏移和过拟合导致性能显著下降。为解决这些问题，我们提出门控记忆策略——一种能同时学习何时调用记忆及调用何种记忆的视觉运动策略。为学习何时调用记忆，该策略采用可学习的记忆门控机制，仅在必要时激活历史上下文，从而提升策略的鲁棒性与响应能力。为高效学习调用何种记忆，我们引入轻量级交叉注意力模块，构建有效的潜在记忆表征。为进一步增强鲁棒性，该策略在历史动作中注入扩散噪声，以降低训练和推理过程中对噪声或不准确历史数据的敏感性。在我们提出的非马尔可夫基准测试集MemMimic上，该策略相比长历史基线方法平均成功率提升30.1%，同时在RoboMimic的马尔可夫任务中保持竞争优势。所有代码、数据及实际部署指南均发布于项目网站https://gated-memory-policy.github.io/。

🎯 研究动机

该论文旨在解决机器人操作任务中的记忆需求问题。研究背景是：机器人操作任务对记忆的需求各不相同，从无需记忆的马尔可夫任务到依赖单次或多次交互试验历史信息的非马尔可夫任务。现有方法简单地扩展视觉运动策略的观测历史，常因分布偏移和过拟合导致性能显著下降。

🔧 核心方法

论文提出了门控记忆策略（Gated Memory Policy, GMP），这是一种视觉运动策略。具体方法包括： - 学习何时回忆记忆：采用一个可学习的记忆门机制，仅在必要时选择性激活历史上下文，以提高鲁棒性和反应性。 - 学习回忆什么：引入一个轻量级的交叉注意力模块，构建有效的潜在记忆表示。 - 增强鲁棒性：在历史动作中注入扩散噪声，以减轻训练和推理期间对噪声或不准确历史的敏感性。

💡 核心创新

论文的核心创新点在于： - 提出了一个可学习的记忆门机制，实现了对历史信息的动态、选择性使用，而非简单扩展历史窗口，从而解决了长历史策略中的分布偏移和过拟合问题。 - 将轻量级交叉注意力模块与记忆门机制相结合，高效地构建和利用潜在记忆表示。 - 创新性地在历史动作中注入扩散噪声，作为一种正则化技术，增强了策略对噪声历史的鲁棒性，这在训练和推理阶段都有效。

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了门控记忆策略，在非马尔可夫基准测试MemMimic上，相比长历史基线方法实现了30.1%的平均成功率提升。 - 在RoboMimic的马尔可夫任务上保持了有竞争力的性能，证明了其通用性。 - 为解决机器人操作中非马尔可夫任务的记忆问题提供了一个新颖且有效的框架，并通过开源代码、数据和部署指南促进了该领域的研究和应用。

门控记忆策略
Gated Memory Policy

📊 核心分析

门控记忆策略 Gated Memory Policy

📊 核心分析

门控记忆策略
Gated Memory Policy