带评论家指导的基于扩散的样本高效强化学习

📝 论文摘要

近年来，强化学习（RL）通过利用扩散策略的多模态性和探索能力取得了巨大成功。在这些方法中，一个代表性分支聚焦于基于采样的策略优化。这种设计使得扩散模型在训练初期具备更强的探索能力，但存在Q值信息利用不足的问题，导致策略收敛缓慢。另一个分支关注基于梯度的策略优化，该分支充分挖掘Q函数的梯度信息，但容易退化为低多样性的单峰策略。为解决这一问题，我们提出CGPO（**C**ritic-**G**uided diffusion **P**olicy **O**ptimization，评论家引导的扩散策略优化），通过将免训练引导技术集成到扩散策略的去噪过程中，有效平衡探索与利用。具体而言，CGPO引导动作生成朝向评论家网络定义的高价值区域，并将引导后的动作作为回归目标。通过这种方式，CGPO减少了获取高质量动作所需的时间，并通过更好地平衡探索-利用权衡提升了最终性能。我们在5个MuJoCo运动任务上验证了CGPO的有效性，与现有基于扩散的强化学习方法相比，CGPO取得了最先进的性能。值得注意的是，CGPO首次成功将扩散策略融入实际强化学习场景，并在Franka机器人臂抓取任务中表现出卓越性能。我们的官方页面已发布在https://dingsht.tech/cgpo-webpage。

🎯 研究动机

- 现有**扩散策略(diffusion policy)** 在强化学习中的应用分为**采样策略(sampling-based)** 和**梯度策略(gradient-based)** 两种分支。 - 采样策略具有较好的多模态性和探索能力，但**Q值信息利用不足**，导致策略收敛缓慢。 - 梯度策略虽然充分利用了Q函数梯度，但容易**坍缩为单峰策略(unimodal policy)**，丧失多样性。 - 研究背景：需要一种能够平衡**探索-利用(exploration-exploitation tradeoff)** 的扩散策略优化方法，以提升样本效率和最终性能。

🔧 核心方法

- 提出**CGPO(Critic-Guided Diffusion Policy Optimization)** 框架，将**训练免费引导(training-free guidance)** 技术集成到扩散策略的去噪过程中。 - 在每一步去噪中，利用**评论家网络(critic network)** 的梯度指引动作生成，使其朝向**高价值区域(high-value regions)**。 - 将引导后得到的动作作为**回归目标(regression objective)**，通过模仿学习更新扩散策略。 - 该方法兼顾了采样策略的探索能力和梯度策略的利用效率，无需额外训练引导模块。

💡 核心创新

- **首创性**：首次将扩散策略成功应用于**真实机器人(re@world RL)** 任务（Franka机械臂抓取）。 - **平衡机制**：通过**训练免费引导** 在保持扩散模型多模态性的同时，有效利用Q值信息，避免收敛缓慢或策略坍缩。 - **框架简洁性**：无需修改原有扩散策略的训练流程，仅在推理阶段引入critic梯度引导，实现**零额外训练成本**。 - **性能优越**：在5个MuJoCo运动控制任务上达到**当前最优(SOTA)**，且样本效率显著优于现有方法。

🏆 总体贡献

- 提出了一种新颖的**评论家引导扩散策略优化(CGPO)** 范式，为基于扩散模型的强化学习提供了有效的**探索-利用平衡** 解决方案。 - 在多个标准基准任务和真实机器人操作任务上验证了方法的有效性和通用性，达到了**最优性能**。 - 开源网页和代码促进社区复现和后续研究，推动了扩散策略在**真实世界强化学习** 中的应用。

带评论家指导的基于扩散的样本高效强化学习
Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance

📊 核心分析

带评论家指导的基于扩散的样本高效强化学习 Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance

📊 核心分析

带评论家指导的基于扩散的样本高效强化学习
Sample-Efficient Diffusion-based Reinforcement Learning with Critic Guidance