- 现有**扩散策略(diffusion policy)** 在强化学习中的应用分为**采样策略(sampling-based)** 和**梯度策略(gradient-based)** 两种分支。
- 采样策略具有较好的多模态性和探索能力,但**Q值信息利用不足**,导致策略收敛缓慢。
- 梯度策略虽然充分利用了Q函数梯度,但容易**坍缩为单峰策略(unimodal policy)**,丧失多样性。
- 研究背景:需要一种能够平衡**探索-利用(exploration-exploitation tradeoff)** 的扩散策略优化方法,以提升样本效率和最终性能。
- 提出**CGPO(Critic-Guided Diffusion Policy Optimization)** 框架,将**训练免费引导(training-free guidance)** 技术集成到扩散策略的去噪过程中。
- 在每一步去噪中,利用**评论家网络(critic network)** 的梯度指引动作生成,使其朝向**高价值区域(high-value regions)**。
- 将引导后得到的动作作为**回归目标(regression objective)**,通过模仿学习更新扩散策略。
- 该方法兼顾了采样策略的探索能力和梯度策略的利用效率,无需额外训练引导模块。
- **首创性**:首次将扩散策略成功应用于**真实机器人(re@world RL)** 任务(Franka机械臂抓取)。
- **平衡机制**:通过**训练免费引导** 在保持扩散模型多模态性的同时,有效利用Q值信息,避免收敛缓慢或策略坍缩。
- **框架简洁性**:无需修改原有扩散策略的训练流程,仅在推理阶段引入critic梯度引导,实现**零额外训练成本**。
- **性能优越**:在5个MuJoCo运动控制任务上达到**当前最优(SOTA)**,且样本效率显著优于现有方法。
- 提出了一种新颖的**评论家引导扩散策略优化(CGPO)** 范式,为基于扩散模型的强化学习提供了有效的**探索-利用平衡** 解决方案。
- 在多个标准基准任务和真实机器人操作任务上验证了方法的有效性和通用性,达到了**最优性能**。
- 开源网页和代码促进社区复现和后续研究,推动了扩散策略在**真实世界强化学习** 中的应用。