恢复基于扩散的策略中的隐藏奖励

📝 论文摘要

本文介绍了EnergyFlow，一个通过参数化标量能量函数来统一生成式动作建模与逆强化学习的框架，该能量函数的梯度即为去噪场。我们证明，在最大熵最优性条件下，通过去噪分数匹配学习到的分数函数能够恢复专家软Q函数的梯度，从而无需对抗训练即可提取奖励。形式上，我们证明了约束学习场为保守场可降低假设复杂度并收紧分布外泛化界。进一步，我们刻画了恢复奖励的可识别性，并界定了分数估计误差向动作偏好的传播程度。实验上，EnergyFlow在多种操作任务中实现了最先进的模仿性能，同时为下游强化学习提供了有效的奖励信号，其表现优于对抗逆强化学习方法及基于似然的替代方案。这些结果表明，有效奖励提取所需的结构约束同时可作为有利于策略泛化的有益归纳偏置。代码开源于https://github.com/sotaagi/EnergyFlow。

🎯 研究动机

- 现有**逆强化学习(inverse reinforcement learning)** 方法通常依赖对抗训练，导致训练不稳定且难以收敛 - **扩散模型(diffusion models)** 在策略学习上表现优异，但其学习到的隐式奖励(reward)难以提取，阻碍了后续强化学习应用 - 研究背景：统一生成式动作建模与奖励恢复，以提升策略泛化能力和样本效率

🔧 核心方法

- 提出**EnergyFlow** 框架，通过参数化一个标量**能量函数(energy function)**，其梯度构成**去噪场(denoising field)** - 利用**去噪分数匹配(denoising score matching)** 学习分数函数，证明该分数在**最大熵最优性(maximum-entropy optimality)** 下可恢复专家**软Q函数(soft Q-function)** 的梯度 - 对学习场施加**保守性约束(conservative constraint)** 以降低假设复杂度并收紧**分布外泛化(out-of-distribution generalization)** 界限

💡 核心创新

- **无对抗训练(adversarial-free)**：首次证明通过去噪分数匹配即可提取奖励，避免了对抗性IRL的不稳定性 - **理论完备**：严格刻画了恢复奖励的**可辨识性(identifiability)**，并量化了分数估计误差到动作偏好的传播界限 - **结构约束的双重作用**：证明有效奖励提取所需的保守性约束同时作为策略泛化的有益归纳偏置，兼顾了理论正确性与实践性能

🏆 总体贡献

- 为**生成式策略建模(generative policy modeling)** 与**逆强化学习(inverse reinforcement learning)** 提供统一框架，弥合了二者之间的理论鸿沟 - 在多种机械操作任务(manipulation tasks)上达到**最先进(state-of-the-art)** 模仿性能 - 提取的奖励信号在下游强化学习中显著优于对抗IRL和基于似然的方法，促进了奖励引导策略的泛化

恢复基于扩散的策略中的隐藏奖励
Recovering Hidden Reward in Diffusion-Based Policies

📊 核心分析

恢复基于扩散的策略中的隐藏奖励 Recovering Hidden Reward in Diffusion-Based Policies

📊 核心分析

恢复基于扩散的策略中的隐藏奖励
Recovering Hidden Reward in Diffusion-Based Policies