- 现有**逆强化学习(inverse reinforcement learning)** 方法通常依赖对抗训练,导致训练不稳定且难以收敛
- **扩散模型(diffusion models)** 在策略学习上表现优异,但其学习到的隐式奖励(reward)难以提取,阻碍了后续强化学习应用
- 研究背景:统一生成式动作建模与奖励恢复,以提升策略泛化能力和样本效率
- 提出**EnergyFlow** 框架,通过参数化一个标量**能量函数(energy function)**,其梯度构成**去噪场(denoising field)**
- 利用**去噪分数匹配(denoising score matching)** 学习分数函数,证明该分数在**最大熵最优性(maximum-entropy optimality)** 下可恢复专家**软Q函数(soft Q-function)** 的梯度
- 对学习场施加**保守性约束(conservative constraint)** 以降低假设复杂度并收紧**分布外泛化(out-of-distribution generalization)** 界限
- **无对抗训练(adversarial-free)**:首次证明通过去噪分数匹配即可提取奖励,避免了对抗性IRL的不稳定性
- **理论完备**:严格刻画了恢复奖励的**可辨识性(identifiability)**,并量化了分数估计误差到动作偏好的传播界限
- **结构约束的双重作用**:证明有效奖励提取所需的保守性约束同时作为策略泛化的有益归纳偏置,兼顾了理论正确性与实践性能
- 为**生成式策略建模(generative policy modeling)** 与**逆强化学习(inverse reinforcement learning)** 提供统一框架,弥合了二者之间的理论鸿沟
- 在多种机械操作任务(manipulation tasks)上达到**最先进(state-of-the-art)** 模仿性能
- 提取的奖励信号在下游强化学习中显著优于对抗IRL和基于似然的方法,促进了奖励引导策略的泛化