该论文旨在解决基于流(flow-based)的离线强化学习(offline reinforcement learning)中存在的关键权衡问题:表达能力(expressiveness)、最优性(optimality)和效率(efficiency)之间的冲突。具体而言,现有方法将$L_2$正则化解释为2-瓦瑟斯坦距离(2-Wasserstein distance, $W_2$)的上界,这在离线设置中存在问题。其根源在于一个根本性的几何不匹配:行为策略流形(behavioral policy manifold)本质上是各向异性(anisotropic)的,而$L_2$正则化(或$W_2$上界)是各向同性(isotropic)且对密度不敏感的,这导致了系统性的优化方向错配。
论文从几何视角重新审视离线强化学习,将策略精炼(policy refinement)表述为一个局部传输映射(local transport map):由一个初始流策略(flow policy)加上一个残差位移(residual displacement)构成。通过分析由此诱导的密度变换,论文推导出由费雪信息矩阵(Fisher information matrix)主导的KL约束目标的局部二次近似(local quadratic approximation)。通过利用嵌入在流速度(flow velocity)中的得分函数(score function),论文获得了一个用于高效优化的对应二次约束(quadratic constraint)。该方法被称为费雪装饰器(Fisher Decorator)。
1. **几何视角与问题重构**:首次从几何视角将离线强化学习中的策略精炼问题形式化为一个局部传输映射,揭示了现有方法最优性差距(optimality gap)的根本原因在于其各向同性的近似。
2. **各向异性优化框架**:提出了一个由费雪信息矩阵主导的各向异性优化(anisotropic optimization)公式,取代了现有方法中使用的各向同性$L_2$正则化或$W_2$上界。
3. **可控近似误差**:理论证明了该框架能在最优解的一个可证明邻域内实现可控的近似误差(controllable approximation error),而先前方法则因各向同性近似而产生系统性偏差。
4. **高效实现**:通过利用流模型中已有的得分函数,高效地获得了优化所需的二次约束,避免了昂贵的计算。
1. **理论贡献**:为基于流的离线强化学习提供了一个新的几何理解和理论分析框架,揭示了现有方法性能局限的根本原因,并提出了一个具有理论保证的解决方案。
2. **方法贡献**:提出了“费雪装饰器”这一新颖方法,它通过局部传输映射和各向异性优化来精炼流策略,在表达能力、最优性和效率之间取得了更好的平衡。
3. **实证贡献**:在多样的离线强化学习基准测试上进行了大量实验,结果表明该方法达到了最先进的(state-of-the-art)性能,验证了其有效性和优越性。
4. **开源贡献**:公开了项目代码,促进了该领域的研究和复现。