← 返回论文列表

费舍尔装饰器:通过局部传输映射优化流策略
Fisher Decorator: Refining Flow Policy via A Local Transport Map

作者: Xiaoyuan Cheng, Haoyu Wang, Wenxuan Yuan 等7人
arXiv: 2604.17919v1
分类: cs.LG, cs.RO
📝 论文摘要
基于流的离线强化学习(RL)近期通过流匹配参数化策略取得了显著进展,但在表达能力、最优性和效率之间仍面临关键权衡。现有流策略将$L_2$正则化解释为2-瓦瑟斯坦距离($W_2$)的上界,这在离线场景中可能存在问题。这一问题的根源在于几何结构的不匹配:行为策略流形本质上是各向异性的,而$L_2$正则化(或$W_2$上界)是各向同性且对密度不敏感的,导致优化方向系统性偏离。为解决此问题,我们从几何视角重新审视离线强化学习,证明策略优化可表述为局部传输映射:即通过残差位移增强的初始流策略。通过分析诱导的密度变换,我们推导出由费舍尔信息矩阵控制的KL约束目标的局部二次近似,从而建立可处理的各向异性优化框架。利用流速度中嵌入的得分函数,我们获得了适用于高效优化的对应二次约束。研究结果表明,现有方法的最优性差距源于其各向同性近似。相比之下,我们的框架在可证明的最优解邻域内实现了可控的近似误差。大量实验表明,该框架在多样化离线强化学习基准测试中达到了最先进的性能。项目页面详见:https://github.com/ARC0127/Fisher-Decorator。

📊 核心分析

🎯 研究动机
该论文旨在解决基于流(flow-based)的离线强化学习(offline reinforcement learning)中存在的关键权衡问题:表达能力(expressiveness)、最优性(optimality)和效率(efficiency)之间的冲突。具体而言,现有方法将$L_2$正则化解释为2-瓦瑟斯坦距离(2-Wasserstein distance, $W_2$)的上界,这在离线设置中存在问题。其根源在于一个根本性的几何不匹配:行为策略流形(behavioral policy manifold)本质上是各向异性(anisotropic)的,而$L_2$正则化(或$W_2$上界)是各向同性(isotropic)且对密度不敏感的,这导致了系统性的优化方向错配。
🔧 核心方法
论文从几何视角重新审视离线强化学习,将策略精炼(policy refinement)表述为一个局部传输映射(local transport map):由一个初始流策略(flow policy)加上一个残差位移(residual displacement)构成。通过分析由此诱导的密度变换,论文推导出由费雪信息矩阵(Fisher information matrix)主导的KL约束目标的局部二次近似(local quadratic approximation)。通过利用嵌入在流速度(flow velocity)中的得分函数(score function),论文获得了一个用于高效优化的对应二次约束(quadratic constraint)。该方法被称为费雪装饰器(Fisher Decorator)。
💡 核心创新
1. **几何视角与问题重构**:首次从几何视角将离线强化学习中的策略精炼问题形式化为一个局部传输映射,揭示了现有方法最优性差距(optimality gap)的根本原因在于其各向同性的近似。 2. **各向异性优化框架**:提出了一个由费雪信息矩阵主导的各向异性优化(anisotropic optimization)公式,取代了现有方法中使用的各向同性$L_2$正则化或$W_2$上界。 3. **可控近似误差**:理论证明了该框架能在最优解的一个可证明邻域内实现可控的近似误差(controllable approximation error),而先前方法则因各向同性近似而产生系统性偏差。 4. **高效实现**:通过利用流模型中已有的得分函数,高效地获得了优化所需的二次约束,避免了昂贵的计算。
🏆 总体贡献
1. **理论贡献**:为基于流的离线强化学习提供了一个新的几何理解和理论分析框架,揭示了现有方法性能局限的根本原因,并提出了一个具有理论保证的解决方案。 2. **方法贡献**:提出了“费雪装饰器”这一新颖方法,它通过局部传输映射和各向异性优化来精炼流策略,在表达能力、最优性和效率之间取得了更好的平衡。 3. **实证贡献**:在多样的离线强化学习基准测试上进行了大量实验,结果表明该方法达到了最先进的(state-of-the-art)性能,验证了其有效性和优越性。 4. **开源贡献**:公开了项目代码,促进了该领域的研究和复现。