← 返回论文列表

TOPPO:用评论家平衡重新思考多任务强化学习的PPO
TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

作者: Yuanpeng Li, Gefei Lin, Annie Qu 等4人
arXiv: 2605.11473v1
分类: cs.AI, cs.LG, cs.RO, stat.ML
📝 论文摘要
软性演员-评论家(SAC)及其变体因离策略样本效率在多任务强化学习(MTRL)中占据主导地位,而近端策略优化(PPO)等在线策略方法仍未被充分探索。我们发现PPO在MTRL中存在一个先前被忽视的问题:评论员侧梯度病态(critic-side gradient ill-conditioning),这可能导致尾部任务停滞不前,而简单任务主导价值函数的更新。为解决此问题,我们提出TOPPO(Tail-Optimized PPO),通过评论员平衡(Critic Balancing)对PPO进行重新设计——该模块集能改善梯度条件并平衡跨任务的学习动态。与依赖模块化架构或大型模型的先前方法不同,TOPPO直接针对PPO内部的优化瓶颈。实验表明,在Meta-World+基准上,TOPPO以显著更少的参数和环境步数,实现了比已发表的SAC系列和ARS系列基线更强的平均性能和尾部任务性能。值得注意的是,TOPPO在训练早期即可匹配或超越强SAC基线,并在完整预算下保持优越性能。消融实验证实了TOPPO中各模块的有效性,并揭示了其交互机制。我们的结果表明,通过适当优化,在线策略方法可在MTRL中与离策略方法相媲美甚至超越,挑战了当前对SAC的依赖,并突出评论员侧梯度条件作为核心瓶颈。

📊 核心分析

🎯 研究动机
- 当前**多任务强化学习(Multi-Task Reinforcement Learning, MTRL)** 领域由**软演员-评论家(Soft Actor-Critic, SAC)** 等离策略(off-policy)方法主导,而同策略(on-policy)方法如**近端策略优化(Proximal Policy Optimization, PPO)** 仍未被充分探索 - 现有PPO在MTRL中存在一个被忽视的问题:**评论者侧梯度病态(critic-side gradient ill-conditioning)**,导致**尾部任务(tail tasks)** 停滞不前,而简单任务主导价值函数的更新 - 需要重新设计PPO来克服该优化瓶颈,实现跨任务学习动态的平衡
🔧 核心方法
- 提出**TOPPO(Tail-Optimized PPO)**,通过**评论者平衡(Critic Balancing)** 对PPO进行重新表述 - 评论者平衡是一组模块,旨在改善评论者的**梯度条件(gradient conditioning)**,并平衡不同任务之间的学习动态 - 不依赖模块化架构或大模型,直接针对PPO自身的优化瓶颈进行改进
💡 核心创新
- **识别并解决新瓶颈**:首次指出现有PPO在MTRL中的主要障碍是评论者侧梯度病态,而非架构或样本效率问题 - **轻量级优化方法**:与依赖模块化网络或大型预训练模型的SAC变体不同,TOPPO通过简单的模块组合直接修复PPO的优化缺陷 - **显著效率提升**:使用更少的参数和环境步数,在**Meta-World+** 基准上实现比SAC和**增强随机搜索(Augmented Random Search, ARS)** 系列更强的平均性能和尾部任务性能
🏆 总体贡献
- 为MTRL提供一种新的同策略方法范式,证明通过适当的优化,**同策略(on-policy)** 方法可以媲美甚至超越**离策略(off-policy)** 方法,挑战当前对SAC的依赖 - 在标准基准上达到**最先进(state-of-the-art)** 性能,尤其在尾部任务上表现突出 - 通过消融实验验证每个模块的有效性及相互作用,为后续PPO优化提供深入见解 - 突出**评论者侧梯度条件(critic-side gradient conditioning)** 作为MTRL核心瓶颈,引导未来研究方向