TOPPO：用评论家平衡重新思考多任务强化学习的PPO

📝 论文摘要

软性演员-评论家（SAC）及其变体因离策略样本效率在多任务强化学习（MTRL）中占据主导地位，而近端策略优化（PPO）等在线策略方法仍未被充分探索。我们发现PPO在MTRL中存在一个先前被忽视的问题：评论员侧梯度病态（critic-side gradient ill-conditioning），这可能导致尾部任务停滞不前，而简单任务主导价值函数的更新。为解决此问题，我们提出TOPPO（Tail-Optimized PPO），通过评论员平衡（Critic Balancing）对PPO进行重新设计——该模块集能改善梯度条件并平衡跨任务的学习动态。与依赖模块化架构或大型模型的先前方法不同，TOPPO直接针对PPO内部的优化瓶颈。实验表明，在Meta-World+基准上，TOPPO以显著更少的参数和环境步数，实现了比已发表的SAC系列和ARS系列基线更强的平均性能和尾部任务性能。值得注意的是，TOPPO在训练早期即可匹配或超越强SAC基线，并在完整预算下保持优越性能。消融实验证实了TOPPO中各模块的有效性，并揭示了其交互机制。我们的结果表明，通过适当优化，在线策略方法可在MTRL中与离策略方法相媲美甚至超越，挑战了当前对SAC的依赖，并突出评论员侧梯度条件作为核心瓶颈。

🎯 研究动机

- 当前**多任务强化学习(Multi-Task Reinforcement Learning, MTRL)** 领域由**软演员-评论家(Soft Actor-Critic, SAC)** 等离策略(off-policy)方法主导，而同策略(on-policy)方法如**近端策略优化(Proximal Policy Optimization, PPO)** 仍未被充分探索 - 现有PPO在MTRL中存在一个被忽视的问题：**评论者侧梯度病态(critic-side gradient ill-conditioning)**，导致**尾部任务(tail tasks)** 停滞不前，而简单任务主导价值函数的更新 - 需要重新设计PPO来克服该优化瓶颈，实现跨任务学习动态的平衡

🔧 核心方法

- 提出**TOPPO(Tail-Optimized PPO)**，通过**评论者平衡(Critic Balancing)** 对PPO进行重新表述 - 评论者平衡是一组模块，旨在改善评论者的**梯度条件(gradient conditioning)**，并平衡不同任务之间的学习动态 - 不依赖模块化架构或大模型，直接针对PPO自身的优化瓶颈进行改进

💡 核心创新

- **识别并解决新瓶颈**：首次指出现有PPO在MTRL中的主要障碍是评论者侧梯度病态，而非架构或样本效率问题 - **轻量级优化方法**：与依赖模块化网络或大型预训练模型的SAC变体不同，TOPPO通过简单的模块组合直接修复PPO的优化缺陷 - **显著效率提升**：使用更少的参数和环境步数，在**Meta-World+** 基准上实现比SAC和**增强随机搜索(Augmented Random Search, ARS)** 系列更强的平均性能和尾部任务性能

🏆 总体贡献

- 为MTRL提供一种新的同策略方法范式，证明通过适当的优化，**同策略(on-policy)** 方法可以媲美甚至超越**离策略(off-policy)** 方法，挑战当前对SAC的依赖 - 在标准基准上达到**最先进(state-of-the-art)** 性能，尤其在尾部任务上表现突出 - 通过消融实验验证每个模块的有效性及相互作用，为后续PPO优化提供深入见解 - 突出**评论者侧梯度条件(critic-side gradient conditioning)** 作为MTRL核心瓶颈，引导未来研究方向

TOPPO：用评论家平衡重新思考多任务强化学习的PPO
TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

📊 核心分析

TOPPO：用评论家平衡重新思考多任务强化学习的PPO TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

📊 核心分析

TOPPO：用评论家平衡重新思考多任务强化学习的PPO
TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing