- 当前**多任务强化学习(Multi-Task Reinforcement Learning, MTRL)** 领域由**软演员-评论家(Soft Actor-Critic, SAC)** 等离策略(off-policy)方法主导,而同策略(on-policy)方法如**近端策略优化(Proximal Policy Optimization, PPO)** 仍未被充分探索
- 现有PPO在MTRL中存在一个被忽视的问题:**评论者侧梯度病态(critic-side gradient ill-conditioning)**,导致**尾部任务(tail tasks)** 停滞不前,而简单任务主导价值函数的更新
- 需要重新设计PPO来克服该优化瓶颈,实现跨任务学习动态的平衡
- 提出**TOPPO(Tail-Optimized PPO)**,通过**评论者平衡(Critic Balancing)** 对PPO进行重新表述
- 评论者平衡是一组模块,旨在改善评论者的**梯度条件(gradient conditioning)**,并平衡不同任务之间的学习动态
- 不依赖模块化架构或大模型,直接针对PPO自身的优化瓶颈进行改进
- **识别并解决新瓶颈**:首次指出现有PPO在MTRL中的主要障碍是评论者侧梯度病态,而非架构或样本效率问题
- **轻量级优化方法**:与依赖模块化网络或大型预训练模型的SAC变体不同,TOPPO通过简单的模块组合直接修复PPO的优化缺陷
- **显著效率提升**:使用更少的参数和环境步数,在**Meta-World+** 基准上实现比SAC和**增强随机搜索(Augmented Random Search, ARS)** 系列更强的平均性能和尾部任务性能
- 为MTRL提供一种新的同策略方法范式,证明通过适当的优化,**同策略(on-policy)** 方法可以媲美甚至超越**离策略(off-policy)** 方法,挑战当前对SAC的依赖
- 在标准基准上达到**最先进(state-of-the-art)** 性能,尤其在尾部任务上表现突出
- 通过消融实验验证每个模块的有效性及相互作用,为后续PPO优化提供深入见解
- 突出**评论者侧梯度条件(critic-side gradient conditioning)** 作为MTRL核心瓶颈,引导未来研究方向