- 当前大规模GPU并行强化学习通常只针对单个任务优化一个专有策略,缺乏多任务学习支持
- 现有系统难以高效训练异构任务族,尤其是在稀疏奖励和有限先验数据场景下
- 需要构建标准化的**多任务强化学习(multi-task RL)** 基准和有效的算法来推动该领域发展
- 提出一种将结构化操纵任务族转化为**GPU并行多任务RL基准(GPU-parallel multi-task RL benchmark)** 的构建方法,并实例化为**MT-Libero**,基于LIBERO资产和Isaac Lab中的任务谓词
- 该基准支持并行渲染、物理随机化、状态输入或视觉输入策略下的同步多任务强化学习
- 提出**DGPO(Demonstration Guided Policy Optimization)** 算法,一种基于示范的在线策略方法,结合**重要性加权PPO(importance-weighted PPO)** 和**自适应行为克隆(adaptive behavior cloning)**,对匹配的示范动作进行学习
- **首创性**:首次为操纵任务族提供标准化的GPU并行多任务RL基准,支持异构任务同时训练
- **算法创新**:提出DGPO,通过重要性加权和自适应行为克隆,使在线策略PPO能够有效利用有限的示范数据,引导策略倾向示范任务分布
- **实用优势**:DGPO在保持**在线策略(on-policy)PPO** 稳定性和在线改进能力的同时,优于无先验RL和现有基于示范的方法,改善了稀疏奖励下的学习效率
- 为多任务强化学习领域提供了可扩展的**GPU并行基准(MT-Libero)**,促进社区对异构任务族的学习研究
- 提出**DGPO** 算法,结合示范引导和在线策略优化,解决了稀疏信号下多任务学习的实用性问题
- 在机器人仿真环境中验证了方法有效性,推动大规模多任务策略训练的可用性和性能提升