基于演示引导策略优化的GPU并行多任务强化学习

📝 论文摘要

大规模GPU并行强化学习已经改变了机器人仿真中可训练的内容，但大多数系统仍然为每个任务优化一个专家策略。我们提出了一种构建方法，将结构化的操作任务族转化为GPU并行的多任务强化学习基准，并利用LIBERO资产和Isaac Lab中的任务谓词将其实现为MT-Libero。该基准支持在异构任务套件上同时进行强化学习，具备并行渲染、物理随机化以及状态输入或视觉输入策略。为了使这种训练在稀疏成功信号和有限先验数据下变得实用，我们进一步提出了DGPO，一种基于策略的演示引导方法，该方法将重要性加权PPO与对匹配演示动作的自适应行为克隆相结合。DGPO能够实现对演示任务分布的可调偏好，在保持基于策略PPO的稳定性和在线改进优势的同时，优于无先验强化学习和现有基于演示的方法。

🎯 研究动机

- 当前大规模GPU并行强化学习通常只针对单个任务优化一个专有策略，缺乏多任务学习支持 - 现有系统难以高效训练异构任务族，尤其是在稀疏奖励和有限先验数据场景下 - 需要构建标准化的**多任务强化学习(multi-task RL)** 基准和有效的算法来推动该领域发展

🔧 核心方法

- 提出一种将结构化操纵任务族转化为**GPU并行多任务RL基准(GPU-parallel multi-task RL benchmark)** 的构建方法，并实例化为**MT-Libero**，基于LIBERO资产和Isaac Lab中的任务谓词 - 该基准支持并行渲染、物理随机化、状态输入或视觉输入策略下的同步多任务强化学习 - 提出**DGPO(Demonstration Guided Policy Optimization)** 算法，一种基于示范的在线策略方法，结合**重要性加权PPO(importance-weighted PPO)** 和**自适应行为克隆(adaptive behavior cloning)**，对匹配的示范动作进行学习

💡 核心创新

- **首创性**：首次为操纵任务族提供标准化的GPU并行多任务RL基准，支持异构任务同时训练 - **算法创新**：提出DGPO，通过重要性加权和自适应行为克隆，使在线策略PPO能够有效利用有限的示范数据，引导策略倾向示范任务分布 - **实用优势**：DGPO在保持**在线策略(on-policy)PPO** 稳定性和在线改进能力的同时，优于无先验RL和现有基于示范的方法，改善了稀疏奖励下的学习效率

🏆 总体贡献

- 为多任务强化学习领域提供了可扩展的**GPU并行基准(MT-Libero)**，促进社区对异构任务族的学习研究 - 提出**DGPO** 算法，结合示范引导和在线策略优化，解决了稀疏信号下多任务学习的实用性问题 - 在机器人仿真环境中验证了方法有效性，推动大规模多任务策略训练的可用性和性能提升

基于演示引导策略优化的GPU并行多任务强化学习
基于演示引导策略优化的GPU并行多任务强化学习

📊 核心分析

基于演示引导策略优化的GPU并行多任务强化学习 基于演示引导策略优化的GPU并行多任务强化学习

📊 核心分析

基于演示引导策略优化的GPU并行多任务强化学习
基于演示引导策略优化的GPU并行多任务强化学习