← 返回论文列表

基于演示引导策略优化的GPU并行多任务强化学习
基于演示引导策略优化的GPU并行多任务强化学习

作者: Rui Zhang, Qiwei Wu, Zhengyu Zhang 等8人
arXiv: 2606.03335v1
分类: cs.RO
📝 论文摘要
大规模GPU并行强化学习已经改变了机器人仿真中可训练的内容,但大多数系统仍然为每个任务优化一个专家策略。我们提出了一种构建方法,将结构化的操作任务族转化为GPU并行的多任务强化学习基准,并利用LIBERO资产和Isaac Lab中的任务谓词将其实现为MT-Libero。该基准支持在异构任务套件上同时进行强化学习,具备并行渲染、物理随机化以及状态输入或视觉输入策略。为了使这种训练在稀疏成功信号和有限先验数据下变得实用,我们进一步提出了DGPO,一种基于策略的演示引导方法,该方法将重要性加权PPO与对匹配演示动作的自适应行为克隆相结合。DGPO能够实现对演示任务分布的可调偏好,在保持基于策略PPO的稳定性和在线改进优势的同时,优于无先验强化学习和现有基于演示的方法。

📊 核心分析

🎯 研究动机
- 当前大规模GPU并行强化学习通常只针对单个任务优化一个专有策略,缺乏多任务学习支持 - 现有系统难以高效训练异构任务族,尤其是在稀疏奖励和有限先验数据场景下 - 需要构建标准化的**多任务强化学习(multi-task RL)** 基准和有效的算法来推动该领域发展
🔧 核心方法
- 提出一种将结构化操纵任务族转化为**GPU并行多任务RL基准(GPU-parallel multi-task RL benchmark)** 的构建方法,并实例化为**MT-Libero**,基于LIBERO资产和Isaac Lab中的任务谓词 - 该基准支持并行渲染、物理随机化、状态输入或视觉输入策略下的同步多任务强化学习 - 提出**DGPO(Demonstration Guided Policy Optimization)** 算法,一种基于示范的在线策略方法,结合**重要性加权PPO(importance-weighted PPO)** 和**自适应行为克隆(adaptive behavior cloning)**,对匹配的示范动作进行学习
💡 核心创新
- **首创性**:首次为操纵任务族提供标准化的GPU并行多任务RL基准,支持异构任务同时训练 - **算法创新**:提出DGPO,通过重要性加权和自适应行为克隆,使在线策略PPO能够有效利用有限的示范数据,引导策略倾向示范任务分布 - **实用优势**:DGPO在保持**在线策略(on-policy)PPO** 稳定性和在线改进能力的同时,优于无先验RL和现有基于示范的方法,改善了稀疏奖励下的学习效率
🏆 总体贡献
- 为多任务强化学习领域提供了可扩展的**GPU并行基准(MT-Libero)**,促进社区对异构任务族的学习研究 - 提出**DGPO** 算法,结合示范引导和在线策略优化,解决了稀疏信号下多任务学习的实用性问题 - 在机器人仿真环境中验证了方法有效性,推动大规模多任务策略训练的可用性和性能提升