- 当前基于仿真的机器人控制**强化学习(reinforcement learning, RL)** 普遍采用**GPU主导(GPU-dominant)** 范式,将物理仿真、rollout收集和学习全部置于单一GPU执行路径上
- 该范式虽提升了训练速度,但导致默认假设:高效训练必须依赖GPU物理仿真,限制了系统设计的灵活性
- 研究背景:作者质疑这一假设,认为核心问题在于仿真吞吐量、策略学习与运行时同步能否形成高效端到端循环,而非物理运行在哪个处理器上
- 提出**UniLab**,一种**异构CPU仿真/GPU学习(heterogeneous CPU-simulation/GPU-learning)** 架构,通过统一运行时实现数据移动、缓冲和同步,解耦CPU并行仿真与GPU策略更新
- 使用**MuJoCoUni** 和**MotrixSim** 作为CPU批处理物理后端,支持**PPO**、**SAC**、**FlashSAC**、**TD3** 和**APPO** 等多种强化学习算法
- 设计统一的运行时(runtime)管理CPU仿真与GPU学习之间的异步数据流,避免单点瓶颈
- **范式突破**:首次系统性地挑战“GPU仿真必须”的假设,证明CPU仿真与GPU学习可高效协同,实现**端到端(end-to-end)** 训练效率提升
- **跨平台兼容**:减少对**NVIDIA CUDA** 软件栈的依赖,支持**Apple macOS**、**AMD ROCm** 和**Intel XPU** 后端,大幅扩展硬件生态
- **性能优势**:在相同硬件配置下,相比GPU主导范式,**端到端训练效率提升3-10倍**,且不牺牲训练质量
- 为机器人RL训练提供了一种**非GPU依赖(non-GPU-dominant)** 的异构系统设计新范式,拓宽了实际系统选择范围
- 开源实现UniLab(MuJoCoUni + MotrixSim),促进社区复现与后续研究
- 证明GPU仿真虽有效但非必需,推动仿真训练基础设施向**异构、跨平台** 方向发展