该论文旨在解决部分可观测(partially observable)系统中强化学习(reinforcement learning)策略训练困难的问题。研究背景是,在现实世界的机器人控制等任务中,智能体通常只能获得不完整或有噪声的状态观测,这严重影响了强化学习的样本效率(sample efficiency)和最终性能。
论文提出了一个名为PriPG-RL的框架,包含两个核心部分:
- **规划器(planner)**: 设计了一个随时可行(anytime-feasible)的模型预测控制(Model Predictive Control, MPC)算法作为规划器代理。该规划器在训练期间拥有特权(privileged),可以访问近似动力学模型和完整状态信息。
- **学习代理(learning agent)**: 提出了规划器到策略的软演员-评论家(Planner-to-Policy Soft Actor-Critic, P2P-SAC)方法。该方法通过知识蒸馏(knowledge distillation)将规划器的特权知识迁移到仅能观测到有损状态投影的学习代理策略中,以缓解部分可观测性。
论文的核心创新点在于:
- **特权规划器引导的训练范式**: 提出了一个新颖的训练框架,在训练阶段利用一个拥有特权信息(完整状态、近似模型)的规划器来引导一个仅能获得部分观测的学习代理,而在部署时仅使用学习到的策略。
- **随时可行的MPC规划器**: 设计了一种新的MPC算法作为规划器,其“随时可行”特性确保了即使在计算时间有限或求解器未完全收敛的情况下,也能提供一个可行的(即使非最优)控制序列,这对于实时交互训练至关重要。
- **P2P-SAC蒸馏方法**: 将特权规划器的知识通过特定的蒸馏机制整合到SAC算法中,专门用于应对部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)的挑战,从而同时提升样本效率和最终策略性能。
论文对该领域的总体贡献包括:
- **提出并形式化了一个新的训练框架**: 将特权规划器引导的强化学习问题形式化为一个POMDP,为类似研究提供了理论基础。
- **提供了完整的算法与理论分析**: 提出了PriPG-RL框架、随时可行MPC算法和P2P-SAC方法,并辅以严格的理论分析。
- **实现了从仿真到实物的成功验证**: 在NVIDIA Isaac Lab仿真环境中验证了方法,并成功部署到真实的Unitree Go2四足机器人上,使其能够在复杂、多障碍物的环境中导航,证明了方法的有效性和实用性。