解决人形机器人(humanoid robot)在统一强化学习(reinforcement learning)框架下学习多种步态时面临的挑战,即不同步态对稳定性(stability)和动态表现力(dynamic expressiveness)的要求存在冲突。研究背景是让机器人掌握多样化的运动技能(如行走、跑步、跳跃)对于其适应复杂环境至关重要。
论文提出了一种多步态学习(multi-gait learning)方法,核心是选择性对抗运动先验(selective Adversarial Motion Prior, AMP)策略。
- 使用近端策略优化(Proximal Policy Optimization, PPO)算法进行策略训练。
- 在仿真中使用领域随机化(domain randomization)。
- 通过零样本仿真到现实迁移(zero-shot sim-to-real transfer)将策略部署到12自由度(12-DOF)的实体人形机器人上。
- 选择性AMP策略:对周期性、稳定性关键的步态(行走、正步走、爬楼梯)应用AMP,以加速收敛并抑制不稳定行为;对高度动态的步态(跑步、跳跃)则有意省略AMP,以避免其正则化(regularization)过度约束运动。
核心创新点是提出了选择性对抗运动先验(selective AMP)策略,这是一种非均匀的、根据步态特性动态调整的模仿学习(imitation learning)方法。
- 与现有工作(通常对所有任务或步态统一应用AMP或其他运动先验)相比,其独特之处在于:
1. **任务感知的AMP应用**:识别并区分了稳定性主导(stability-focused)的步态与动态性主导(dynamic-focused)的步态。
2. **选择性正则化**:仅对前者应用AMP进行引导和约束,而对后者解除约束以释放其动态潜力。
3. **解决了统一框架下的冲突**:在一个统一的策略结构、动作空间(action space)和奖励函数(reward formulation)下,通过这种选择性机制调和了不同步态对学习目标的根本性矛盾。
论文对该领域的整体贡献包括:
- **方法论贡献**:提出并验证了选择性AMP策略,为在统一强化学习框架下学习具有冲突要求的多样化技能提供了一种新的、有效的范式。
- **技术实现贡献**:成功实现了让单个策略掌握五种截然不同的步态(行走、正步走、跑步、爬楼梯、跳跃),并通过仿真到现实的零样本迁移在实体机器人上进行了验证。
- **实证贡献**:通过定量比较证明,选择性AMP策略在五个步态上均优于统一的AMP策略,在稳定性步态上实现了更快的收敛速度、更低的跟踪误差和更高的成功率,同时没有牺牲动态步态所需的敏捷性(agility)。