该论文旨在解决四足机器人(quadruped robot)运动控制中,在仿真环境(simulation environment)训练的强化学习策略(policy)难以适应环境变化(如从平坦地形转移到崎岖地形)的鲁棒性(robustness)和泛化(generalization)问题。研究背景是深度强化学习(deep reinforcement learning)在四足运动上虽取得进展,但存在仿真到现实(simulation-to-reality)的迁移(transfer)性能下降问题。
论文评估了四种方法在模拟行走任务上的表现:
- 两种标准深度强化学习基线方法:深度确定性策略梯度(DDPG)和双延迟深度确定性策略梯度(TD3)。
- 两种结合了进化搜索(evolutionary search)的混合方法:交叉熵方法(CEM)分别与DDPG和TD3结合的CEM-DDPG和CEM-TD3。
核心是采用进化强化学习(Evolutionary Reinforcement Learning)框架,将基于梯度(gradient-based)的策略优化与基于种群(population-based)的探索相结合。实验设计包括在平坦地形训练,随后在训练过的平坦地形和未训练过的崎岖地形(rough terrain)上进行测试。
论文的核心创新点在于:
- **方法集成创新**:系统地评估和证明了将进化算法中的交叉熵方法(Cross-Entropy Method, CEM)与先进的深度强化学习算法(DDPG/TD3)相结合(即CEM-DDPG和CEM-TD3)的有效性,特别是在提升策略鲁棒性方面。
- **性能突破**:与纯深度强化学习方法相比,所提出的进化强化学习变体(尤其是CEM-TD3)在训练效率和最终策略的鲁棒性上展现出显著优势。具体表现为:在训练阶段获得更高奖励;在未见的崎岖地形迁移测试中,性能下降幅度远小于基线方法,甚至能保持高性能(CEM-TD3奖励达19574.33,而TD3为负值)。
- **机制揭示**:通过对比实验,揭示了融入进化搜索能有效减少策略对训练环境的过拟合(overfitting),从而提升在部署条件与训练条件不同时的适应能力。
论文对该领域的整体贡献包括:
- **实证贡献**:通过系统的仿真实验,提供了明确的证据,表明进化强化学习能显著提升四足运动策略的鲁棒性和跨环境泛化能力。
- **方法指导**:为机器人运动控制领域的研究者提供了一个有效的技术方向,即结合基于梯度和基于种群的优化方法,以克服纯深度强化学习在仿真到现实迁移中的局限性。
- **结论价值**:其核心发现——进化搜索的引入有助于减少过拟合并改善策略鲁棒性——为未来开发更适应复杂、多变现实环境的运动控制器提供了重要的见解和验证。