该论文旨在解决强化学习(reinforcement learning)策略在机器人操作任务中,当测试条件与训练分布不同时性能下降的问题。研究背景是,在接触丰富的任务(如推动、抓取放置)中,目标、接触条件或机器人动力学的变化都可能导致系统在推理时处于分布外(out-of-distribution)状态,从而影响策略的鲁棒性。
论文提出了一种混合控制器(hybrid controller),将深度强化学习与有界极值搜索(bounded extremum seeking, ES)相结合。具体方法包括:
- 使用深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)在标准条件下训练机器人推动和抓取放置任务的策略。
- 在部署阶段,将训练好的强化学习策略与有界极值搜索结合使用。
- 强化学习策略提供快速的操作行为,而有界极值搜索确保当操作条件偏离训练条件时,整体控制器对时间变化的鲁棒性。
论文的核心创新点在于提出了一种新颖的混合控制框架,将深度强化学习与有界极值搜索相结合,以应对分布偏移(distribution shift)。其独特之处在于:
- 首次将有界极值搜索与深度强化学习策略结合,用于提升机器人操作任务在分布外条件下的鲁棒性。
- 强化学习负责快速、精确的操作,而有界极值搜索在线调整以补偿因目标、摩擦等变化引起的性能下降,二者互补。
- 与单纯使用强化学习或传统自适应控制方法相比,该方法在保持学习策略高效性的同时,引入了对时间变化和模型不确定性的在线适应能力。
论文对该领域的整体贡献包括:
- 提出并验证了一种提高强化学习策略在分布外条件下鲁棒性的实用混合控制方法。
- 在机器人推动和抓取放置任务上进行了系统评估,展示了该方法在时变目标(time-varying goals)和空间变化摩擦斑块(spatially varying friction patches)等多种分布外场景下的有效性。
- 为将学习型控制器与经典在线优化技术结合,以应对现实世界中的不确定性提供了新的思路和案例。