该论文旨在解决质量多样性(Quality-Diversity, QD)算法在复杂任务中样本效率低下的问题。研究背景是:尽管QD算法擅长发现多样化的技能库,但通常需要数千万次环境交互才能解决复杂运动任务,计算成本高昂。而近期强化学习(Reinforcement Learning, RL)研究表明,高更新数据比(Update-to-Data, UTD)可以加速行动者-评论家(Actor-Critic)学习,但标准的高UTD方法依赖目标网络(target networks)来稳定训练,这在高资源消耗的QD任务中会引入显著的计算瓶颈。
论文提出了QDHUAC算法,这是一种无需目标网络(target-free)的分布值估计(distributional value estimation)QD-RL算法。具体方法包括:
- 采用分布评论家(distributional critics)提供密集且低方差的梯度信号
- 结合基于支配的选择(dominance-based selection)机制
- 实现高UTD训练,应用于支配新颖性搜索(Dominated Novelty Search)
论文的核心创新点在于:
- **首次将无需目标网络的高UTD训练成功应用于QD-RL领域**,解决了目标网络带来的计算瓶颈问题
- **创新性地结合了分布值估计与基于支配的选择**,为QD算法提供了稳定、高效的训练框架
- **实现了数量级级别的样本效率提升**,在保持竞争性覆盖率和适应度的同时,大幅减少环境交互步骤
论文对该领域的整体贡献包括:
- 证明了结合无需目标网络的分布评论家与基于支配的选择是实现下一代样本高效进化RL算法的关键推动因素
- 在Brax高维环境中验证了方法的有效性,相比基线方法减少了一个数量级的样本需求
- 为资源密集型QD任务提供了实用的解决方案,推动了QD-RL算法向更高样本效率方向发展