该论文旨在解决四足机器人控制中的零样本强化学习(zero-shot reinforcement learning)问题。研究背景是:
- 零样本强化学习(RL)算法需要从无奖励数据集中学习策略族,并在测试时直接针对任意奖励函数恢复最优策略
- 预收集数据集的多样性和相关性直接影响下游任务性能,但在不了解下游任务的情况下收集高质量数据集具有挑战性
- 现有无导向探索方法产生的数据多样性低,导致下游性能差,且学到的策略难以直接部署到真实硬件
论文提出了FB-MEBE算法,该方法:
- 基于前向-后向(Forward-Backward, FB)算法框架
- 结合无监督行为探索策略与正则化评论家(regularization critic)
- 通过最大化已实现行为分布(achieved behavior distribution)的熵(entropy)来促进探索
- 使用正则化评论家将恢复的策略塑造成更自然、物理上合理的行为
论文的核心创新点包括:
- 提出FB-MEBE算法,将最大熵行为探索(maximum entropy behavior exploration)与正则化评论家相结合,这是首次在在线零样本强化学习(online zero-shot RL)中系统应用
- 设计了专门针对四足机器人控制的行为熵最大化目标,显著提升了探索多样性与数据质量
- 引入正则化评论家机制,确保学到的策略具有物理合理性和自然性,实现了从仿真到真实(sim2real)的零样本直接部署
- 在在线设置下实现了比传统无导向探索更高效的数据收集,解决了预收集数据集的质量瓶颈问题
论文对该领域的整体贡献是:
- 提出了首个适用于四足机器人控制的在线零样本强化学习算法FB-MEBE,实现了从仿真到真实环境的零样本策略迁移
- 通过系统的实验验证,证明FB-MEBE在模拟下游任务中优于其他探索策略
- 展示了学到的策略具有高度自然性和物理合理性,无需微调即可直接部署到真实机器人硬件
- 为sim2real零样本强化学习提供了新的探索范式和正则化技术,推动了该领域向实际机器人应用的发展