该论文旨在解决离线目标条件强化学习(offline goal-conditioned reinforcement learning)中的信用分配(credit assignment)问题。研究背景是:在从数据中学习目标导向行为时,行动与其长期后果之间的时间延迟使得信用分配变得困难。
论文提出了一种名为占用奖励塑形(Occupancy Reward Shaping, ORS)的方法。其核心是:
- 利用生成世界模型(generative world models)捕获未来状态的分布和时序信息。
- 形式化地分析了世界模型中存储的时序信息如何编码世界的底层几何结构。
- 利用最优传输(optimal transport)理论,从学习到的占用测度(occupancy measure)模型中提取这种几何结构,并将其转化为一个能捕获目标到达信息的奖励函数(reward function)。
论文的核心创新点在于:
- **理论连接与形式化**:首次形式化地揭示了世界模型中的时序信息与底层状态空间几何结构之间的理论联系。
- **几何奖励提取**:创新性地利用最优传输理论,从占用测度模型中提取几何信息来构建奖励函数,这是一种全新的奖励塑形(reward shaping)范式。
- **策略不变性保证**:所提出的ORS方法在理论上被证明不会改变最优策略(optimal policy),确保了塑形奖励的安全性。
- **广泛适用性**:该方法在稀疏奖励(sparse reward)设置下有效缓解信用分配问题,并在仿真与真实物理系统(托卡马克核聚变控制)中均得到验证,展现了其通用性。
论文对该领域的总体贡献是:
- 提出了一种新颖、理论保证且高效的奖励塑形方法(ORS),显著改善了长视野(long-horizon)任务中的信用分配问题。
- 在13个多样化的长视野运动(locomotion)和操作(manipulation)任务上,将性能平均提升了2.2倍。
- 成功将方法应用于具有挑战性的真实世界物理控制问题——托卡马克(Tokamak)核聚变控制(3个任务),证明了其实际有效性。
- 为连接世界模型、几何结构与强化学习中的信用分配提供了一个新的理论框架和实践工具。