← 返回论文列表

师生表征对齐用于强化学习驱动的模仿学习
Teacher-Student Representational Alignment for Reinforcement Learning-Driven Imitation Learning

作者: Meraj Mammadov, Pedro Zuidberg Dos Martires, Johannes Andreas Stork
arXiv: 2605.28372v1
分类: cs.LG, cs.RO
📝 论文摘要
从基于状态的强化学习(RL)策略中进行模仿学习(IL)是克服机器人领域常见的高维复杂观测空间中维度灾难的常用方法。本文针对教师与学生策略在独立学习时产生的不可约模仿差距——即教师策略能够依赖学生无法从其观测中推断的特权状态信息——展开研究。不同于通过模仿学习后的强化学习微调来改善学生性能低下的做法(这通常需要全新的训练设置),我们提出了一种新颖算法,通过学习一个隐藏智能体特定观测的共享嵌入空间,从而在构造上训练可模仿的教师策略。我们采用自监督对比学习与教师策略并行训练共享嵌入空间,并通过限制其梯度来防止编码器网络更新,从而避免提取私有信息。我们在多个示例领域上进行了评估,并与当前最优基线方法进行了比较,结果表明我们的算法能够实现更高的学生性能,并显著缩小模仿差距。

📊 核心分析

🎯 研究动机
- 解决**基于状态的强化学习(state-based RL)** 策略向学生策略进行模仿学习时产生的**不可缩小模仿差距(irreducible imitation gap)** - 该差距源于教师策略可依赖**特权状态信息(privileged state information)**,而学生只能从观测中推断,导致教师策略不可模仿 - 现有方法在模仿学习后使用RL微调来提升学生性能,但需要全新训练设置,不够高效
🔧 核心方法
- 提出一种新算法,学习**共享嵌入空间(shared embedding space)**,该空间隐藏智能体特定观测,从而**训练可模仿的教师策略** - 使用**自监督对比学习(self-supervised contrastive learning)** 并行训练共享嵌入空间与教师策略 - 通过**限制梯度(gradient limitation)** 从编码器网络更新,防止共享嵌入空间提取教师私有信息
💡 核心创新
- **首创性**:首次提出通过学习共享嵌入空间来消除教师-学生表示差异,从根源上减少模仿差距 - **无需微调**:避免了模仿学习后仍需RL微调的额外训练流程,简化整体框架 - **隐私保护**:利用梯度限制和对比学习,确保共享嵌入空间不含教师私有特征,提升学生可模仿性
🏆 总体贡献
- 为**模仿学习(imitation learning)** 领域提供了一种新的表示对齐范式,通过共享嵌入空间实现教师策略的**可模仿性** - 在多个示例领域中验证,与**现有最佳方法(state-of-the-art baselines)** 相比,显著提升学生性能并缩小模仿差距 - 降低对后续RL微调的依赖,提升了模仿学习的实用性和效率