师生表征对齐用于强化学习驱动的模仿学习

📝 论文摘要

从基于状态的强化学习（RL）策略中进行模仿学习（IL）是克服机器人领域常见的高维复杂观测空间中维度灾难的常用方法。本文针对教师与学生策略在独立学习时产生的不可约模仿差距——即教师策略能够依赖学生无法从其观测中推断的特权状态信息——展开研究。不同于通过模仿学习后的强化学习微调来改善学生性能低下的做法（这通常需要全新的训练设置），我们提出了一种新颖算法，通过学习一个隐藏智能体特定观测的共享嵌入空间，从而在构造上训练可模仿的教师策略。我们采用自监督对比学习与教师策略并行训练共享嵌入空间，并通过限制其梯度来防止编码器网络更新，从而避免提取私有信息。我们在多个示例领域上进行了评估，并与当前最优基线方法进行了比较，结果表明我们的算法能够实现更高的学生性能，并显著缩小模仿差距。

🎯 研究动机

- 解决**基于状态的强化学习(state-based RL)** 策略向学生策略进行模仿学习时产生的**不可缩小模仿差距(irreducible imitation gap)** - 该差距源于教师策略可依赖**特权状态信息(privileged state information)**，而学生只能从观测中推断，导致教师策略不可模仿 - 现有方法在模仿学习后使用RL微调来提升学生性能，但需要全新训练设置，不够高效

🔧 核心方法

- 提出一种新算法，学习**共享嵌入空间(shared embedding space)**，该空间隐藏智能体特定观测，从而**训练可模仿的教师策略** - 使用**自监督对比学习(self-supervised contrastive learning)** 并行训练共享嵌入空间与教师策略 - 通过**限制梯度(gradient limitation)** 从编码器网络更新，防止共享嵌入空间提取教师私有信息

💡 核心创新

- **首创性**：首次提出通过学习共享嵌入空间来消除教师-学生表示差异，从根源上减少模仿差距 - **无需微调**：避免了模仿学习后仍需RL微调的额外训练流程，简化整体框架 - **隐私保护**：利用梯度限制和对比学习，确保共享嵌入空间不含教师私有特征，提升学生可模仿性

🏆 总体贡献

- 为**模仿学习(imitation learning)** 领域提供了一种新的表示对齐范式，通过共享嵌入空间实现教师策略的**可模仿性** - 在多个示例领域中验证，与**现有最佳方法(state-of-the-art baselines)** 相比，显著提升学生性能并缩小模仿差距 - 降低对后续RL微调的依赖，提升了模仿学习的实用性和效率

师生表征对齐用于强化学习驱动的模仿学习
Teacher-Student Representational Alignment for Reinforcement Learning-Driven Imitation Learning

📊 核心分析

师生表征对齐用于强化学习驱动的模仿学习 Teacher-Student Representational Alignment for Reinforcement Learning-Driven Imitation Learning

📊 核心分析

师生表征对齐用于强化学习驱动的模仿学习
Teacher-Student Representational Alignment for Reinforcement Learning-Driven Imitation Learning