- 解决**基于状态的强化学习(state-based RL)** 策略向学生策略进行模仿学习时产生的**不可缩小模仿差距(irreducible imitation gap)**
- 该差距源于教师策略可依赖**特权状态信息(privileged state information)**,而学生只能从观测中推断,导致教师策略不可模仿
- 现有方法在模仿学习后使用RL微调来提升学生性能,但需要全新训练设置,不够高效
- 提出一种新算法,学习**共享嵌入空间(shared embedding space)**,该空间隐藏智能体特定观测,从而**训练可模仿的教师策略**
- 使用**自监督对比学习(self-supervised contrastive learning)** 并行训练共享嵌入空间与教师策略
- 通过**限制梯度(gradient limitation)** 从编码器网络更新,防止共享嵌入空间提取教师私有信息
- **首创性**:首次提出通过学习共享嵌入空间来消除教师-学生表示差异,从根源上减少模仿差距
- **无需微调**:避免了模仿学习后仍需RL微调的额外训练流程,简化整体框架
- **隐私保护**:利用梯度限制和对比学习,确保共享嵌入空间不含教师私有特征,提升学生可模仿性
- 为**模仿学习(imitation learning)** 领域提供了一种新的表示对齐范式,通过共享嵌入空间实现教师策略的**可模仿性**
- 在多个示例领域中验证,与**现有最佳方法(state-of-the-art baselines)** 相比,显著提升学生性能并缩小模仿差距
- 降低对后续RL微调的依赖,提升了模仿学习的实用性和效率