- 预训练的**模仿策略(imitation policy)** 在真实部署中常因执行误差、数据集覆盖不足和环境不匹配而需要**在线改进(online improvement)**
- 现有轻量级方法通常在**动作空间(action space)** 直接施加残差修正,导致探索噪声大、结构混乱,不利于高效学习
- 核心研究问题:如何利用**强化学习(reinforcement learning, RL)** 在离线预训练后更有效地适应策略,避免动作残差的弊端
- 提出**Z-Perturbation强化学习(ZPRL)** 框架,通过紧凑的**瓶颈潜在空间(bottleneck latent)** 而不是策略权重或输出动作来引导预训练策略
- 离线训练阶段,为预训练策略添加一个即插即用的**变分信息瓶颈(Variational Information Bottleneck, VIB)** 模块,从观察嵌入中提取任务相关的潜在表示
- 在线微调阶段,冻结基础策略,RL仅学习一个作用于该潜在表示的残差扰动,解码后的表示作为条件输入到冻结的动作生成器(具体实例化于**流匹配策略(flow-matching policies)**)
- **范式转变**:首次将在线策略适应从动作空间残差转向**瓶颈潜在空间(bottleneck latent)** 扰动,避免了动作残差带来的噪声和结构不良问题
- **即插即用架构**:通过**变分信息瓶颈(VIB)** 提取任务对齐的紧凑潜在接口,无需修改基础策略权重,保持预训练能力
- **高效探索**:在真实世界中,相比动作残差方法,ZPRL产生更平滑的探索行为,同时提升平均成功率**33.7%**
- 提出了**ZPRL** 方法,为预训练机器人策略的在线强化学习适应提供了一种新颖、高效的接口范式
- 在8个仿真任务和4个真实世界任务上验证了**样本效率(sample efficiency)** 和**最终性能(final performance)** 的显著提升
- 揭示了**紧凑、任务对齐的瓶颈潜在空间** 可以作为策略在线微调的有效杠杆,为后续研究提供了新方向