超越动作残差：基于瓶颈潜在强化学习的真实世界机器人策略引导

📝 论文摘要

预训练模仿策略已成为机器人操纵的坚实基础，但这类策略常需在线改进以克服执行误差、数据集覆盖不足及部署不匹配等问题。因此核心问题在于：离线预训练后，强化学习（RL）应如何调整策略？现有轻量级方法通常直接在动作空间施加残差修正，但这往往导致探索行为噪声大且结构混乱。本研究提出Z-扰动强化学习（ZPRL），该方法通过紧凑的瓶颈隐变量而非策略权重或输出动作来引导预训练策略。离线训练阶段，我们为策略附加即插即用的变分信息瓶颈（VIB）模块，从观测嵌入中提取任务相关隐变量接口。在线微调阶段，基础策略被冻结，强化学习仅在该隐变量上学习残差扰动，其解码表征将条件作用于冻结的动作生成器。我们在流匹配策略上实例化ZPRL，并在八项仿真任务与四项真实世界任务中评估。在不同操纵场景下，ZPRL较之强后训练基线方法均提升了样本效率与最终性能。真实世界中，ZPRL在四项任务上的平均成功率较模仿基础策略提升33.7%，同时相较动作残差方法产生更平滑的探索行为。这些结果表明，紧凑且对齐任务的瓶颈隐变量为在线强化学习自适应提供了有效接口。更多视频见https://manutdmoon.github.io/ZPRL/。

🎯 研究动机

- 预训练的**模仿策略(imitation policy)** 在真实部署中常因执行误差、数据集覆盖不足和环境不匹配而需要**在线改进(online improvement)** - 现有轻量级方法通常在**动作空间(action space)** 直接施加残差修正，导致探索噪声大、结构混乱，不利于高效学习 - 核心研究问题：如何利用**强化学习(reinforcement learning, RL)** 在离线预训练后更有效地适应策略，避免动作残差的弊端

🔧 核心方法

- 提出**Z-Perturbation强化学习(ZPRL)** 框架，通过紧凑的**瓶颈潜在空间(bottleneck latent)** 而不是策略权重或输出动作来引导预训练策略 - 离线训练阶段，为预训练策略添加一个即插即用的**变分信息瓶颈(Variational Information Bottleneck, VIB)** 模块，从观察嵌入中提取任务相关的潜在表示 - 在线微调阶段，冻结基础策略，RL仅学习一个作用于该潜在表示的残差扰动，解码后的表示作为条件输入到冻结的动作生成器（具体实例化于**流匹配策略(flow-matching policies)**）

💡 核心创新

- **范式转变**：首次将在线策略适应从动作空间残差转向**瓶颈潜在空间(bottleneck latent)** 扰动，避免了动作残差带来的噪声和结构不良问题 - **即插即用架构**：通过**变分信息瓶颈(VIB)** 提取任务对齐的紧凑潜在接口，无需修改基础策略权重，保持预训练能力 - **高效探索**：在真实世界中，相比动作残差方法，ZPRL产生更平滑的探索行为，同时提升平均成功率**33.7%**

🏆 总体贡献

- 提出了**ZPRL** 方法，为预训练机器人策略的在线强化学习适应提供了一种新颖、高效的接口范式 - 在8个仿真任务和4个真实世界任务上验证了**样本效率(sample efficiency)** 和**最终性能(final performance)** 的显著提升 - 揭示了**紧凑、任务对齐的瓶颈潜在空间** 可以作为策略在线微调的有效杠杆，为后续研究提供了新方向

超越动作残差：基于瓶颈潜在强化学习的真实世界机器人策略引导
Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

📊 核心分析

超越动作残差：基于瓶颈潜在强化学习的真实世界机器人策略引导 Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning

📊 核心分析

超越动作残差：基于瓶颈潜在强化学习的真实世界机器人策略引导
Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning