学习结果分歧之处：基于概率性块掩蔽的高效VLA强化学习

📝 论文摘要

强化学习通过直接针对任务成功进行优化，使得视觉-语言-动作策略能够泛化到训练分布之外，但其后训练阶段计算成本高昂。一种自然的应对方式是借助更快的模拟器和世界模型加速轨迹收集。而在基于GRPO的视觉-语言-动作策略强化学习中，我们发现主要开销来源于其他方面：在我们的运行中，梯度计算约占每步实际运行时间的78%，而轨迹收集仅占21%。梯度成本占主导地位的原因在于，大量计算花费在对学习贡献甚微的阶段。GRPO的学习信号由优势方差驱动：只有成功与失败轨迹产生分歧的阶段才会产生学习信号。然而，GRPO将相同的优势值分配给轨迹中的每一个块（chunk）。因此，演员网络更新计算均匀分布在整条轨迹上，包括预训练和有监督微调后策略已能处理的阶段。本文提出概率性块掩码（PCM），作为GRPO的一种即插即用改进，其将梯度计算分配至每条轨迹中经过概率选择的少量块子集。PCM利用成功-失败动作方差（一种基于轨迹的、各阶段梯度方差的代理指标）对语义阶段进行评分，并通过在线更新的阶段级保留概率采样固定数量的块预算。我们形式化了阶段级梯度方差的概念，将其确定为梯度计算有效性的决定因素，并证明成功-失败动作方差可为其提供可度量的代理指标。PCM无需奖励模型或学习型评论家。在三个LIBERO基准测试中，PCM在匹配标准GRPO最终成功率的同时，实现了2.38倍的实际运行时间加速、4.8倍的梯度更新加速，峰值激活内存降低60%，且仅需对少于20%的轨迹块进行反向传播。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略通过**强化学习(reinforcement learning)** 微调可提升泛化能力，但后训练计算成本高昂 - 在**基于GRPO的VLA强化学习** 中，发现梯度计算占每步时间约78%，远高于轨迹收集的21%，是主要瓶颈 - GRPO将相同优势赋予轨迹中每个chunk，导致计算均匀分配到所有阶段，包括预训练和监督微调后已学会的阶段，造成大量浪费 - 需要一种方法将梯度计算集中在真正产生学习信号的阶段，即成功与失败轨迹产生分歧的阶段

🔧 核心方法

- 提出**概率性分块掩码(Probabilistic Chunk Masking, PCM)**，作为GRPO的即插即用修改，只将梯度计算分配给每个轨迹中一小部分概率选择的子块 - 使用**成功-失败动作方差(success-failure action variance)** 作为每个语义阶段的评分，该评分是可从轨迹中推导出的**每阶段梯度方差(per-phase gradient variance)** 代理 - 通过在线更新的阶段级保留概率采样固定数量的chunk预算，无需奖励模型或学习到的评论家 - 在**LIBERO** 三个基准上评估，仅反向传播少于20%的轨迹chunk

💡 核心创新

- **首次识别并形式化**：指出**每阶段梯度方差(per-phase gradient variance)** 是决定梯度计算是否有用的关键量，并证明**成功-失败动作方差** 可作为其可测量的代理 - **计算效率突破**：通过概率性掩码将梯度更新速度提升4.8倍，峰值激活内存降低60%，同时保持最终成功率不变 - **轻量无依赖**：方法不需要额外的奖励模型或学习评论家，仅利用轨迹中已有的rollout数据 - **即插即用**：PCM作为GRPO的直接替换，兼容现有VLA强化学习流程

🏆 总体贡献

- 为**VLA强化学习后训练** 提供了一种高效的计算优化方案，显著降低训练时间与资源需求 - 揭示了梯度计算在轨迹中不均匀分配的重要性，为未来强化学习中的计算感知训练提供了理论依据 - 在三个标准基准上达到与标准GRPO相当的最终成功率，同时实现2.38倍墙钟加速和4.8倍梯度更新加速 - 开源方法可促进社区在机器人操作等领域的VLA策略高效微调

学习结果分歧之处：基于概率性块掩蔽的高效VLA强化学习
Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking

📊 核心分析

学习结果分歧之处：基于概率性块掩蔽的高效VLA强化学习 Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking

📊 核心分析

学习结果分歧之处：基于概率性块掩蔽的高效VLA强化学习
Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking