← 返回论文列表

学习结果分歧之处:基于概率性块掩蔽的高效VLA强化学习
Learn Where Outcomes Diverge: Efficient VLA RL via Probabilistic Chunk Masking

作者: Vaidehi Bagaria, Nikshep Grampurohit, Pulkit Verma
arXiv: 2605.16154v1
分类: cs.LG, cs.RO
📝 论文摘要
强化学习通过直接针对任务成功进行优化,使得视觉-语言-动作策略能够泛化到训练分布之外,但其后训练阶段计算成本高昂。一种自然的应对方式是借助更快的模拟器和世界模型加速轨迹收集。而在基于GRPO的视觉-语言-动作策略强化学习中,我们发现主要开销来源于其他方面:在我们的运行中,梯度计算约占每步实际运行时间的78%,而轨迹收集仅占21%。梯度成本占主导地位的原因在于,大量计算花费在对学习贡献甚微的阶段。GRPO的学习信号由优势方差驱动:只有成功与失败轨迹产生分歧的阶段才会产生学习信号。然而,GRPO将相同的优势值分配给轨迹中的每一个块(chunk)。因此,演员网络更新计算均匀分布在整条轨迹上,包括预训练和有监督微调后策略已能处理的阶段。本文提出概率性块掩码(PCM),作为GRPO的一种即插即用改进,其将梯度计算分配至每条轨迹中经过概率选择的少量块子集。PCM利用成功-失败动作方差(一种基于轨迹的、各阶段梯度方差的代理指标)对语义阶段进行评分,并通过在线更新的阶段级保留概率采样固定数量的块预算。我们形式化了阶段级梯度方差的概念,将其确定为梯度计算有效性的决定因素,并证明成功-失败动作方差可为其提供可度量的代理指标。PCM无需奖励模型或学习型评论家。在三个LIBERO基准测试中,PCM在匹配标准GRPO最终成功率的同时,实现了2.38倍的实际运行时间加速、4.8倍的梯度更新加速,峰值激活内存降低60%,且仅需对少于20%的轨迹块进行反向传播。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略通过**强化学习(reinforcement learning)** 微调可提升泛化能力,但后训练计算成本高昂 - 在**基于GRPO的VLA强化学习** 中,发现梯度计算占每步时间约78%,远高于轨迹收集的21%,是主要瓶颈 - GRPO将相同优势赋予轨迹中每个chunk,导致计算均匀分配到所有阶段,包括预训练和监督微调后已学会的阶段,造成大量浪费 - 需要一种方法将梯度计算集中在真正产生学习信号的阶段,即成功与失败轨迹产生分歧的阶段
🔧 核心方法
- 提出**概率性分块掩码(Probabilistic Chunk Masking, PCM)**,作为GRPO的即插即用修改,只将梯度计算分配给每个轨迹中一小部分概率选择的子块 - 使用**成功-失败动作方差(success-failure action variance)** 作为每个语义阶段的评分,该评分是可从轨迹中推导出的**每阶段梯度方差(per-phase gradient variance)** 代理 - 通过在线更新的阶段级保留概率采样固定数量的chunk预算,无需奖励模型或学习到的评论家 - 在**LIBERO** 三个基准上评估,仅反向传播少于20%的轨迹chunk
💡 核心创新
- **首次识别并形式化**:指出**每阶段梯度方差(per-phase gradient variance)** 是决定梯度计算是否有用的关键量,并证明**成功-失败动作方差** 可作为其可测量的代理 - **计算效率突破**:通过概率性掩码将梯度更新速度提升4.8倍,峰值激活内存降低60%,同时保持最终成功率不变 - **轻量无依赖**:方法不需要额外的奖励模型或学习评论家,仅利用轨迹中已有的rollout数据 - **即插即用**:PCM作为GRPO的直接替换,兼容现有VLA强化学习流程
🏆 总体贡献
- 为**VLA强化学习后训练** 提供了一种高效的计算优化方案,显著降低训练时间与资源需求 - 揭示了梯度计算在轨迹中不均匀分配的重要性,为未来强化学习中的计算感知训练提供了理论依据 - 在三个标准基准上达到与标准GRPO相当的最终成功率,同时实现2.38倍墙钟加速和4.8倍梯度更新加速 - 开源方法可促进社区在机器人操作等领域的VLA策略高效微调