- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 策略通过**强化学习(reinforcement learning)** 微调可提升泛化能力,但后训练计算成本高昂
- 在**基于GRPO的VLA强化学习** 中,发现梯度计算占每步时间约78%,远高于轨迹收集的21%,是主要瓶颈
- GRPO将相同优势赋予轨迹中每个chunk,导致计算均匀分配到所有阶段,包括预训练和监督微调后已学会的阶段,造成大量浪费
- 需要一种方法将梯度计算集中在真正产生学习信号的阶段,即成功与失败轨迹产生分歧的阶段
- 提出**概率性分块掩码(Probabilistic Chunk Masking, PCM)**,作为GRPO的即插即用修改,只将梯度计算分配给每个轨迹中一小部分概率选择的子块
- 使用**成功-失败动作方差(success-failure action variance)** 作为每个语义阶段的评分,该评分是可从轨迹中推导出的**每阶段梯度方差(per-phase gradient variance)** 代理
- 通过在线更新的阶段级保留概率采样固定数量的chunk预算,无需奖励模型或学习到的评论家
- 在**LIBERO** 三个基准上评估,仅反向传播少于20%的轨迹chunk
- **首次识别并形式化**:指出**每阶段梯度方差(per-phase gradient variance)** 是决定梯度计算是否有用的关键量,并证明**成功-失败动作方差** 可作为其可测量的代理
- **计算效率突破**:通过概率性掩码将梯度更新速度提升4.8倍,峰值激活内存降低60%,同时保持最终成功率不变
- **轻量无依赖**:方法不需要额外的奖励模型或学习评论家,仅利用轨迹中已有的rollout数据
- **即插即用**:PCM作为GRPO的直接替换,兼容现有VLA强化学习流程
- 为**VLA强化学习后训练** 提供了一种高效的计算优化方案,显著降低训练时间与资源需求
- 揭示了梯度计算在轨迹中不均匀分配的重要性,为未来强化学习中的计算感知训练提供了理论依据
- 在三个标准基准上达到与标准GRPO相当的最终成功率,同时实现2.38倍墙钟加速和4.8倍梯度更新加速
- 开源方法可促进社区在机器人操作等领域的VLA策略高效微调