- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型通过**强化学习(RL)** 微调在机器人操作中取得进展,但部署时的**视觉偏移(visual shift)** (如干扰物、纹理、姿态变化)导致性能下降
- 标准任务奖励只能监督任务成功与否,无法区分视觉变化是任务无关(如不同干扰物)还是任务相关(如目标姿态变化),导致策略应对不当
- 研究背景:机器人操作需要鲁棒性,但现有RL微调方法缺乏对视觉变化行为层面(behavior-level)的引导
- 提出**PAIR-VLA(Paired Action Invariance & Sensitivity for Visually Robust VLA)** 框架,在**近端策略优化(PPO)** 过程中添加两个辅助目标
- **不变性项(invariance term)**:针对任务保持(task-preserving)的视觉变体对(如不同干扰物),最小化动作分布之间的差异
- **敏感性目标(sensitivity objective)**:针对任务改变(task-altering)的视觉变体对(如目标物体不同姿态),鼓励动作分布可分离
- 将视觉变体从观测多样性转化为行为层面指导,在RL微调中优化策略对不同视觉变化的响应
- **首次将视觉变体对的行为级不变性与敏感性指导融入RL微调**,而非仅靠任务奖励监督
- **提出配对视觉变体(paired visual variants)策略**:通过构造任务保持和任务改变两类视觉对,分别施加不变性和敏感性约束,使策略学会“忽略”无关变化、“反应”相关变化
- **展示跨视觉偏移的迁移性**:从干扰物和纹理变体学到的不变性指导可泛化到目标姿态和光照变化,而增加目标姿态的敏感性指导进一步提升对干扰变化的鲁棒性
- 为VLA模型的**视觉鲁棒性(visually robust)** RL微调提供了新范式,区分任务相关和无关的视觉变化
- 在**ManiSkill3** 上使用**OpenVLA** 和**π₀.₅** 两种架构,在多种分布外(out-of-distribution)视觉偏移(干扰物、纹理、姿态、视角、光照)下,平均提升16.62%(π₀.₅)和9.10%(OpenVLA)
- 揭示了行为级RL指导(behavior-level RL guidance)的可迁移性,有助于减少对昂贵数据收集的依赖