忽略什么，反应什么：VLA模型的视觉鲁棒强化学习微调

📝 论文摘要

强化学习（RL）微调在机器人操作中为视觉-语言-动作（VLA）模型带来了前景，但部署时的视觉变化构成了实际挑战。一个关键困难在于：标准任务奖励监督任务成功与否，却难以判断视觉变化是与任务无关的，还是改变了操作所需的行为。为此，我们提出PAIR-VLA（面向视觉鲁棒VLA的成对动作不变性与敏感性），一种RL微调框架，通过在PPO优化过程中增设两个针对成对视觉变体的辅助目标来解决该难题：其一为不变性项，用于减小任务保持成对（如不同干扰物）的动作分布差异；其二为敏感性目标，旨在促使任务改变成对（如目标物体姿态不同）的动作分布具有可分离性。这些目标共同将视觉变体从单纯的观测多样性转化为RL微调过程中关于策略响应的行为级指导。我们在ManiSkill3上针对两种代表性VLA架构（OpenVLA与π₀.₅）进行评估，涵盖多种分布外视觉偏移，包括未见干扰物、纹理变化、目标物体姿态变化、视角偏移及光照变化。该方法相较于标准PPO持续提升性能，在π₀.₅和OpenVLA上分别取得16.62%和9.10%的平均改进。值得注意的是，消融实验进一步揭示了跨视觉偏移的泛化能力：从干扰物和纹理变体学得的不变性指导可迁移至目标姿态和光照偏移，而对目标姿态变体增加敏感性指导则进一步提升了针对干扰偏移的鲁棒性，凸显了行为级RL指导的广泛可迁移性。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型通过**强化学习(RL)** 微调在机器人操作中取得进展，但部署时的**视觉偏移(visual shift)** （如干扰物、纹理、姿态变化）导致性能下降 - 标准任务奖励只能监督任务成功与否，无法区分视觉变化是任务无关（如不同干扰物）还是任务相关（如目标姿态变化），导致策略应对不当 - 研究背景：机器人操作需要鲁棒性，但现有RL微调方法缺乏对视觉变化行为层面（behavior-level）的引导

🔧 核心方法

- 提出**PAIR-VLA(Paired Action Invariance & Sensitivity for Visually Robust VLA)** 框架，在**近端策略优化(PPO)** 过程中添加两个辅助目标 - **不变性项(invariance term)**：针对任务保持（task-preserving）的视觉变体对（如不同干扰物），最小化动作分布之间的差异 - **敏感性目标(sensitivity objective)**：针对任务改变（task-altering）的视觉变体对（如目标物体不同姿态），鼓励动作分布可分离 - 将视觉变体从观测多样性转化为行为层面指导，在RL微调中优化策略对不同视觉变化的响应

💡 核心创新

- **首次将视觉变体对的行为级不变性与敏感性指导融入RL微调**，而非仅靠任务奖励监督 - **提出配对视觉变体（paired visual variants）策略**：通过构造任务保持和任务改变两类视觉对，分别施加不变性和敏感性约束，使策略学会“忽略”无关变化、“反应”相关变化 - **展示跨视觉偏移的迁移性**：从干扰物和纹理变体学到的不变性指导可泛化到目标姿态和光照变化，而增加目标姿态的敏感性指导进一步提升对干扰变化的鲁棒性

🏆 总体贡献

- 为VLA模型的**视觉鲁棒性(visually robust)** RL微调提供了新范式，区分任务相关和无关的视觉变化 - 在**ManiSkill3** 上使用**OpenVLA** 和**π₀.₅** 两种架构，在多种分布外（out-of-distribution）视觉偏移（干扰物、纹理、姿态、视角、光照）下，平均提升16.62%（π₀.₅）和9.10%（OpenVLA） - 揭示了行为级RL指导（behavior-level RL guidance）的可迁移性，有助于减少对昂贵数据收集的依赖

忽略什么，反应什么：VLA模型的视觉鲁棒强化学习微调
What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models

📊 核心分析

忽略什么，反应什么：VLA模型的视觉鲁棒强化学习微调 What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models

📊 核心分析

忽略什么，反应什么：VLA模型的视觉鲁棒强化学习微调
What to Ignore, What to React: Visually Robust RL Fine-Tuning of VLA Models