- 训练数据无法涵盖所有可能的视觉干扰,导致**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在遇到未见过的真实世界视觉干扰(尤其是不完美视觉条件)时性能显著下降
- 现有VLA模型缺乏针对未知视觉扰动的鲁棒性研究,亟需一种不依赖额外数据或数据增强的鲁棒性提升方法
- 提出基于信息论的轻量级适配器模块——**信息瓶颈适配器(Information Bottleneck Adapter, IB-Adapter)**,通过选择性过滤视觉输入中的潜在噪声来增强鲁棒性
- 将IB-Adapter集成到现有VLA骨干网络中,引入参数少于1000万(<10M)的额外模块,无需额外训练数据或数据增强策略
- **无需额外数据**:不依赖任何外部数据集或数据增强,仅通过适配器自身的信息瓶颈机制实现鲁棒性提升
- **高效轻量**:仅增加<10M参数,即可在基线基础上平均提升30%性能;即使使用小规模骨干(0.5B参数,仅为7B模型的1/14)且未在**Open X-Embodiment** 数据集上预训练,其鲁棒性仍能与7B规模的SOTA VLA模型竞争
- **理论驱动**:首次将**信息瓶颈理论(Information Bottleneck Theory)** 应用于VLA模型鲁棒性增强,实现选择性噪声过滤
- 系统揭示了当前SOTA VLA模型在面对训练中未见的视觉干扰时存在的脆弱性,为鲁棒性研究提供了实证基础
- 提出了**StableVLA** 模型,通过IB-Adapter在不增加训练数据的前提下显著提升模型鲁棒性,在合成和物理视觉损坏任务上超越**OpenPi** 等现有方法
- 证明了轻量级适配器可使小模型(0.5B)获得与大模型(7B)相当的鲁棒性,为资源受限场景下的VLA部署提供了可行方案