← 返回论文列表

StableVLA:走向无需额外数据的鲁棒视觉-语言-动作模型
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

作者: Yiyang Fu, Chubin Zhang, Shukai Gong 等10人
arXiv: 2605.18287v1
分类: cs.CV, cs.RO
📝 论文摘要
在训练数据中涵盖所有可能的扰动是不可行的。这引出了一个关于视觉-语言-动作模型在遇到未见过的真实世界视觉扰动时鲁棒性的关键问题,尤其在视觉条件不完美的情况下。本文基于近期最先进的VLA模型开展了系统性研究,揭示了当引入训练数据中未包含的视觉扰动时,模型性能会出现显著下降。为缓解该问题,我们提出了一种基于信息理论的轻量化适配器模块,称为信息瓶颈适配器(IB-Adapter),该模块能够选择性地过滤视觉输入中的潜在噪声。无需任何额外数据或增强策略,IB-Adapter在平均性能上比基线提升了30%,同时仅增加不到1000万参数,展现出显著的效率与有效性。此外,即使采用缩小14倍的主干网络(5亿参数)且未在Open X-Embodiment数据集上进行预训练,我们的StableVLA模型所实现的鲁棒性仍可与70亿参数规模的先进VLA模型相媲美。在参数开销极低(<1000万)的情况下,我们的方法在长时域任务上保持了准确率,并在合成与物理视觉损坏条件下均超越了OpenPi。

📊 核心分析

🎯 研究动机
- 训练数据无法涵盖所有可能的视觉干扰,导致**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在遇到未见过的真实世界视觉干扰(尤其是不完美视觉条件)时性能显著下降 - 现有VLA模型缺乏针对未知视觉扰动的鲁棒性研究,亟需一种不依赖额外数据或数据增强的鲁棒性提升方法
🔧 核心方法
- 提出基于信息论的轻量级适配器模块——**信息瓶颈适配器(Information Bottleneck Adapter, IB-Adapter)**,通过选择性过滤视觉输入中的潜在噪声来增强鲁棒性 - 将IB-Adapter集成到现有VLA骨干网络中,引入参数少于1000万(<10M)的额外模块,无需额外训练数据或数据增强策略
💡 核心创新
- **无需额外数据**:不依赖任何外部数据集或数据增强,仅通过适配器自身的信息瓶颈机制实现鲁棒性提升 - **高效轻量**:仅增加<10M参数,即可在基线基础上平均提升30%性能;即使使用小规模骨干(0.5B参数,仅为7B模型的1/14)且未在**Open X-Embodiment** 数据集上预训练,其鲁棒性仍能与7B规模的SOTA VLA模型竞争 - **理论驱动**:首次将**信息瓶颈理论(Information Bottleneck Theory)** 应用于VLA模型鲁棒性增强,实现选择性噪声过滤
🏆 总体贡献
- 系统揭示了当前SOTA VLA模型在面对训练中未见的视觉干扰时存在的脆弱性,为鲁棒性研究提供了实证基础 - 提出了**StableVLA** 模型,通过IB-Adapter在不增加训练数据的前提下显著提升模型鲁棒性,在合成和物理视觉损坏任务上超越**OpenPi** 等现有方法 - 证明了轻量级适配器可使小模型(0.5B)获得与大模型(7B)相当的鲁棒性,为资源受限场景下的VLA部署提供了可行方案