StableVLA：走向无需额外数据的鲁棒视觉-语言-动作模型

📝 论文摘要

在训练数据中涵盖所有可能的扰动是不可行的。这引出了一个关于视觉-语言-动作模型在遇到未见过的真实世界视觉扰动时鲁棒性的关键问题，尤其在视觉条件不完美的情况下。本文基于近期最先进的VLA模型开展了系统性研究，揭示了当引入训练数据中未包含的视觉扰动时，模型性能会出现显著下降。为缓解该问题，我们提出了一种基于信息理论的轻量化适配器模块，称为信息瓶颈适配器（IB-Adapter），该模块能够选择性地过滤视觉输入中的潜在噪声。无需任何额外数据或增强策略，IB-Adapter在平均性能上比基线提升了30%，同时仅增加不到1000万参数，展现出显著的效率与有效性。此外，即使采用缩小14倍的主干网络（5亿参数）且未在Open X-Embodiment数据集上进行预训练，我们的StableVLA模型所实现的鲁棒性仍可与70亿参数规模的先进VLA模型相媲美。在参数开销极低（<1000万）的情况下，我们的方法在长时域任务上保持了准确率，并在合成与物理视觉损坏条件下均超越了OpenPi。

🎯 研究动机

- 训练数据无法涵盖所有可能的视觉干扰，导致**视觉-语言-动作模型(Vision-Language-Action, VLA)** 在遇到未见过的真实世界视觉干扰（尤其是不完美视觉条件）时性能显著下降 - 现有VLA模型缺乏针对未知视觉扰动的鲁棒性研究，亟需一种不依赖额外数据或数据增强的鲁棒性提升方法

🔧 核心方法

- 提出基于信息论的轻量级适配器模块——**信息瓶颈适配器(Information Bottleneck Adapter, IB-Adapter)**，通过选择性过滤视觉输入中的潜在噪声来增强鲁棒性 - 将IB-Adapter集成到现有VLA骨干网络中，引入参数少于1000万（<10M）的额外模块，无需额外训练数据或数据增强策略

💡 核心创新

- **无需额外数据**：不依赖任何外部数据集或数据增强，仅通过适配器自身的信息瓶颈机制实现鲁棒性提升 - **高效轻量**：仅增加<10M参数，即可在基线基础上平均提升30%性能；即使使用小规模骨干（0.5B参数，仅为7B模型的1/14）且未在**Open X-Embodiment** 数据集上预训练，其鲁棒性仍能与7B规模的SOTA VLA模型竞争 - **理论驱动**：首次将**信息瓶颈理论(Information Bottleneck Theory)** 应用于VLA模型鲁棒性增强，实现选择性噪声过滤

🏆 总体贡献

- 系统揭示了当前SOTA VLA模型在面对训练中未见的视觉干扰时存在的脆弱性，为鲁棒性研究提供了实证基础 - 提出了**StableVLA** 模型，通过IB-Adapter在不增加训练数据的前提下显著提升模型鲁棒性，在合成和物理视觉损坏任务上超越**OpenPi** 等现有方法 - 证明了轻量级适配器可使小模型（0.5B）获得与大模型（7B）相当的鲁棒性，为资源受限场景下的VLA部署提供了可行方案

StableVLA：走向无需额外数据的鲁棒视觉-语言-动作模型
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

📊 核心分析

StableVLA：走向无需额外数据的鲁棒视觉-语言-动作模型 StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

📊 核心分析

StableVLA：走向无需额外数据的鲁棒视觉-语言-动作模型
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data