VLA-GSE: 通过通用与专用专家提升VLA中的参数高效微调

VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts

作者: Yuhua Jiang, Junjie Lu, Xinyao Qin 等7人

arXiv: 2605.06175v1

分类: cs.RO

📝 论文摘要

视觉-语言-动作（VLA）模型从预训练的视觉-语言主干中继承了丰富的视觉语义先验，但将其适配到机器人控制任务仍具挑战。全参数微调（FFT）容易在机器人下游数据上过拟合，并灾难性遗忘预训练的视觉-语言能力。参数高效微调（PEFT）能更好地保留预训练知识，然而现有PEFT方法在有效适配机器人控制任务方面仍有不足。为解决这一问题，我们提出VLA-GSE，一种参数高效的VLA微调框架，在保留PEFT知识保留优势的同时提升控制适配能力。具体地，VLA-GSE（通用专家与专用专家）通过对冻结主干进行谱分解来初始化，将主导奇异分量分配给通用专家（共享专家），将不相交的残差分量分配给专用专家（路由专家）。这种分解在固定可训练参数预算下增强了适配能力。在可比较的参数预算下，VLA-GSE仅更新全模型参数的2.51%，且持续优于强FFT和PEFT基线。它在LIBERO-Plus上实现了81.2%的平均零样本成功率，在多模态理解基准上保持与LoRA相当的预训练VLM能力，并在多种分布偏移下提升了真实世界操作成功率。代码已开源：https://github.com/YuhuaJiang2002/VLA-GSE

📊 核心分析

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在适应机器人控制时面临挑战：全微调(FFT)容易对下游数据过拟合，并导致预训练视觉-语言知识的灾难性遗忘 - 参数高效微调(PEFT)能更好地保留预训练知识，但现有PEFT方法仍难以有效适应机器人控制任务，适应能力不足

🔧 核心方法

- 提出**VLA-GSE（通用与专用专家）** 框架，通过对冻结主干进行**频谱分解(spectral decomposition)**，将主导奇异分量分配给**通用专家(shared experts)**，将不相交的残差分量分配给**专用专家(routed experts)** - 在固定可训练参数预算下，仅更新全模型参数的**2.51%**，通过专家混合(Mixture-of-Experts)结构提升适应容量

💡 核心创新

- **首创性**：首次将**频谱分解(spectral decomposition)** 与**专家混合(Mixture-of-Experts)** 融合用于VLA参数高效微调，通过奇异值分配区分共享与路由专家 - **效率与性能兼得**：在极低参数更新比例（2.51%）下，零样本成功率高达**81.2%**，优于全微调和现有PEFT方法，且保持与LoRA相当的多模态理解能力

🏆 总体贡献

- 为**VLA模型参数高效微调** 提供了一种新颖框架，有效解决了适应性与知识保留之间的权衡 - 在**LIBERO-Plus** 零样本场景和真实世界多种分布偏移操作中取得领先性能，并开源代码促进社区复现与后续研究