← 返回论文列表

VLA-GSE: 通过通用与专用专家提升VLA中的参数高效微调
VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts

作者: Yuhua Jiang, Junjie Lu, Xinyao Qin 等7人
arXiv: 2605.06175v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型从预训练的视觉-语言主干中继承了丰富的视觉语义先验,但将其适配到机器人控制任务仍具挑战。全参数微调(FFT)容易在机器人下游数据上过拟合,并灾难性遗忘预训练的视觉-语言能力。参数高效微调(PEFT)能更好地保留预训练知识,然而现有PEFT方法在有效适配机器人控制任务方面仍有不足。为解决这一问题,我们提出VLA-GSE,一种参数高效的VLA微调框架,在保留PEFT知识保留优势的同时提升控制适配能力。具体地,VLA-GSE(通用专家与专用专家)通过对冻结主干进行谱分解来初始化,将主导奇异分量分配给通用专家(共享专家),将不相交的残差分量分配给专用专家(路由专家)。这种分解在固定可训练参数预算下增强了适配能力。在可比较的参数预算下,VLA-GSE仅更新全模型参数的2.51%,且持续优于强FFT和PEFT基线。它在LIBERO-Plus上实现了81.2%的平均零样本成功率,在多模态理解基准上保持与LoRA相当的预训练VLM能力,并在多种分布偏移下提升了真实世界操作成功率。代码已开源:https://github.com/YuhuaJiang2002/VLA-GSE

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在适应机器人控制时面临挑战:全微调(FFT)容易对下游数据过拟合,并导致预训练视觉-语言知识的灾难性遗忘 - 参数高效微调(PEFT)能更好地保留预训练知识,但现有PEFT方法仍难以有效适应机器人控制任务,适应能力不足
🔧 核心方法
- 提出**VLA-GSE(通用与专用专家)** 框架,通过对冻结主干进行**频谱分解(spectral decomposition)**,将主导奇异分量分配给**通用专家(shared experts)**,将不相交的残差分量分配给**专用专家(routed experts)** - 在固定可训练参数预算下,仅更新全模型参数的**2.51%**,通过专家混合(Mixture-of-Experts)结构提升适应容量
💡 核心创新
- **首创性**:首次将**频谱分解(spectral decomposition)** 与**专家混合(Mixture-of-Experts)** 融合用于VLA参数高效微调,通过奇异值分配区分共享与路由专家 - **效率与性能兼得**:在极低参数更新比例(2.51%)下,零样本成功率高达**81.2%**,优于全微调和现有PEFT方法,且保持与LoRA相当的多模态理解能力
🏆 总体贡献
- 为**VLA模型参数高效微调** 提供了一种新颖框架,有效解决了适应性与知识保留之间的权衡 - 在**LIBERO-Plus** 零样本场景和真实世界多种分布偏移操作中取得领先性能,并开源代码促进社区复现与后续研究