- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在适应机器人控制时面临挑战:全微调(FFT)容易对下游数据过拟合,并导致预训练视觉-语言知识的灾难性遗忘
- 参数高效微调(PEFT)能更好地保留预训练知识,但现有PEFT方法仍难以有效适应机器人控制任务,适应能力不足
- 提出**VLA-GSE(通用与专用专家)** 框架,通过对冻结主干进行**频谱分解(spectral decomposition)**,将主导奇异分量分配给**通用专家(shared experts)**,将不相交的残差分量分配给**专用专家(routed experts)**
- 在固定可训练参数预算下,仅更新全模型参数的**2.51%**,通过专家混合(Mixture-of-Experts)结构提升适应容量
- **首创性**:首次将**频谱分解(spectral decomposition)** 与**专家混合(Mixture-of-Experts)** 融合用于VLA参数高效微调,通过奇异值分配区分共享与路由专家
- **效率与性能兼得**:在极低参数更新比例(2.51%)下,零样本成功率高达**81.2%**,优于全微调和现有PEFT方法,且保持与LoRA相当的多模态理解能力
- 为**VLA模型参数高效微调** 提供了一种新颖框架,有效解决了适应性与知识保留之间的权衡
- 在**LIBERO-Plus** 零样本场景和真实世界多种分布偏移操作中取得领先性能,并开源代码促进社区复现与后续研究