- 大规模预训练的**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在通用机器人操作中展现了潜力,但将其适应下游任务时,常见的**全微调(full fine-tuning)** 会将预训练视为初始化,导致广泛先验向狭窄训练分布偏移
- 现有方法在**分布外(Out-of-Distribution, OOD)** 和**少样本(few-shot)** 场景下性能显著下降,亟需一种既能保留预训练先验又能有效适应下游任务的方案
- 全微调需要更新全部参数,效率低下且容易遗忘预训练中学到的通用知识
- 提出**PriorVLA** 框架,包含一个冻结的**先验专家(Prior Expert)** 作为只读先验源和一个可训练的**适应专家(Adaptation Expert)** 用于下游专门化
- 通过**专家查询(Expert Queries)** 机制,从预训练的**视觉语言模型(Visual Language Model, VLM)** 中捕获场景先验,从先验专家中捕获运动先验,并将两者整合到适应专家中指导适应过程
- 仅更新全微调**25%** 的参数,保持大部分预训练权重不变,实现高效适应
- **先验保持范式**:不同于全微调破坏先验,PriorVLA通过冻结先验专家并设计查询机制,主动保留并利用预训练中丰富的**场景先验(scene priors)** 和**运动先验(motor priors)**
- **轻量高效适应**:仅更新25%参数即可实现优于全微调的性能,在**分布外(OOD)** 和**少样本(few-shot)** 场景下优势尤为显著
- **双先验融合**:将来自VLM的场景先验与来自Prior Expert的运动先验通过Expert Queries动态融合,实现更有效的下游任务适应,且不增加推理复杂度
- 为**视觉-语言-动作(VLA)** 模型的适应提供了一种新颖的**先验保持(prior-preserving)** 框架,避免了灾难性遗忘,推动了通用机器人操作的实用化
- 在多个基准和真实世界任务上达到**最先进(SOTA)** 性能:在RoboTwin 2.0-Hard上改进pi0.5 **11个点**,在LIBERO上平均成功率**99.1%**
- 在**分布外(OOD)** 和**少样本(few-shot)** 设置下展现出强大泛化能力:仅用10个演示即可在真实任务上达到48% ID和32% OOD成功率,超越pi0.5达24和22个点