← 返回论文列表

PriorVLA: 保持先验的视觉-语言-动作模型适应方法
PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models

作者: Xinyu Guo, Bin Xie, Wei Chai 等7人
arXiv: 2605.10925v1
分类: cs.RO
📝 论文摘要
大规模预训练使视觉-语言-动作(VLA)模型成为通用机器人操作的有前景基础,然而将其适配到下游任务仍然必要。但常见的全微调做法将预训练视为初始化,可能将广泛的先验知识偏移至狭窄的训练分布模式。我们提出PriorVLA——一种保留预训练先验知识并学习利用其进行有效适配的新框架。PriorVLA将预训练的先验专家(Prior Expert)作为只读先验源保持冻结,并训练一个适配专家(Adaptation Expert)用于下游专门化。专家查询(Expert Queries)从预训练VLM中捕获场景先验,并从先验专家中捕获运动先验,将两者整合到适配专家中以指导适配。综上,PriorVLA仅更新全微调参数量的25%。在RoboTwin 2.0、LIBERO及真实世界任务中,PriorVLA相比全微调和最先进的VLA基线取得了更强的整体性能,在分布外(OOD)和少样本场景下提升最为显著。PriorVLA在RoboTwin 2.0-Hard上相较pi0.5提升11个百分点,并在LIBERO上达到99.1%的平均成功率。在八项真实世界任务和两种机器人本体上,PriorVLA使用标准数据达到81%分布内(ID)和57% OOD成功率。每任务仅用10条演示时,PriorVLA达到48% ID和32% OOD成功率,分别超越pi0.5达24和22个百分点。

📊 核心分析

🎯 研究动机
- 大规模预训练的**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在通用机器人操作中展现了潜力,但将其适应下游任务时,常见的**全微调(full fine-tuning)** 会将预训练视为初始化,导致广泛先验向狭窄训练分布偏移 - 现有方法在**分布外(Out-of-Distribution, OOD)** 和**少样本(few-shot)** 场景下性能显著下降,亟需一种既能保留预训练先验又能有效适应下游任务的方案 - 全微调需要更新全部参数,效率低下且容易遗忘预训练中学到的通用知识
🔧 核心方法
- 提出**PriorVLA** 框架,包含一个冻结的**先验专家(Prior Expert)** 作为只读先验源和一个可训练的**适应专家(Adaptation Expert)** 用于下游专门化 - 通过**专家查询(Expert Queries)** 机制,从预训练的**视觉语言模型(Visual Language Model, VLM)** 中捕获场景先验,从先验专家中捕获运动先验,并将两者整合到适应专家中指导适应过程 - 仅更新全微调**25%** 的参数,保持大部分预训练权重不变,实现高效适应
💡 核心创新
- **先验保持范式**:不同于全微调破坏先验,PriorVLA通过冻结先验专家并设计查询机制,主动保留并利用预训练中丰富的**场景先验(scene priors)** 和**运动先验(motor priors)** - **轻量高效适应**:仅更新25%参数即可实现优于全微调的性能,在**分布外(OOD)** 和**少样本(few-shot)** 场景下优势尤为显著 - **双先验融合**:将来自VLM的场景先验与来自Prior Expert的运动先验通过Expert Queries动态融合,实现更有效的下游任务适应,且不增加推理复杂度
🏆 总体贡献
- 为**视觉-语言-动作(VLA)** 模型的适应提供了一种新颖的**先验保持(prior-preserving)** 框架,避免了灾难性遗忘,推动了通用机器人操作的实用化 - 在多个基准和真实世界任务上达到**最先进(SOTA)** 性能:在RoboTwin 2.0-Hard上改进pi0.5 **11个点**,在LIBERO上平均成功率**99.1%** - 在**分布外(OOD)** 和**少样本(few-shot)** 设置下展现出强大泛化能力:仅用10个演示即可在真实任务上达到48% ID和32% OOD成功率,超越pi0.5达24和22个点