← 返回论文列表

PrimitiveVLA: 学习可复用的运动基元以实现高效且可泛化的机器人操作
PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation

作者: Yutai Li, Shaohui Peng, Jiaming Guo 等11人
arXiv: 2605.28634v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型为通用机器人策略提供了有前景的范式,但其适应性受限于数据效率低下和泛化能力不足。我们认为这些瓶颈源于当前主流的直接指令到控制映射范式,该范式迫使模型记忆整体轨迹而非可复用的运动模式(即基元)。为此,我们提出PrimitiveVLA框架,将范式转变为核心基元拆解-组装范式。该框架通过共享的多模态正则表示(MCR)统一两个阶段:(1)微调阶段拆解——利用自动化流水线将演示数据拆解为可复用基元;(2)推理阶段组装——采用基于VLM的规划器与LLM生成的切换模块实现鲁棒闭环执行。通过将任务拆解为可复用基元,PrimitiveVLA使VLA模型学习不变运动模式而非特定任务轨迹。大量实验表明,该框架提升了数据效率,并在未见任务及长时域任务中实现了优异的零样本泛化能力。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在适应新任务时面临**数据效率低** 和**泛化能力差** 的问题 - 根本原因在于当前范式采用**直接指令到控制映射(Direct Instruction-to-Control Mapping)**,迫使模型记忆整体轨迹而非可复用的运动模式 - 研究背景:通用机器人策略(generalist robotic policies)需要高效适应不同场景,但现有方法在数据利用和泛化上存在瓶颈
🔧 核心方法
- 提出**原始中心式拆解与组装(Primitive-Centric Disassemble & Assemble)** 范式,将任务拆解为可复用的运动原语(motion primitives) - 构建**多模态标准表征(Multimodal Canonical Representation, MCR)**,统一两个阶段:微调阶段的**自动拆解(Disassembly)** 流水线,将演示数据分解为原语;推理阶段的**组装(Assembly)**,使用**视觉-语言模型(VLM)规划器** 和**大语言模型(LLM)生成的切换模块** 实现鲁棒的闭环执行 - 通过解耦任务为可复用原语,使VLA模型学习不变的运动模式而非特定任务的轨迹
💡 核心创新
- **范式转变**:从直接指令到控制映射转变为原语中心的拆解与组装,首次将运动原语作为核心构建块引入VLA框架 - **自动化分解**:提出无需人工标注的自动拆解流水线,从演示中提取可复用的运动原语 - **闭环组装机制**:结合VLM规划器与LLM生成的切换模块,实现零样本(zero-shot)泛化到未见和长时程(long-horizon)任务 - **共享多模态标准表征(MCR)**:统一不同阶段的原语表示,提升跨任务复用效率
🏆 总体贡献
- 为**机器人操作(robotic manipulation)** 领域提供了一种高效且可泛化的新范式,显著提升VLA模型的**数据效率(data efficiency)** - 在未见任务和长时程任务上实现优越的**零样本泛化(zero-shot generalization)** 性能 - 提出自动化原语分解与组装框架,降低了VLA模型适应新任务的门槛 - 验证了运动原语在视觉-语言-动作模型中作为可复用基础组件的有效性,为后续研究奠定基础