PrimitiveVLA: 学习可复用的运动基元以实现高效且可泛化的机器人操作

📝 论文摘要

视觉-语言-动作（VLA）模型为通用机器人策略提供了有前景的范式，但其适应性受限于数据效率低下和泛化能力不足。我们认为这些瓶颈源于当前主流的直接指令到控制映射范式，该范式迫使模型记忆整体轨迹而非可复用的运动模式（即基元）。为此，我们提出PrimitiveVLA框架，将范式转变为核心基元拆解-组装范式。该框架通过共享的多模态正则表示（MCR）统一两个阶段：（1）微调阶段拆解——利用自动化流水线将演示数据拆解为可复用基元；（2）推理阶段组装——采用基于VLM的规划器与LLM生成的切换模块实现鲁棒闭环执行。通过将任务拆解为可复用基元，PrimitiveVLA使VLA模型学习不变运动模式而非特定任务轨迹。大量实验表明，该框架提升了数据效率，并在未见任务及长时域任务中实现了优异的零样本泛化能力。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在适应新任务时面临**数据效率低** 和**泛化能力差** 的问题 - 根本原因在于当前范式采用**直接指令到控制映射(Direct Instruction-to-Control Mapping)**，迫使模型记忆整体轨迹而非可复用的运动模式 - 研究背景：通用机器人策略（generalist robotic policies）需要高效适应不同场景，但现有方法在数据利用和泛化上存在瓶颈

🔧 核心方法

- 提出**原始中心式拆解与组装(Primitive-Centric Disassemble & Assemble)** 范式，将任务拆解为可复用的运动原语(motion primitives) - 构建**多模态标准表征(Multimodal Canonical Representation, MCR)**，统一两个阶段：微调阶段的**自动拆解(Disassembly)** 流水线，将演示数据分解为原语；推理阶段的**组装(Assembly)**，使用**视觉-语言模型(VLM)规划器** 和**大语言模型(LLM)生成的切换模块** 实现鲁棒的闭环执行 - 通过解耦任务为可复用原语，使VLA模型学习不变的运动模式而非特定任务的轨迹

💡 核心创新

- **范式转变**：从直接指令到控制映射转变为原语中心的拆解与组装，首次将运动原语作为核心构建块引入VLA框架 - **自动化分解**：提出无需人工标注的自动拆解流水线，从演示中提取可复用的运动原语 - **闭环组装机制**：结合VLM规划器与LLM生成的切换模块，实现零样本(zero-shot)泛化到未见和长时程(long-horizon)任务 - **共享多模态标准表征(MCR)**：统一不同阶段的原语表示，提升跨任务复用效率

🏆 总体贡献

- 为**机器人操作(robotic manipulation)** 领域提供了一种高效且可泛化的新范式，显著提升VLA模型的**数据效率(data efficiency)** - 在未见任务和长时程任务上实现优越的**零样本泛化(zero-shot generalization)** 性能 - 提出自动化原语分解与组装框架，降低了VLA模型适应新任务的门槛 - 验证了运动原语在视觉-语言-动作模型中作为可复用基础组件的有效性，为后续研究奠定基础

PrimitiveVLA: 学习可复用的运动基元以实现高效且可泛化的机器人操作
PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation

📊 核心分析

PrimitiveVLA: 学习可复用的运动基元以实现高效且可泛化的机器人操作 PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation

📊 核心分析

PrimitiveVLA: 学习可复用的运动基元以实现高效且可泛化的机器人操作
PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation