- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在适应新任务时面临**数据效率低** 和**泛化能力差** 的问题
- 根本原因在于当前范式采用**直接指令到控制映射(Direct Instruction-to-Control Mapping)**,迫使模型记忆整体轨迹而非可复用的运动模式
- 研究背景:通用机器人策略(generalist robotic policies)需要高效适应不同场景,但现有方法在数据利用和泛化上存在瓶颈
- 提出**原始中心式拆解与组装(Primitive-Centric Disassemble & Assemble)** 范式,将任务拆解为可复用的运动原语(motion primitives)
- 构建**多模态标准表征(Multimodal Canonical Representation, MCR)**,统一两个阶段:微调阶段的**自动拆解(Disassembly)** 流水线,将演示数据分解为原语;推理阶段的**组装(Assembly)**,使用**视觉-语言模型(VLM)规划器** 和**大语言模型(LLM)生成的切换模块** 实现鲁棒的闭环执行
- 通过解耦任务为可复用原语,使VLA模型学习不变的运动模式而非特定任务的轨迹
- **范式转变**:从直接指令到控制映射转变为原语中心的拆解与组装,首次将运动原语作为核心构建块引入VLA框架
- **自动化分解**:提出无需人工标注的自动拆解流水线,从演示中提取可复用的运动原语
- **闭环组装机制**:结合VLM规划器与LLM生成的切换模块,实现零样本(zero-shot)泛化到未见和长时程(long-horizon)任务
- **共享多模态标准表征(MCR)**:统一不同阶段的原语表示,提升跨任务复用效率
- 为**机器人操作(robotic manipulation)** 领域提供了一种高效且可泛化的新范式,显著提升VLA模型的**数据效率(data efficiency)**
- 在未见任务和长时程任务上实现优越的**零样本泛化(zero-shot generalization)** 性能
- 提出自动化原语分解与组装框架,降低了VLA模型适应新任务的门槛
- 验证了运动原语在视觉-语言-动作模型中作为可复用基础组件的有效性,为后续研究奠定基础