- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在单次前向传递中将语言指令和视觉观察直接映射为动作,导致**指令理解、空间场景理解和运动控制** 三者纠缠在同一学习目标中
- 动作专家必须隐式重新学习预训练VLM已有的**认知和感知能力**,限制了学习效率和泛化能力
- 研究背景:通用机器人操作领域需要更高效的解耦架构,避免认知-运动能力冗余学习
- 提出**AVP(Action with Visual Primitives)** 端到端架构,实现**视觉原始中心接口(visual-primitive-centric interface)**
- VLM先推断下一阶段目标并发射**视觉原始令牌(visual-primitive tokens)**,这些令牌作为条件输入到一个**流匹配动作专家(flow-matching action expert)**
- 动作专家的监督信号来源于**末端执行器运动学(end-effector kinematics)**,实现从视觉原始到连续动作的生成
- **解耦认知与动作**:将VLM的认知能力(场景理解、任务推理)与动作生成分离,VLM只输出视觉原始令牌,动作专家专注于运动控制,避免冗余学习
- **视觉原始为中心(visual-primitive-centric)**:强制VLM通过显式的中间视觉表示(原始令牌)传递空间信息,提升可解释性与泛化性
- **流匹配(flow-matching)** 生成动作:采用流匹配生成连续动作,相比直接回归或离散化方式,更适应复杂运动分布
- 为**通用机器人操作** 领域提供了新颖的**认知-动作解耦范式**,显著提升数据效率和泛化能力
- 在通用拾取放置任务上,相比**pi_0.5** 方法提升**27.61%** 成功率,并在空间组合泛化、物体级迁移等场景中表现一致优势
- 为VLA模型设计提供了一个可复现的架构方向,有助于推动端到端机器人操作系统的实用化