基于视觉原语的动作 - Yuki N 的世界

📝 论文摘要

视觉-语言-动作（VLA）模型已成为通用机器人操作中一种有前景的范式。当前架构的常见设计是将语言指令和视觉观测通过单次前向传递映射为动作。尽管概念简单，但这种形式将指令理解、空间场景感知和运动控制纠缠在单一学习目标中。其结果是，动作专家必须隐式地重新学习预训练VLM中已具备的认知与感知能力，这可能限制学习效率与泛化能力。我们提出AVP（基于视觉基元的动作），这是一种端到端架构，实现了以视觉基元为中心的接口：VLM推断下一阶段目标并生成视觉基元标记，这些标记作为条件约束流匹配动作专家，监督信号来源于末端执行器运动学。在通用拾取放置任务的真实机器人实验中，AVP相比pi_0.5将成功率提升了27.61%，并优于其他近期方法，在数据效率、空间组合泛化及对象级迁移方面均表现出一致的增益。

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在单次前向传递中将语言指令和视觉观察直接映射为动作，导致**指令理解、空间场景理解和运动控制** 三者纠缠在同一学习目标中 - 动作专家必须隐式重新学习预训练VLM已有的**认知和感知能力**，限制了学习效率和泛化能力 - 研究背景：通用机器人操作领域需要更高效的解耦架构，避免认知-运动能力冗余学习

🔧 核心方法

- 提出**AVP(Action with Visual Primitives)** 端到端架构，实现**视觉原始中心接口(visual-primitive-centric interface)** - VLM先推断下一阶段目标并发射**视觉原始令牌(visual-primitive tokens)**，这些令牌作为条件输入到一个**流匹配动作专家(flow-matching action expert)** - 动作专家的监督信号来源于**末端执行器运动学(end-effector kinematics)**，实现从视觉原始到连续动作的生成

💡 核心创新

- **解耦认知与动作**：将VLM的认知能力（场景理解、任务推理）与动作生成分离，VLM只输出视觉原始令牌，动作专家专注于运动控制，避免冗余学习 - **视觉原始为中心(visual-primitive-centric)**：强制VLM通过显式的中间视觉表示（原始令牌）传递空间信息，提升可解释性与泛化性 - **流匹配(flow-matching)** 生成动作：采用流匹配生成连续动作，相比直接回归或离散化方式，更适应复杂运动分布

🏆 总体贡献

- 为**通用机器人操作** 领域提供了新颖的**认知-动作解耦范式**，显著提升数据效率和泛化能力 - 在通用拾取放置任务上，相比**pi_0.5** 方法提升**27.61%** 成功率，并在空间组合泛化、物体级迁移等场景中表现一致优势 - 为VLA模型设计提供了一个可复现的架构方向，有助于推动端到端机器人操作系统的实用化

基于视觉原语的动作
Action with Visual Primitives

📊 核心分析

基于视觉原语的动作 Action with Visual Primitives

📊 核心分析

基于视觉原语的动作
Action with Visual Primitives