该论文旨在解决现有视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作任务中存在的两个关键问题:
• 效率有限,模型通常较为庞大。
• 缺乏高层次的世界知识(如空间感知、功能可供性)指导,限制了其在复杂环境中的理解和操作能力。
论文提出了一个名为PokeVLA的轻量级基础模型框架,采用两阶段训练范式:
1. **预训练阶段**:首先,在一个精心策划的包含240万样本的多模态数据集上,预训练一个紧凑的视觉-语言模型(PokeVLM)。该数据集专门设计用于学习空间基础(spatial grounding)、功能可供性(affordance)和具身推理(embodied reasoning)任务。
2. **动作注入阶段**:然后,通过多视角目标感知语义学习(multi-view goal-aware semantics learning)、几何对齐(geometry alignment)以及一个新颖的动作专家(action expert)模块,将操作相关的表征注入到动作空间中,从而将视觉-语言理解能力与动作学习有效融合。
论文的核心创新点在于:
• **创新的两阶段训练范式**:将视觉-语言理解与动作学习解耦并分阶段进行,先通过专门的多模态数据集构建具备全面世界知识(空间、功能、推理)的轻量级视觉-语言模型,再将其知识高效注入动作策略。
• **精心策划的预训练数据集与任务**:构建了一个大规模、任务导向的多模态数据集,专门用于训练模型掌握机器人操作所需的核心世界知识(空间基础、功能可供性、具身推理),这是现有工作所缺乏的。
• **高效的知识注入机制**:通过多视角目标感知语义学习、几何对齐和专门的动作专家模块,实现了从高层次知识到低层次动作策略的有效、轻量化迁移,从而构建出“口袋尺寸”的高性能VLA模型。
论文对该领域的整体贡献包括:
• **提出了一个高性能的轻量级VLA模型(PokeVLA)**:在保持模型紧凑(口袋尺寸)的同时,通过注入全面的世界知识,在LIBERO-Plus基准测试和真实世界部署中实现了最先进的性能,在成功率和抗干扰鲁棒性上均优于可比基线。
• **提供了新的模型构建方法论**:展示了一种通过分阶段训练和专门知识注入来构建高效、知识丰富的具身智能模型的有效路径。
• **推动社区发展**:承诺开源代码、模型权重以及精心策划的预训练数据集脚本,这将极大促进该领域的可复现性和后续研究。