← 返回论文列表

PokeVLA:赋予口袋级视觉-语言-动作模型全面世界知识引导
PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

作者: Yupeng Zheng, Xiang Li, Songen Gu 等15人
arXiv: 2604.20834v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型的最新进展为机器人操作开辟了新途径,但现有方法存在效率有限、缺乏高层知识和空间感知能力的问题。为应对这些挑战,我们提出PokeVLA——一个轻量级但功能强大的具身操作基础模型,能有效将视觉-语言理解融入动作学习。该框架采用两阶段训练范式:首先,我们在包含240万样本的精选多模态数据集上预训练紧凑型视觉-语言模型(PokeVLM),数据集涵盖空间定位、功能推理和具身推理任务;其次,通过多视角目标感知语义学习、几何对齐及创新的动作专家模块,将操作相关表征注入动作空间。大量实验表明,该方法在LIBERO-Plus基准测试和实际部署中均达到最先进性能,在不同扰动条件下的成功率和鲁棒性均超越同类基线。为促进可复现性与社区发展,我们将开源代码、模型权重及精选预训练数据集的构建脚本。项目主页:https://getterupper.github.io/PokeVLA

📊 核心分析

🎯 研究动机
该论文旨在解决现有视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作任务中存在的两个关键问题: • 效率有限,模型通常较为庞大。 • 缺乏高层次的世界知识(如空间感知、功能可供性)指导,限制了其在复杂环境中的理解和操作能力。
🔧 核心方法
论文提出了一个名为PokeVLA的轻量级基础模型框架,采用两阶段训练范式: 1. **预训练阶段**:首先,在一个精心策划的包含240万样本的多模态数据集上,预训练一个紧凑的视觉-语言模型(PokeVLM)。该数据集专门设计用于学习空间基础(spatial grounding)、功能可供性(affordance)和具身推理(embodied reasoning)任务。 2. **动作注入阶段**:然后,通过多视角目标感知语义学习(multi-view goal-aware semantics learning)、几何对齐(geometry alignment)以及一个新颖的动作专家(action expert)模块,将操作相关的表征注入到动作空间中,从而将视觉-语言理解能力与动作学习有效融合。
💡 核心创新
论文的核心创新点在于: • **创新的两阶段训练范式**:将视觉-语言理解与动作学习解耦并分阶段进行,先通过专门的多模态数据集构建具备全面世界知识(空间、功能、推理)的轻量级视觉-语言模型,再将其知识高效注入动作策略。 • **精心策划的预训练数据集与任务**:构建了一个大规模、任务导向的多模态数据集,专门用于训练模型掌握机器人操作所需的核心世界知识(空间基础、功能可供性、具身推理),这是现有工作所缺乏的。 • **高效的知识注入机制**:通过多视角目标感知语义学习、几何对齐和专门的动作专家模块,实现了从高层次知识到低层次动作策略的有效、轻量化迁移,从而构建出“口袋尺寸”的高性能VLA模型。
🏆 总体贡献
论文对该领域的整体贡献包括: • **提出了一个高性能的轻量级VLA模型(PokeVLA)**:在保持模型紧凑(口袋尺寸)的同时,通过注入全面的世界知识,在LIBERO-Plus基准测试和真实世界部署中实现了最先进的性能,在成功率和抗干扰鲁棒性上均优于可比基线。 • **提供了新的模型构建方法论**:展示了一种通过分阶段训练和专门知识注入来构建高效、知识丰富的具身智能模型的有效路径。 • **推动社区发展**:承诺开源代码、模型权重以及精心策划的预训练数据集脚本,这将极大促进该领域的可复现性和后续研究。