PokeVLA：赋予口袋级视觉-语言-动作模型全面世界知识引导

📝 论文摘要

视觉-语言-动作（VLA）模型的最新进展为机器人操作开辟了新途径，但现有方法存在效率有限、缺乏高层知识和空间感知能力的问题。为应对这些挑战，我们提出PokeVLA——一个轻量级但功能强大的具身操作基础模型，能有效将视觉-语言理解融入动作学习。该框架采用两阶段训练范式：首先，我们在包含240万样本的精选多模态数据集上预训练紧凑型视觉-语言模型（PokeVLM），数据集涵盖空间定位、功能推理和具身推理任务；其次，通过多视角目标感知语义学习、几何对齐及创新的动作专家模块，将操作相关表征注入动作空间。大量实验表明，该方法在LIBERO-Plus基准测试和实际部署中均达到最先进性能，在不同扰动条件下的成功率和鲁棒性均超越同类基线。为促进可复现性与社区发展，我们将开源代码、模型权重及精选预训练数据集的构建脚本。项目主页：https://getterupper.github.io/PokeVLA

🎯 研究动机

该论文旨在解决现有视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人操作任务中存在的两个关键问题： • 效率有限，模型通常较为庞大。 • 缺乏高层次的世界知识（如空间感知、功能可供性）指导，限制了其在复杂环境中的理解和操作能力。

🔧 核心方法

论文提出了一个名为PokeVLA的轻量级基础模型框架，采用两阶段训练范式： 1. **预训练阶段**：首先，在一个精心策划的包含240万样本的多模态数据集上，预训练一个紧凑的视觉-语言模型(PokeVLM)。该数据集专门设计用于学习空间基础(spatial grounding)、功能可供性(affordance)和具身推理(embodied reasoning)任务。 2. **动作注入阶段**：然后，通过多视角目标感知语义学习(multi-view goal-aware semantics learning)、几何对齐(geometry alignment)以及一个新颖的动作专家(action expert)模块，将操作相关的表征注入到动作空间中，从而将视觉-语言理解能力与动作学习有效融合。

💡 核心创新

论文的核心创新点在于： • **创新的两阶段训练范式**：将视觉-语言理解与动作学习解耦并分阶段进行，先通过专门的多模态数据集构建具备全面世界知识（空间、功能、推理）的轻量级视觉-语言模型，再将其知识高效注入动作策略。 • **精心策划的预训练数据集与任务**：构建了一个大规模、任务导向的多模态数据集，专门用于训练模型掌握机器人操作所需的核心世界知识（空间基础、功能可供性、具身推理），这是现有工作所缺乏的。 • **高效的知识注入机制**：通过多视角目标感知语义学习、几何对齐和专门的动作专家模块，实现了从高层次知识到低层次动作策略的有效、轻量化迁移，从而构建出“口袋尺寸”的高性能VLA模型。

🏆 总体贡献

论文对该领域的整体贡献包括： • **提出了一个高性能的轻量级VLA模型(PokeVLA)**：在保持模型紧凑（口袋尺寸）的同时，通过注入全面的世界知识，在LIBERO-Plus基准测试和真实世界部署中实现了最先进的性能，在成功率和抗干扰鲁棒性上均优于可比基线。 • **提供了新的模型构建方法论**：展示了一种通过分阶段训练和专门知识注入来构建高效、知识丰富的具身智能模型的有效路径。 • **推动社区发展**：承诺开源代码、模型权重以及精心策划的预训练数据集脚本，这将极大促进该领域的可复现性和后续研究。

PokeVLA：赋予口袋级视觉-语言-动作模型全面世界知识引导
PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

📊 核心分析

PokeVLA：赋予口袋级视觉-语言-动作模型全面世界知识引导 PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance

📊 核心分析

PokeVLA：赋予口袋级视觉-语言-动作模型全面世界知识引导
PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance