← 返回论文列表

$M^2$-VLA:通过层混合和元技能提升视觉语言模型以实现可泛化的操作
$M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

作者: Siyao Xiao, Yuhong Zhang, Zhifang Liu 等12人
arXiv: 2604.24182v1
分类: cs.RO
📝 论文摘要
当前的视觉-语言-动作(VLA)模型主要依赖端到端微调。尽管有效,但这种范式损害了视觉-语言模型(VLM)固有的泛化能力,并导致灾难性遗忘。为克服这些局限,我们提出$M^2$-VLA,证明一个泛化的VLM能够直接作为机器人操作的强大骨干网络。然而,弥合VLM高层语义理解与机器人控制精确需求之间的差距仍是一大关键挑战。为此,我们引入层混合策略(MoL),从稠密语义特征中选择性提取任务关键信息。此外,为在有限模型容量下实现高效轨迹学习,我们提出元技能模块(MSM),集成强归纳偏置。在仿真和真实环境中的大量实验验证了方法的有效性。进一步,泛化与消融研究证明了架构的零样本能力,并确认了各关键组件的贡献。我们的代码与预训练模型将公开发布。

📊 核心分析

🎯 研究动机
- 当前**视觉-语言-动作(Vision-Language-Action, VLA)**模型依赖端到端微调,这会损害**视觉-语言模型(Vision-Language Model, VLM)**的固有泛化能力,并引发**灾难性遗忘(catastrophic forgetting)** - 存在关键挑战:如何弥合VLM的高层语义理解与机器人控制的精确需求之间的鸿沟,使泛化VLM直接作为机器人操作骨干
🔧 核心方法
- 提出**M²-VLA**框架,利用泛化VLM作为强大的机器人操作骨干,而非进行端到端微调 - 引入**混合层(Mixture of Layers, MoL)**策略,从密集语义特征中选择性提取任务关键信息 - 设计**元技能模块(Meta Skill Module, MSM)**,集成强**归纳偏置(inductive bias)**以在有限模型容量下促进高效轨迹学习
💡 核心创新
- **范式转变**:首次论证一个已具备泛化能力的VLM可以直接作为机器人操作骨干,避免传统微调带来的性能退化 - **MoL策略**:创新性地通过混合不同层的信息来筛选与任务相关的语义特征,而非固定地使用最后一层 - **MSM模块**:通过元技能(即强归纳偏置)将高层语义拆解为可重复利用的原子技能,实现样本高效和泛化性
🏆 总体贡献
- 提出**M²-VLA**框架,解决了VLA模型因端到端微调导致的泛化损失和遗忘问题,为机器人操作提供了一个新范式 - 在模拟和真实环境实验中验证了有效性,并通过消融研究确认了每个组件的贡献,展示了**零样本(zero-shot)**泛化能力 - 公开代码和预训练模型,促进社区复现和后续研究