$M^2$-VLA：通过层混合和元技能提升视觉语言模型以实现可泛化的操作

📝 论文摘要

当前的视觉-语言-动作（VLA）模型主要依赖端到端微调。尽管有效，但这种范式损害了视觉-语言模型（VLM）固有的泛化能力，并导致灾难性遗忘。为克服这些局限，我们提出$M^2$-VLA，证明一个泛化的VLM能够直接作为机器人操作的强大骨干网络。然而，弥合VLM高层语义理解与机器人控制精确需求之间的差距仍是一大关键挑战。为此，我们引入层混合策略（MoL），从稠密语义特征中选择性提取任务关键信息。此外，为在有限模型容量下实现高效轨迹学习，我们提出元技能模块（MSM），集成强归纳偏置。在仿真和真实环境中的大量实验验证了方法的有效性。进一步，泛化与消融研究证明了架构的零样本能力，并确认了各关键组件的贡献。我们的代码与预训练模型将公开发布。

🎯 研究动机

- 当前**视觉-语言-动作(Vision-Language-Action, VLA)**模型依赖端到端微调，这会损害**视觉-语言模型(Vision-Language Model, VLM)**的固有泛化能力，并引发**灾难性遗忘(catastrophic forgetting)** - 存在关键挑战：如何弥合VLM的高层语义理解与机器人控制的精确需求之间的鸿沟，使泛化VLM直接作为机器人操作骨干

🔧 核心方法

- 提出**M²-VLA**框架，利用泛化VLM作为强大的机器人操作骨干，而非进行端到端微调 - 引入**混合层(Mixture of Layers, MoL)**策略，从密集语义特征中选择性提取任务关键信息 - 设计**元技能模块(Meta Skill Module, MSM)**，集成强**归纳偏置(inductive bias)**以在有限模型容量下促进高效轨迹学习

💡 核心创新

- **范式转变**：首次论证一个已具备泛化能力的VLM可以直接作为机器人操作骨干，避免传统微调带来的性能退化 - **MoL策略**：创新性地通过混合不同层的信息来筛选与任务相关的语义特征，而非固定地使用最后一层 - **MSM模块**：通过元技能（即强归纳偏置）将高层语义拆解为可重复利用的原子技能，实现样本高效和泛化性

🏆 总体贡献

- 提出**M²-VLA**框架，解决了VLA模型因端到端微调导致的泛化损失和遗忘问题，为机器人操作提供了一个新范式 - 在模拟和真实环境实验中验证了有效性，并通过消融研究确认了每个组件的贡献，展示了**零样本(zero-shot)**泛化能力 - 公开代码和预训练模型，促进社区复现和后续研究

$M^2$-VLA：通过层混合和元技能提升视觉语言模型以实现可泛化的操作
$M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

📊 核心分析

$M^2$-VLA：通过层混合和元技能提升视觉语言模型以实现可泛化的操作 $M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills

📊 核心分析

$M^2$-VLA：通过层混合和元技能提升视觉语言模型以实现可泛化的操作
$M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills