- 当前**视觉-语言-动作(Vision-Language-Action, VLA)**模型依赖端到端微调,这会损害**视觉-语言模型(Vision-Language Model, VLM)**的固有泛化能力,并引发**灾难性遗忘(catastrophic forgetting)**
- 存在关键挑战:如何弥合VLM的高层语义理解与机器人控制的精确需求之间的鸿沟,使泛化VLM直接作为机器人操作骨干
- 提出**M²-VLA**框架,利用泛化VLM作为强大的机器人操作骨干,而非进行端到端微调
- 引入**混合层(Mixture of Layers, MoL)**策略,从密集语义特征中选择性提取任务关键信息
- 设计**元技能模块(Meta Skill Module, MSM)**,集成强**归纳偏置(inductive bias)**以在有限模型容量下促进高效轨迹学习
- **范式转变**:首次论证一个已具备泛化能力的VLM可以直接作为机器人操作骨干,避免传统微调带来的性能退化
- **MoL策略**:创新性地通过混合不同层的信息来筛选与任务相关的语义特征,而非固定地使用最后一层
- **MSM模块**:通过元技能(即强归纳偏置)将高层语义拆解为可重复利用的原子技能,实现样本高效和泛化性
- 提出**M²-VLA**框架,解决了VLA模型因端到端微调导致的泛化损失和遗忘问题,为机器人操作提供了一个新范式
- 在模拟和真实环境实验中验证了有效性,并通过消融研究确认了每个组件的贡献,展示了**零样本(zero-shot)**泛化能力
- 公开代码和预训练模型,促进社区复现和后续研究