- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在真实部署中面临多重缺陷:前沿模型封闭、开源模型依赖昂贵硬件、推理增强策略延迟过高、微调成功率低于可靠使用阈值
- 缺乏一个**完全开源** 且能在**低成本平台** 上实际部署的动作推理模型
- 研究背景:机器人通用控制需要单一大模型,但当前系统无法同时满足开放性、硬件兼容性、低延迟和高成功率的需求
- 提出**MolmoAct2** 模型,沿五个维度改进:新的**视觉-语言模型(VLM)** 主干、三个新数据集、动作分词器、架构重设计、自适应深度推理变体
- 发布**MolmoER**,一个专为空间与具身推理训练的VLM主干,基于**3.3M样本** 的语料库,采用**专精-再演练(specialize-then-rehearse)** 训练策略
- 发布**OpenFAST**,一个开放权重、开放数据的动作分词器,在五个机器人形态的数百万条轨迹上训练
- 重新设计架构:在**离散分词VLM** 上嫁接一个**流匹配连续动作专家(flow-matching continuous-action expert)**,通过**逐层KV缓存条件(per-layer KV-cache conditioning)** 实现融合
- 提出**MolmoThink**,一种自适应深度推理变体,仅对**时间步间变化的场景区域** 重新预测深度标记,以极低延迟保持几何定位能力
- **完全开放**:模型权重、训练代码和完整训练数据全部开源,与现有封闭前沿模型形成对比
- **低成本部署友好**:发布跨**低中成本平台** (如SO100/101、Franka)的数据集,并设计高效推理变体降低延迟
- **新型架构融合**:首次将**流匹配连续动作专家** 与**离散分词VLM** 通过**KV缓存条件** 无缝结合,兼顾离散推理与连续动作生成
- **自适应深度推理**:**MolmoThink** 动态调整推理深度,仅处理变化区域,相比传统全图深度推理大幅减少计算开销
- 提供了当前**最全面的开源VLA实证研究**,覆盖7个模拟和真实世界基准,在多个场景超越**Pi-05** 等强基线
- **MolmoER** 在13个具身推理基准上超越**GPT-5** 和**Gemini Robotics ER-1.5**,证明了开源模型在空间推理上的竞争力
- 发布**MolmoAct2-BimanualYAM**——迄今最大开源双臂操作数据集(720小时遥操作轨迹),推动双臂机器人研究
- 开源全套资源(模型、代码、数据),为社区提供可复现的**低成本实际部署** 范本