MolmoAct2：面向实际部署的行动推理模型

📝 论文摘要

视觉-语言-动作（VLA）模型旨在为机器人提供单一通用控制器，但当前系统在现实部署所需的关键标准上仍存在不足。前沿模型封闭，开源权重替代方案受限于昂贵硬件，推理增强策略因定位能力而面临高昂延迟，微调成功率仍低于可靠使用的阈值。我们提出MolmoAct2，一个为实际部署构建的完全开放式动作推理模型，沿五个维度推进其前身。我们引入MolmoER，一个专为空间和具身推理优化的VLM骨干网络，基于330万样本语料库，采用“先专业化后演练”的训练方案。我们发布三个涵盖低至中等成本平台的新数据集，其中包括MolmoAct2-BimanualYAM——720小时遥操作双臂轨迹数据集，为迄今最大的开放双臂数据集，以及经质量筛选的Franka（DROID）和SO100/101子集。我们提供OpenFAST，一个开放权重、开放数据的动作分词器，基于五种具身形态的数百万轨迹训练而成。我们重新设计架构，通过逐层KV缓存条件化，将流匹配连续动作专家嫁接至离散标记VLM之上。最后，我们提出MolmoThink，一种自适应深度推理变体，仅重新预测时间步间场景变化区域的深度标记，以先前延迟的一小部分保留几何定位能力。在迄今为止任何开放VLA最广泛的实证研究中（涵盖7个仿真和真实世界基准），MolmoAct2优于Pi-05等强基线，而MolmoER在13个具身推理基准上超越GPT-5和Gemini Robotics ER-1.5。我们发布模型权重、训练代码及完整训练数据。项目页面：https://allenai.org/blog/molmoact2

🎯 研究动机

- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在真实部署中面临多重缺陷：前沿模型封闭、开源模型依赖昂贵硬件、推理增强策略延迟过高、微调成功率低于可靠使用阈值 - 缺乏一个**完全开源** 且能在**低成本平台** 上实际部署的动作推理模型 - 研究背景：机器人通用控制需要单一大模型，但当前系统无法同时满足开放性、硬件兼容性、低延迟和高成功率的需求

🔧 核心方法

- 提出**MolmoAct2** 模型，沿五个维度改进：新的**视觉-语言模型(VLM)** 主干、三个新数据集、动作分词器、架构重设计、自适应深度推理变体 - 发布**MolmoER**，一个专为空间与具身推理训练的VLM主干，基于**3.3M样本** 的语料库，采用**专精-再演练(specialize-then-rehearse)** 训练策略 - 发布**OpenFAST**，一个开放权重、开放数据的动作分词器，在五个机器人形态的数百万条轨迹上训练 - 重新设计架构：在**离散分词VLM** 上嫁接一个**流匹配连续动作专家(flow-matching continuous-action expert)**，通过**逐层KV缓存条件(per-layer KV-cache conditioning)** 实现融合 - 提出**MolmoThink**，一种自适应深度推理变体，仅对**时间步间变化的场景区域** 重新预测深度标记，以极低延迟保持几何定位能力

💡 核心创新

- **完全开放**：模型权重、训练代码和完整训练数据全部开源，与现有封闭前沿模型形成对比 - **低成本部署友好**：发布跨**低中成本平台** （如SO100/101、Franka）的数据集，并设计高效推理变体降低延迟 - **新型架构融合**：首次将**流匹配连续动作专家** 与**离散分词VLM** 通过**KV缓存条件** 无缝结合，兼顾离散推理与连续动作生成 - **自适应深度推理**：**MolmoThink** 动态调整推理深度，仅处理变化区域，相比传统全图深度推理大幅减少计算开销

🏆 总体贡献

- 提供了当前**最全面的开源VLA实证研究**，覆盖7个模拟和真实世界基准，在多个场景超越**Pi-05** 等强基线 - **MolmoER** 在13个具身推理基准上超越**GPT-5** 和**Gemini Robotics ER-1.5**，证明了开源模型在空间推理上的竞争力 - 发布**MolmoAct2-BimanualYAM**——迄今最大开源双臂操作数据集（720小时遥操作轨迹），推动双臂机器人研究 - 开源全套资源（模型、代码、数据），为社区提供可复现的**低成本实际部署** 范本

MolmoAct2：面向实际部署的行动推理模型
MolmoAct2: Action Reasoning Models for Real-world Deployment

📊 核心分析

MolmoAct2：面向实际部署的行动推理模型 MolmoAct2: Action Reasoning Models for Real-world Deployment

📊 核心分析

MolmoAct2：面向实际部署的行动推理模型
MolmoAct2: Action Reasoning Models for Real-world Deployment