← 返回论文列表

MolmoAct2:面向实际部署的行动推理模型
MolmoAct2: Action Reasoning Models for Real-world Deployment

作者: Haoquan Fang, Jiafei Duan, Donovan Clay 等29人
arXiv: 2605.02881v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型旨在为机器人提供单一通用控制器,但当前系统在现实部署所需的关键标准上仍存在不足。前沿模型封闭,开源权重替代方案受限于昂贵硬件,推理增强策略因定位能力而面临高昂延迟,微调成功率仍低于可靠使用的阈值。我们提出MolmoAct2,一个为实际部署构建的完全开放式动作推理模型,沿五个维度推进其前身。我们引入MolmoER,一个专为空间和具身推理优化的VLM骨干网络,基于330万样本语料库,采用“先专业化后演练”的训练方案。我们发布三个涵盖低至中等成本平台的新数据集,其中包括MolmoAct2-BimanualYAM——720小时遥操作双臂轨迹数据集,为迄今最大的开放双臂数据集,以及经质量筛选的Franka(DROID)和SO100/101子集。我们提供OpenFAST,一个开放权重、开放数据的动作分词器,基于五种具身形态的数百万轨迹训练而成。我们重新设计架构,通过逐层KV缓存条件化,将流匹配连续动作专家嫁接至离散标记VLM之上。最后,我们提出MolmoThink,一种自适应深度推理变体,仅重新预测时间步间场景变化区域的深度标记,以先前延迟的一小部分保留几何定位能力。在迄今为止任何开放VLA最广泛的实证研究中(涵盖7个仿真和真实世界基准),MolmoAct2优于Pi-05等强基线,而MolmoER在13个具身推理基准上超越GPT-5和Gemini Robotics ER-1.5。我们发布模型权重、训练代码及完整训练数据。项目页面:https://allenai.org/blog/molmoact2

📊 核心分析

🎯 研究动机
- 现有**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在真实部署中面临多重缺陷:前沿模型封闭、开源模型依赖昂贵硬件、推理增强策略延迟过高、微调成功率低于可靠使用阈值 - 缺乏一个**完全开源** 且能在**低成本平台** 上实际部署的动作推理模型 - 研究背景:机器人通用控制需要单一大模型,但当前系统无法同时满足开放性、硬件兼容性、低延迟和高成功率的需求
🔧 核心方法
- 提出**MolmoAct2** 模型,沿五个维度改进:新的**视觉-语言模型(VLM)** 主干、三个新数据集、动作分词器、架构重设计、自适应深度推理变体 - 发布**MolmoER**,一个专为空间与具身推理训练的VLM主干,基于**3.3M样本** 的语料库,采用**专精-再演练(specialize-then-rehearse)** 训练策略 - 发布**OpenFAST**,一个开放权重、开放数据的动作分词器,在五个机器人形态的数百万条轨迹上训练 - 重新设计架构:在**离散分词VLM** 上嫁接一个**流匹配连续动作专家(flow-matching continuous-action expert)**,通过**逐层KV缓存条件(per-layer KV-cache conditioning)** 实现融合 - 提出**MolmoThink**,一种自适应深度推理变体,仅对**时间步间变化的场景区域** 重新预测深度标记,以极低延迟保持几何定位能力
💡 核心创新
- **完全开放**:模型权重、训练代码和完整训练数据全部开源,与现有封闭前沿模型形成对比 - **低成本部署友好**:发布跨**低中成本平台** (如SO100/101、Franka)的数据集,并设计高效推理变体降低延迟 - **新型架构融合**:首次将**流匹配连续动作专家** 与**离散分词VLM** 通过**KV缓存条件** 无缝结合,兼顾离散推理与连续动作生成 - **自适应深度推理**:**MolmoThink** 动态调整推理深度,仅处理变化区域,相比传统全图深度推理大幅减少计算开销
🏆 总体贡献
- 提供了当前**最全面的开源VLA实证研究**,覆盖7个模拟和真实世界基准,在多个场景超越**Pi-05** 等强基线 - **MolmoER** 在13个具身推理基准上超越**GPT-5** 和**Gemini Robotics ER-1.5**,证明了开源模型在空间推理上的竞争力 - 发布**MolmoAct2-BimanualYAM**——迄今最大开源双臂操作数据集(720小时遥操作轨迹),推动双臂机器人研究 - 开源全套资源(模型、代码、数据),为社区提供可复现的**低成本实际部署** 范本