MotuBrain：一种用于机器人控制的先进世界行动模型

📝 论文摘要

视觉-语言-动作（VLA）模型实现了强大的语义泛化，但通常缺乏对世界动力学的细粒度建模。近期研究探索将视频生成模型作为世界建模的基础，进而催生了统一的世界动作模型（WAM），该模型联合建模视觉动力学与动作。我们提出MotuBrain，一个统一的多模态生成模型，其在UniDiffuser框架下采用三流混合变换器架构联合建模视频与动作。单个模型支持多种推理模式，包括策略学习、世界建模、视频生成、逆动力学以及联合视频-动作预测，同时能够扩展到异构多模态数据，如纯视频数据和跨实体机器人数据。为提升现实世界适用性，MotuBrain引入了统一的多视角表征、显式语言-动作耦合以及高效推理栈，实现了实时部署的50倍以上加速。

🎯 研究动机

- 现有**视觉-语言-动作(VLA)** 模型具备强语义泛化能力，但对**世界动力学(world dynamics)** 的细粒度建模不足 - 近期工作尝试利用视频生成模型作为世界模型基础，但缺乏统一的**世界动作模型(World Action Model, WAM)** 来同时建模视觉动态与动作 - 研究背景：机器人控制需要同时理解环境变化（视频）并生成精确动作，现有方法在异构数据（如仅视频数据、跨本体数据）和实时部署方面存在瓶颈

🔧 核心方法

- 提出**MotuBrain**，基于**UniDiffuser** 公式构建统一的多模态生成模型，采用**三流混合变换器(three-stream Mixture-of-Transformers)** 架构联合建模视频与动作 - 支持多种推理模式：**策略学习(policy learning)**、**世界建模(world modeling)**、**视频生成(video generation)**、**逆动力学(inverse dynamics)** 及**联合视频-动作预测(joint video-action prediction)** - 引入**统一多视角表示(unified multiview representation)** 和**显式语言-动作耦合(explicit language-action coupling)**，并设计**高效推理栈(efficient inference stack)** 实现超过50倍速度提升，适用于实时部署

💡 核心创新

- **架构创新**：首次将**三流混合变换器(three-stream Mixture-of-Transformers)** 与**UniDiffuser** 公式结合，实现视频与动作的联合生成式建模 - **多模态统一性**：单一模型兼容仅视频数据、跨本体机器人数据等异构输入，无需针对不同数据类型设计独立模块 - **推理效率突破**：通过**高效推理栈** 和**统一多视角表示**，在保持性能的同时实现**50倍以上速度提升**，使模型可用于实时机器人控制 - **耦合机制**：**显式语言-动作耦合** 增强了语义与动作的关联，解决了传统VLA模型中语义与物理动态脱节的问题

🏆 总体贡献

- 为机器人控制领域提供了**统一的世界动作模型(World Action Model)** 范式，将视频生成与动作预测集成于单个生成式框架 - 通过**多模态异构数据扩展** 能力，显著降低了机器人策略学习对昂贵动作标签的依赖，支持利用大规模无动作视频数据 - 在**实时部署** 方面取得了实质性进展，加速比超过50倍，推动了**具身智能(embodied intelligence)** 从仿真到真实世界的落地 - 为未来研究提供了**开源可用** 的高效基础模型，促进**仿真到现实(Sim-to-Real)** 迁移与跨本体机器人技能泛化

MotuBrain：一种用于机器人控制的先进世界行动模型
MotuBrain: An Advanced World Action Model for Robot Control

📊 核心分析

MotuBrain：一种用于机器人控制的先进世界行动模型 MotuBrain: An Advanced World Action Model for Robot Control

📊 核心分析

MotuBrain：一种用于机器人控制的先进世界行动模型
MotuBrain: An Advanced World Action Model for Robot Control