- 现有**视觉-语言-动作(VLA)** 模型具备强语义泛化能力,但对**世界动力学(world dynamics)** 的细粒度建模不足
- 近期工作尝试利用视频生成模型作为世界模型基础,但缺乏统一的**世界动作模型(World Action Model, WAM)** 来同时建模视觉动态与动作
- 研究背景:机器人控制需要同时理解环境变化(视频)并生成精确动作,现有方法在异构数据(如仅视频数据、跨本体数据)和实时部署方面存在瓶颈
- 提出**MotuBrain**,基于**UniDiffuser** 公式构建统一的多模态生成模型,采用**三流混合变换器(three-stream Mixture-of-Transformers)** 架构联合建模视频与动作
- 支持多种推理模式:**策略学习(policy learning)**、**世界建模(world modeling)**、**视频生成(video generation)**、**逆动力学(inverse dynamics)** 及**联合视频-动作预测(joint video-action prediction)**
- 引入**统一多视角表示(unified multiview representation)** 和**显式语言-动作耦合(explicit language-action coupling)**,并设计**高效推理栈(efficient inference stack)** 实现超过50倍速度提升,适用于实时部署
- **架构创新**:首次将**三流混合变换器(three-stream Mixture-of-Transformers)** 与**UniDiffuser** 公式结合,实现视频与动作的联合生成式建模
- **多模态统一性**:单一模型兼容仅视频数据、跨本体机器人数据等异构输入,无需针对不同数据类型设计独立模块
- **推理效率突破**:通过**高效推理栈** 和**统一多视角表示**,在保持性能的同时实现**50倍以上速度提升**,使模型可用于实时机器人控制
- **耦合机制**:**显式语言-动作耦合** 增强了语义与动作的关联,解决了传统VLA模型中语义与物理动态脱节的问题
- 为机器人控制领域提供了**统一的世界动作模型(World Action Model)** 范式,将视频生成与动作预测集成于单个生成式框架
- 通过**多模态异构数据扩展** 能力,显著降低了机器人策略学习对昂贵动作标签的依赖,支持利用大规模无动作视频数据
- 在**实时部署** 方面取得了实质性进展,加速比超过50倍,推动了**具身智能(embodied intelligence)** 从仿真到真实世界的落地
- 为未来研究提供了**开源可用** 的高效基础模型,促进**仿真到现实(Sim-to-Real)** 迁移与跨本体机器人技能泛化