- 现有世界动作模型(WAM)采用固定长度动作块优化,导致**粒度不匹配(granularity mismatch)**:语言描述语义目标,视觉演变连续,动作在控制尺度,三者被强制纳入相同预测窗口,使**视觉-语言-动作(VLA)** 训练退化为短视相关性拟合
- 需要一种以**语义事件(semantic events)** 为基本单元的方法,统一不同模态的时间尺度,实现可扩展的通用世界动作建模
- 研究背景:当前**视觉-语言-动作模型(Vision-Language-Action Models, VLAs)** 普遍从多模态或视频基础模型初始化,缺乏对事件语义的显式建模
- 提出**WALL-WM** 框架,将视频-动作学习从**以块为中心(chunk-centric)** 优化转变为**事件为基底(event-grounded)** 的**视觉-语言-动作(Vision-Language-Action, VLA)** 预训练,使用**语义一致的动作事件(semantically coherent action events)** 作为原子学习单元
- 构建数据生态系统:采用**事件级标题(event-level captions)** 和**聚类平衡采样(cluster-balanced sampling)**,实现跨多样化行为、场景和任务结构的可扩展学习
- 支持两种互补推理模式:**事件模式(event mode)** 消费下一个事件描述并执行**可变长度执行块(variable-length execution chunks)**;**统一模式(unified mode)** 使用**视觉语言模型(VLM)** 配合**阶梯式解码(Staircase Decoding)** 调节传统固定长度块推理,同时保持**梯度连续VLA路径(gradient-continuous VLA path)**
- 集成**Muon优化器(Muon optimizer)** 的大规模预训练基础设施,提供实用扩展配方
- **首创性**:首次以**语义事件(semantic events)** 作为原子学习单元,替代固定长度块,从根本上解决模态间粒度不匹配问题
- **双推理模式设计**:从同一事件预训练骨干出发,同时支持**可变长度事件推理** 和**兼容固定长度的统一推理**,兼顾灵活性与实际部署需求
- **阶梯式解码(Staircase Decoding)**:在统一模式下利用VLM调节固定长度块推理,同时保持梯度连续的VLA路径,避免离散化损失
- **数据生态系统创新**:结合**事件级标题** 与**聚类平衡采样**,实现跨行为、场景和任务结构的可扩展学习,突破传统块级数据瓶颈
- 为**世界动作模型(World Action Model, WAM)** 领域提供了一种以事件为基底的预训练范式,有效解决了**粒度不匹配(granularity mismatch)** 问题
- 在大规模真实世界泛化评估中达到**最先进性能(state-of-the-art, SOTA)**,证明在语言、场景和任务上的广泛泛化能力
- 提供了基于**Muon优化器** 的实用规模化训练配方,促进通用WAM的工业级部署
- 构建了包含事件级标题和聚类平衡采样的数据生态系统,为后续VLA预训练研究奠定基础