WALL-WM：在事件关节处刻画世界动作建模

📝 论文摘要

WALL-WM是一种世界动作模型，它将视频-动作学习从以片段为中心的优化转向事件驱动的视觉-语言-动作预训练，采用语义连贯的动作事件作为学习的基本单元。现有世界动作模型通常从多模态或视频基础模型初始化，然后基于当前观察和指令直接优化固定长度的动作片段。尽管这种方法便捷，但以片段为中心的设计导致根本性的粒度不匹配：语言描述语义目标和事件，视觉通过连续场景动态演变，而动作则在控制级时间尺度上运行；将三者强行纳入同一固定长度预测窗口，会使视觉-语言-动作训练退化为短视的相关性拟合。WALL-WM通过围绕语义事件组织监督信号和数据来解决这一不匹配问题。具体而言，它将事件驱动的视觉-语言-动作预训练与基于事件级描述和聚类平衡采样构建的数据生态系统相结合，实现在多样化行为、场景和任务结构上的可扩展学习。基于同一事件预训练主干，WALL-WM支持两种互补推理模式：事件模式接收下一事件描述并实现变长执行片段；统一模式采用配备阶梯式解码的视觉语言模型，在保持梯度连续视觉-语言-动作路径的同时，约束传统固定长度片段推理。结合基于Muon优化器的大规模预训练基础设施，WALL-WM为通用世界动作模型提供了实用的规模化训练方案。实验表明，WALL-WM在语言、场景和任务上具有广泛泛化能力，在大规模真实世界泛化评估中达到最先进性能。

🎯 研究动机

- 现有世界动作模型(WAM)采用固定长度动作块优化，导致**粒度不匹配(granularity mismatch)**：语言描述语义目标，视觉演变连续，动作在控制尺度，三者被强制纳入相同预测窗口，使**视觉-语言-动作(VLA)** 训练退化为短视相关性拟合 - 需要一种以**语义事件(semantic events)** 为基本单元的方法，统一不同模态的时间尺度，实现可扩展的通用世界动作建模 - 研究背景：当前**视觉-语言-动作模型(Vision-Language-Action Models, VLAs)** 普遍从多模态或视频基础模型初始化，缺乏对事件语义的显式建模

🔧 核心方法

- 提出**WALL-WM** 框架，将视频-动作学习从**以块为中心(chunk-centric)** 优化转变为**事件为基底(event-grounded)** 的**视觉-语言-动作(Vision-Language-Action, VLA)** 预训练，使用**语义一致的动作事件(semantically coherent action events)** 作为原子学习单元 - 构建数据生态系统：采用**事件级标题(event-level captions)** 和**聚类平衡采样(cluster-balanced sampling)**，实现跨多样化行为、场景和任务结构的可扩展学习 - 支持两种互补推理模式：**事件模式(event mode)** 消费下一个事件描述并执行**可变长度执行块(variable-length execution chunks)**；**统一模式(unified mode)** 使用**视觉语言模型(VLM)** 配合**阶梯式解码(Staircase Decoding)** 调节传统固定长度块推理，同时保持**梯度连续VLA路径(gradient-continuous VLA path)** - 集成**Muon优化器(Muon optimizer)** 的大规模预训练基础设施，提供实用扩展配方

💡 核心创新

- **首创性**：首次以**语义事件(semantic events)** 作为原子学习单元，替代固定长度块，从根本上解决模态间粒度不匹配问题 - **双推理模式设计**：从同一事件预训练骨干出发，同时支持**可变长度事件推理** 和**兼容固定长度的统一推理**，兼顾灵活性与实际部署需求 - **阶梯式解码(Staircase Decoding)**：在统一模式下利用VLM调节固定长度块推理，同时保持梯度连续的VLA路径，避免离散化损失 - **数据生态系统创新**：结合**事件级标题** 与**聚类平衡采样**，实现跨行为、场景和任务结构的可扩展学习，突破传统块级数据瓶颈

🏆 总体贡献

- 为**世界动作模型(World Action Model, WAM)** 领域提供了一种以事件为基底的预训练范式，有效解决了**粒度不匹配(granularity mismatch)** 问题 - 在大规模真实世界泛化评估中达到**最先进性能(state-of-the-art, SOTA)**，证明在语言、场景和任务上的广泛泛化能力 - 提供了基于**Muon优化器** 的实用规模化训练配方，促进通用WAM的工业级部署 - 构建了包含事件级标题和聚类平衡采样的数据生态系统，为后续VLA预训练研究奠定基础

WALL-WM：在事件关节处刻画世界动作建模
WALL-WM: Carving World Action Modeling at the Event Joints

📊 核心分析

WALL-WM：在事件关节处刻画世界动作建模 WALL-WM: Carving World Action Modeling at the Event Joints

📊 核心分析

WALL-WM：在事件关节处刻画世界动作建模
WALL-WM: Carving World Action Modeling at the Event Joints