- 现有**世界-动作模型(world-action models)** 主要将视频生成视为**策略学习(policy learning)** 的辅助表示,未能充分利用**动作信号(action signals)** 引导视频合成
- 生成的**展开(rollouts)** 中难以保持精确的**机器人空间几何(robot spatial geometry)** 和**细粒度交互动态(fine-grained interaction dynamics)**
- 需要一种能够有效闭合**运动控制(kinematic control)** 与**视觉感知(visual perception)** 之间循环的生成式世界模型
- 提出**EA-WM(Event-Aware Generative World Model)**,将**动作(actions)** 和**运动状态(kinematic states)** 直接投影到目标相机视图,形成**结构化运动到视觉动作场(Structured Kinematic-to-Visual Action Fields)**
- 引入**事件感知双向融合块(event-aware bidirectional fusion blocks)**,通过调节**跨分支注意力(cross-branch attention)** 来捕捉**物体状态变化(object state changes)** 和**交互动态(interaction dynamics)**
- 基于预训练**视频扩散模型(video diffusion models)** 构建生成式世界模型,实现未来视频与动作的联合优化
- **表示创新**:区别于将动作注入为**抽象低维token(abstract low-dimensional tokens)**,首次将动作与运动状态几何地投影到**相机视图(camera view)** 形成**结构化动作场(structured action fields)**
- **双向协同**:引入**事件感知(event-aware)** 机制使视觉生成能够反向利用动作信息,实现**运动控制** 与**视觉感知** 的闭环融合
- **动态捕捉**:通过**双向融合块(bidirectional fusion blocks)** 跨分支调制注意力,精准保留**机器人-物体交互动态(robot-object interaction dynamics)**
- 为**机器人世界模型(robotic world models)** 提供了一种**事件感知生成范式(event-aware generative paradigm)**,有效提升了生成展开的**空间几何精度(spatial geometric accuracy)** 和**交互保真度(interaction fidelity)**
- 在**WorldArena** 基准上达到**最优性能(state-of-the-art)**,显著超越现有基线方法
- 提出的**结构化运动到视觉动作场** 和**事件感知双向融合** 为后续研究提供了新的表示与架构方向