← 返回论文列表

EA-WM: 具有结构化运动到视觉行动场的事件感知生成世界模型
EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields

作者: Zhaoyang Yang, Yurun Jin, Lizhe Qi 等5人
arXiv: 2605.06192v1
分类: cs.CV, cs.AI, cs.RO
📝 论文摘要
预训练视频扩散模型提供了强大的时空生成先验,使其成为机器人世界模型的自然基础。尽管近期世界-动作模型联合优化未来视频与动作,但它们主要将视频生成视为策略学习的辅助表征。因此,这类模型未充分探索逆问题:利用动作信号引导视频合成,从而常在生成的展开轨迹中难以保留精确的机器人空间几何结构及细粒度的机器人-物体交互动态。为填补这一空白,我们提出EA-WM——一种事件感知生成式世界模型,有效实现了运动学控制与视觉感知之间的闭环。EA-WM并非将关节或末端执行器动作作为抽象的低维标记注入,而是将动作与运动学状态直接投影到目标相机视角中,形成结构化运动学-视觉动作场。为充分挖掘这一几何基元表征,我们引入事件感知双向融合模块来调节跨分支注意力,捕捉物体状态变化与交互动态。在全面的WorldArena基准测试上,EA-WM取得了最先进的性能,显著超越了现有基线方法。

📊 核心分析

🎯 研究动机
- 现有**世界-动作模型(world-action models)** 主要将视频生成视为**策略学习(policy learning)** 的辅助表示,未能充分利用**动作信号(action signals)** 引导视频合成 - 生成的**展开(rollouts)** 中难以保持精确的**机器人空间几何(robot spatial geometry)** 和**细粒度交互动态(fine-grained interaction dynamics)** - 需要一种能够有效闭合**运动控制(kinematic control)** 与**视觉感知(visual perception)** 之间循环的生成式世界模型
🔧 核心方法
- 提出**EA-WM(Event-Aware Generative World Model)**,将**动作(actions)** 和**运动状态(kinematic states)** 直接投影到目标相机视图,形成**结构化运动到视觉动作场(Structured Kinematic-to-Visual Action Fields)** - 引入**事件感知双向融合块(event-aware bidirectional fusion blocks)**,通过调节**跨分支注意力(cross-branch attention)** 来捕捉**物体状态变化(object state changes)** 和**交互动态(interaction dynamics)** - 基于预训练**视频扩散模型(video diffusion models)** 构建生成式世界模型,实现未来视频与动作的联合优化
💡 核心创新
- **表示创新**:区别于将动作注入为**抽象低维token(abstract low-dimensional tokens)**,首次将动作与运动状态几何地投影到**相机视图(camera view)** 形成**结构化动作场(structured action fields)** - **双向协同**:引入**事件感知(event-aware)** 机制使视觉生成能够反向利用动作信息,实现**运动控制** 与**视觉感知** 的闭环融合 - **动态捕捉**:通过**双向融合块(bidirectional fusion blocks)** 跨分支调制注意力,精准保留**机器人-物体交互动态(robot-object interaction dynamics)**
🏆 总体贡献
- 为**机器人世界模型(robotic world models)** 提供了一种**事件感知生成范式(event-aware generative paradigm)**,有效提升了生成展开的**空间几何精度(spatial geometric accuracy)** 和**交互保真度(interaction fidelity)** - 在**WorldArena** 基准上达到**最优性能(state-of-the-art)**,显著超越现有基线方法 - 提出的**结构化运动到视觉动作场** 和**事件感知双向融合** 为后续研究提供了新的表示与架构方向