HarmoWAM：通过自适应世界动作模型协调通用与精确操控

📝 论文摘要

世界动作模型（WAMs）通过建模物理动力学，已成为机器人控制的一种前景广阔的研究范式。当前的WAMs通常遵循两种范式：一是“先想象后执行”方法，利用视频预测通过逆动力学推断动作；二是“联合建模”方法，联合建模动作与视频表示。基于系统性实验，我们观察到这两种范式之间存在根本性的权衡：前者显式利用世界模型实现可泛化的状态转移，但缺乏交互精度；后者则能生成细粒度、时间一致的动作，但受限于训练分布的探索空间。受这些发现启发，我们提出HarmoWAM——一种端到端的WAM，充分借助世界模型统一预测控制与反应控制，同时实现可泛化的状态转移与精准操控。具体而言，世界模型提供时空物理先验，作为两个互补动作专家模块的条件：预测专家利用潜在动力学进行迭代动作生成，反应专家则直接从预测的视觉演变中推断动作。为实现自适应协调，我们提出一种过程自适应门控机制，自动决定两者切换的时机与位置。这使得世界模型能够驱动反应专家扩展探索空间，并驱动预测专家在任务的不同阶段执行精确交互。为进行评估，我们在六项真实机器人任务中构建了三种训练未见测试环境，涵盖背景、位置与物体语义的变化。值得注意的是，HarmoWAM在这些场景中展现出强大的零样本泛化能力，相较于先前最先进的VLA模型与WAMs，性能分别提升33%和29%。

🎯 研究动机

- 解决**世界动作模型(World Action Models, WAMs)** 中泛化性与精确性之间的根本性权衡问题 - 现有两种范式： - “想象-执行(Imagine-then-Execute)”方法利用视频预测反向推断动作，泛化性好但精度不足 - “联合建模(Joint Modeling)”方法联合建模动作与视频表示，动作生成精确但受训练分布探索空间限制 - 背景：机器人控制依赖WAM建模物理动力学，但现有方法难以同时具备跨场景泛化与精细操作能力

🔧 核心方法

- 提出**HarmoWAM**：一个端到端(end-to-end)的WAM，统一了世界模型的预测与反应控制 - 世界模型提供**时空物理先验(spatio-temporal physical priors)**，条件化两个互补的动作专家： - **预测专家(predictive expert)**：利用潜在动态(latent dynamics)进行迭代动作生成 - **反应专家(reactive expert)**：从预测的视觉演变(predicted visual evolution)直接推断动作 - 设计**过程自适应门控机制(Process-Adaptive Gating Mechanism)**，自动决定两个专家之间的切换时机与位置，使世界模型驱动反应专家扩展探索空间、预测专家执行精确交互

💡 核心创新

- **首创统一框架**：首次在一个WAM内同时融合预测控制与反应控制，实现泛化性与精确性的和谐(HarmoWAM) - **自适应协调机制**：提出过程自适应门控，因任务阶段动态分配专家，突破固定模式限制 - **端到端学习**：无需手写切换规则，世界模型直接学习何时依赖预测或反应，避免多阶段误差累积

🏆 总体贡献

- 为机器人操作领域提供了一种**新的WAM范式**，利用世界模型统一预测与反应，同时提升泛化能力与操作精度 - 在六个真实世界机器人任务（覆盖背景、位置、对象语义变化）上实现**零样本泛化(zero-shot generalization)**，优于先前SOTA的VLA模型和WAMs分别达33%和29% - 系统实验揭示了两类WAM范式的权衡，为后续研究提供了重要经验性发现

HarmoWAM：通过自适应世界动作模型协调通用与精确操控
HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models

📊 核心分析

HarmoWAM：通过自适应世界动作模型协调通用与精确操控 HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models

📊 核心分析

HarmoWAM：通过自适应世界动作模型协调通用与精确操控
HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models