- 解决**世界动作模型(World Action Models, WAMs)** 中泛化性与精确性之间的根本性权衡问题
- 现有两种范式:
- “想象-执行(Imagine-then-Execute)”方法利用视频预测反向推断动作,泛化性好但精度不足
- “联合建模(Joint Modeling)”方法联合建模动作与视频表示,动作生成精确但受训练分布探索空间限制
- 背景:机器人控制依赖WAM建模物理动力学,但现有方法难以同时具备跨场景泛化与精细操作能力
- 提出**HarmoWAM**:一个端到端(end-to-end)的WAM,统一了世界模型的预测与反应控制
- 世界模型提供**时空物理先验(spatio-temporal physical priors)**,条件化两个互补的动作专家:
- **预测专家(predictive expert)**:利用潜在动态(latent dynamics)进行迭代动作生成
- **反应专家(reactive expert)**:从预测的视觉演变(predicted visual evolution)直接推断动作
- 设计**过程自适应门控机制(Process-Adaptive Gating Mechanism)**,自动决定两个专家之间的切换时机与位置,使世界模型驱动反应专家扩展探索空间、预测专家执行精确交互
- **首创统一框架**:首次在一个WAM内同时融合预测控制与反应控制,实现泛化性与精确性的和谐(HarmoWAM)
- **自适应协调机制**:提出过程自适应门控,因任务阶段动态分配专家,突破固定模式限制
- **端到端学习**:无需手写切换规则,世界模型直接学习何时依赖预测或反应,避免多阶段误差累积
- 为机器人操作领域提供了一种**新的WAM范式**,利用世界模型统一预测与反应,同时提升泛化能力与操作精度
- 在六个真实世界机器人任务(覆盖背景、位置、对象语义变化)上实现**零样本泛化(zero-shot generalization)**,优于先前SOTA的VLA模型和WAMs分别达33%和29%
- 系统实验揭示了两类WAM范式的权衡,为后续研究提供了重要经验性发现