← 返回论文列表

HarmoWAM:通过自适应世界动作模型协调通用与精确操控
HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models

作者: Qiuxuan Feng, Jiale Yu, Jiaming Liu 等11人
arXiv: 2605.10942v1
分类: cs.RO
📝 论文摘要
世界动作模型(WAMs)通过建模物理动力学,已成为机器人控制的一种前景广阔的研究范式。当前的WAMs通常遵循两种范式:一是“先想象后执行”方法,利用视频预测通过逆动力学推断动作;二是“联合建模”方法,联合建模动作与视频表示。基于系统性实验,我们观察到这两种范式之间存在根本性的权衡:前者显式利用世界模型实现可泛化的状态转移,但缺乏交互精度;后者则能生成细粒度、时间一致的动作,但受限于训练分布的探索空间。受这些发现启发,我们提出HarmoWAM——一种端到端的WAM,充分借助世界模型统一预测控制与反应控制,同时实现可泛化的状态转移与精准操控。具体而言,世界模型提供时空物理先验,作为两个互补动作专家模块的条件:预测专家利用潜在动力学进行迭代动作生成,反应专家则直接从预测的视觉演变中推断动作。为实现自适应协调,我们提出一种过程自适应门控机制,自动决定两者切换的时机与位置。这使得世界模型能够驱动反应专家扩展探索空间,并驱动预测专家在任务的不同阶段执行精确交互。为进行评估,我们在六项真实机器人任务中构建了三种训练未见测试环境,涵盖背景、位置与物体语义的变化。值得注意的是,HarmoWAM在这些场景中展现出强大的零样本泛化能力,相较于先前最先进的VLA模型与WAMs,性能分别提升33%和29%。

📊 核心分析

🎯 研究动机
- 解决**世界动作模型(World Action Models, WAMs)** 中泛化性与精确性之间的根本性权衡问题 - 现有两种范式: - “想象-执行(Imagine-then-Execute)”方法利用视频预测反向推断动作,泛化性好但精度不足 - “联合建模(Joint Modeling)”方法联合建模动作与视频表示,动作生成精确但受训练分布探索空间限制 - 背景:机器人控制依赖WAM建模物理动力学,但现有方法难以同时具备跨场景泛化与精细操作能力
🔧 核心方法
- 提出**HarmoWAM**:一个端到端(end-to-end)的WAM,统一了世界模型的预测与反应控制 - 世界模型提供**时空物理先验(spatio-temporal physical priors)**,条件化两个互补的动作专家: - **预测专家(predictive expert)**:利用潜在动态(latent dynamics)进行迭代动作生成 - **反应专家(reactive expert)**:从预测的视觉演变(predicted visual evolution)直接推断动作 - 设计**过程自适应门控机制(Process-Adaptive Gating Mechanism)**,自动决定两个专家之间的切换时机与位置,使世界模型驱动反应专家扩展探索空间、预测专家执行精确交互
💡 核心创新
- **首创统一框架**:首次在一个WAM内同时融合预测控制与反应控制,实现泛化性与精确性的和谐(HarmoWAM) - **自适应协调机制**:提出过程自适应门控,因任务阶段动态分配专家,突破固定模式限制 - **端到端学习**:无需手写切换规则,世界模型直接学习何时依赖预测或反应,避免多阶段误差累积
🏆 总体贡献
- 为机器人操作领域提供了一种**新的WAM范式**,利用世界模型统一预测与反应,同时提升泛化能力与操作精度 - 在六个真实世界机器人任务(覆盖背景、位置、对象语义变化)上实现**零样本泛化(zero-shot generalization)**,优于先前SOTA的VLA模型和WAMs分别达33%和29% - 系统实验揭示了两类WAM范式的权衡,为后续研究提供了重要经验性发现