← 返回论文列表

OA-WAM:面向鲁棒机器人操作的对象可寻址世界动作模型
OA-WAM: Object-Addressable World Action Model for Robust Robot Manipulation

作者: Yushan Liu, Peibo Sun, Shoujie Li 等10人
arXiv: 2605.06481v1
分类: cs.RO
📝 论文摘要
世界动作模型(WAMs)通过联合预测场景演变和机器人动作来增强视觉-语言-动作策略,但现有方法通常将预测的世界表示为整体图像、视频标记或全局潜变量。当指令指向特定物体时,尤其是在物体身份与上下文纠缠的场景变化下,这些表示难以被动作解码器处理。我们提出OA-WAM,一种可寻址物体的世界动作模型,用于鲁棒的机器人操作。OA-WAM将每一帧分解为N+1个槽状态,包括一个机器人槽和N个物体槽。每个槽包含一个持久的地址向量和一个时变的内容向量,并与文本、图像、本体感知和过去动作标记以块因果序列方式融合。世界头预测下一帧的槽状态,而流匹配动作头在同一前向过程中解码一个16步的连续动作块。可寻址性通过仅使用地址键进行跨槽注意力路由,并在每个Transformer层重置地址切片来实现,从而在不增加额外标记的情况下分离出"作用于哪个物体"与"该物体当前是什么"。OA-WAM在LIBERO(97.8%)和SimplerEnv(79.3%)上匹配了强VLA和WAM基线,在最相关的LIBERO-Plus几何轴上达到了最先进性能,并在七轴综合指标上保持竞争力。因果槽干预测试产生了0.87的交换绑定余弦值,而整体基线最多为0.09。这些结果表明,可寻址的物体状态为场景扰动下的鲁棒世界动作建模提供了有效接口。

📊 核心分析

🎯 研究动机
- 现有**世界动作模型(World Action Models, WAMs)** 将预测的世界表示为整体图像、视频token或全局潜在变量,难以在指令指向特定物体时进行有效寻址 - 特别是在场景偏移(scene shifts)下,物体身份与背景纠缠,动作解码器无法明确区分操作对象 - 研究背景:**视觉-语言-动作(Vision-Language-Action, VLA)** 策略需要鲁棒的场景演化预测,但现有方法缺乏对物体级别的显式寻址能力
🔧 核心方法
- 提出**OA-WAM (Object-Addressable World Action Model)**,将每一帧分解为N+1个槽状态:1个机器人槽和N个物体槽 - 每个槽包含**持久地址向量(persistent address vector)** 和**时变内容向量(time-varying content vector)**,与文本、图像、本体感觉、过去动作token以**块因果序列(block-causal sequence)** 方式融合 - 世界头(world head)预测下一帧槽状态,**流匹配动作头(flow-matching action head)** 在同一前向传递中解码16步连续动作块 - 通过**跨槽注意力路由(cross-slot attention routing)** 仅使用地址键,并在每个transformer层**重置地址切片(reset address slice)**,实现物体可寻址性而不增加额外token
💡 核心创新
- **首创性**:提出物体可寻址的世界动作模型,将场景分解为独立槽状态,每个槽拥有永久地址,与内容分离,实现“作用于哪个物体”与“该物体当前是什么”的解耦 - **方法独特**:通过地址键路由注意力和每层重置地址切片,在不增加额外token的情况下强制槽识别一致性,区别于现有整体表示方法 - **鲁棒性验证**:因果槽干预测试显示**可互换绑定余弦(swap-binding cosine)** 达0.87,而整体基线最高仅0.09,证明槽状态对场景扰动具有强鲁棒性
🏆 总体贡献
- 为机器人操作领域提供了一种**鲁棒的世界动作模型**,通过可寻址物体状态显式处理场景扰动和物体身份绑定 - 在LIBERO上达到97.8%,SimplerEnv上达到79.3%,并在**LIBERO-Plus几何轴(geometric axes)** 上取得最先进性能(state-of-the-art) - 证明了**地址化物体状态(addressable object states)** 作为鲁棒世界-动作建模的有效接口,为未来WAM研究提供了新范式