- 现有**世界动作模型(World Action Models, WAMs)** 将预测的世界表示为整体图像、视频token或全局潜在变量,难以在指令指向特定物体时进行有效寻址
- 特别是在场景偏移(scene shifts)下,物体身份与背景纠缠,动作解码器无法明确区分操作对象
- 研究背景:**视觉-语言-动作(Vision-Language-Action, VLA)** 策略需要鲁棒的场景演化预测,但现有方法缺乏对物体级别的显式寻址能力
- 提出**OA-WAM (Object-Addressable World Action Model)**,将每一帧分解为N+1个槽状态:1个机器人槽和N个物体槽
- 每个槽包含**持久地址向量(persistent address vector)** 和**时变内容向量(time-varying content vector)**,与文本、图像、本体感觉、过去动作token以**块因果序列(block-causal sequence)** 方式融合
- 世界头(world head)预测下一帧槽状态,**流匹配动作头(flow-matching action head)** 在同一前向传递中解码16步连续动作块
- 通过**跨槽注意力路由(cross-slot attention routing)** 仅使用地址键,并在每个transformer层**重置地址切片(reset address slice)**,实现物体可寻址性而不增加额外token
- **首创性**:提出物体可寻址的世界动作模型,将场景分解为独立槽状态,每个槽拥有永久地址,与内容分离,实现“作用于哪个物体”与“该物体当前是什么”的解耦
- **方法独特**:通过地址键路由注意力和每层重置地址切片,在不增加额外token的情况下强制槽识别一致性,区别于现有整体表示方法
- **鲁棒性验证**:因果槽干预测试显示**可互换绑定余弦(swap-binding cosine)** 达0.87,而整体基线最高仅0.09,证明槽状态对场景扰动具有强鲁棒性
- 为机器人操作领域提供了一种**鲁棒的世界动作模型**,通过可寻址物体状态显式处理场景扰动和物体身份绑定
- 在LIBERO上达到97.8%,SimplerEnv上达到79.3%,并在**LIBERO-Plus几何轴(geometric axes)** 上取得最先进性能(state-of-the-art)
- 证明了**地址化物体状态(addressable object states)** 作为鲁棒世界-动作建模的有效接口,为未来WAM研究提供了新范式