该论文旨在解决视频世界模型(video world models)在机器人操作(robotic manipulation)应用中的关键问题:
- 当前大规模视频世界模型生成的预测视频虽然视觉上逼真,但缺乏物理合理性(physical plausibility)
- 从生成视频推断出的行为可能违反物理动力学(dynamics),导致机器人无法执行
- 现有基准测试(benchmarks)主要关注感知(perception)或诊断(diagnostic),缺乏系统评估预测行为能否转化为可执行动作以完成任务
论文提出了RoboWM-Bench基准测试:
- 这是一个以操作任务为中心的基准测试,用于对视频世界模型进行具身化评估(embodiment-grounded evaluation)
- 将人类手部操作和机器人操作视频中生成的行为转换为具身化动作序列(embodied action sequences)
- 通过机器人实际执行来验证这些动作序列的有效性
- 涵盖多样化的操作场景,并建立统一协议(unified protocol)确保评估的一致性和可重复性
论文的核心创新点包括:
- 首次提出将视频世界模型的评估与机器人实际执行直接关联的基准测试,实现了从“视觉逼真性”到“物理可执行性”的范式转变
- 建立了从生成视频到具身化动作序列的转换和验证流程,填补了现有评估方法在物理合理性验证方面的空白
- 设计了跨人类手部和机器人操作视频的统一评估框架,能够系统性地暴露模型在空间推理(spatial reasoning)、接触预测(contact prediction)和物理一致性方面的缺陷
论文对该领域的整体贡献包括:
- 提供了首个专门针对机器人操作任务的视频世界模型基准测试RoboWM-Bench,推动了该领域向物理合理性评估方向发展
- 通过系统评估揭示了当前最先进视频世界模型的局限性,发现可靠生成物理可执行行为仍是一个开放挑战
- 识别了常见失败模式:空间推理错误、不稳定接触预测和非物理形变(non-physical deformations)
- 证明了即使在操作数据上微调(finetuning),物理不一致性仍然存在,为开发更具物理基础(physically grounded)的视频生成方法指明了方向