- 现有视频世界模型(the video world model)基准大多仅在有效、可行、安全的指令下评估,忽略了**可信度(trustworthiness)** 问题
- 机器人操作中视频世界模型缺乏对**约束推理(constraint reasoning)**、**反事实基础(counterfactual grounding)**、**不安全指令抑制(unsafe-instruction suppression)** 等维度的系统性评估
- 研究背景:视频世界模型在机器人操作中的应用日益广泛,但评估方法仍停留在视觉质量和表面指令遵循层面
- 提出**RoboTrustBench** 基准,覆盖四种评估场景:**正常(Normal)**、**约束敏感(Constraint-Sensitive)**、**反事实(Counterfactual)**、**对抗(Adversarial)**
- 从真实**DROID** 数据集的episodes中构建,包含**1,207个专家验证的指令-图像对**
- 设计**六维评估协议(six-dimensional evaluation protocol)**,包含**13个细粒度准则(fine-grained criteria)**
- 使用人类评估和**多模态大语言模型(Multimodal Large Language Model, MLLM)** 作为评估者,对**7个代表性视频世界模型** 进行对比评测
- **首次系统性定义** 机器人操作视频世界模型的**可信度(trustworthiness)**,引入**对抗(Adversarial)** 和**约束敏感(Constraint-Sensitive)** 等场景
- **构建专家验证的真实场景数据**:基于**DROID** 真实操作episode,确保指令-图像对的实际可行性
- **提出多维细粒度评估协议**:突破传统仅看视频质量的局限,覆盖**约束推理(constraint reasoning)**、**反事实基础(counterfactual grounding)**、**物理交互(physical interaction)** 和**不安全指令抑制(unsafe-instruction suppression)**
- 发现现有模型在**视觉一致性(visually coherent)** 方面表现良好,但在**深层推理** 和**安全对齐** 方面显著不足
- 为视频世界模型的可信度评估提供了首个专门基准,填补了**机器人操作安全性与鲁棒性** 评估的空白
- 揭示了当前模型在**约束推理**、**反事实基础** 等关键能力上的缺陷,推动模型设计从**视觉质量** 向**真实可信** 转变
- 提供**标准化评估协议** 和**专家验证数据集**,促进社区在**可信视频世界模型(trustworthy video world model)** 方向的研究
- 实验结果表明:仅追求**视觉质量和表面指令遵循** 不足以实现可信的世界模型,需额外关注**物理交互** 和**不安全指令抑制** 等维度