RoboTrustBench：机器人操作视频世界模型可信度基准测试

📝 论文摘要

视频世界模型在机器人操作中应用日益广泛，然而现有基准主要在有有效、可行且安全的指令下进行评测。我们提出RoboTrustBench基准，用于评估视频世界模型在四种场景下的可信度：正常、约束敏感、反事实及对抗性场景。该基准基于真实世界DROID数据集构建，包含1,207个经专家验证的指令-图像对，并设计六维度评估协议，涵盖13项细粒度指标。通过人工与多模态大语言模型评估七种代表性视频世界模型，我们发现当前模型常能生成视觉连贯的视频，但在约束推理、反事实归因、物理交互及不安全指令抑制方面表现欠佳。结果表明，视觉质量与表面指令遵循不足以支撑可信的机器人视频世界建模。

🎯 研究动机

- 现有视频世界模型(the video world model)基准大多仅在有效、可行、安全的指令下评估，忽略了**可信度(trustworthiness)** 问题 - 机器人操作中视频世界模型缺乏对**约束推理(constraint reasoning)**、**反事实基础(counterfactual grounding)**、**不安全指令抑制(unsafe-instruction suppression)** 等维度的系统性评估 - 研究背景：视频世界模型在机器人操作中的应用日益广泛，但评估方法仍停留在视觉质量和表面指令遵循层面

🔧 核心方法

- 提出**RoboTrustBench** 基准，覆盖四种评估场景：**正常(Normal)**、**约束敏感(Constraint-Sensitive)**、**反事实(Counterfactual)**、**对抗(Adversarial)** - 从真实**DROID** 数据集的episodes中构建，包含**1,207个专家验证的指令-图像对** - 设计**六维评估协议(six-dimensional evaluation protocol)**，包含**13个细粒度准则(fine-grained criteria)** - 使用人类评估和**多模态大语言模型(Multimodal Large Language Model, MLLM)** 作为评估者，对**7个代表性视频世界模型** 进行对比评测

💡 核心创新

- **首次系统性定义** 机器人操作视频世界模型的**可信度(trustworthiness)**，引入**对抗(Adversarial)** 和**约束敏感(Constraint-Sensitive)** 等场景 - **构建专家验证的真实场景数据**：基于**DROID** 真实操作episode，确保指令-图像对的实际可行性 - **提出多维细粒度评估协议**：突破传统仅看视频质量的局限，覆盖**约束推理(constraint reasoning)**、**反事实基础(counterfactual grounding)**、**物理交互(physical interaction)** 和**不安全指令抑制(unsafe-instruction suppression)** - 发现现有模型在**视觉一致性(visually coherent)** 方面表现良好，但在**深层推理** 和**安全对齐** 方面显著不足

🏆 总体贡献

- 为视频世界模型的可信度评估提供了首个专门基准，填补了**机器人操作安全性与鲁棒性** 评估的空白 - 揭示了当前模型在**约束推理**、**反事实基础** 等关键能力上的缺陷，推动模型设计从**视觉质量** 向**真实可信** 转变 - 提供**标准化评估协议** 和**专家验证数据集**，促进社区在**可信视频世界模型(trustworthy video world model)** 方向的研究 - 实验结果表明：仅追求**视觉质量和表面指令遵循** 不足以实现可信的世界模型，需额外关注**物理交互** 和**不安全指令抑制** 等维度

RoboTrustBench：机器人操作视频世界模型可信度基准测试
RoboTrustBench: Benchmarking the Trustworthiness of Video World Models for Robotic Manipulation

📊 核心分析

RoboTrustBench：机器人操作视频世界模型可信度基准测试 RoboTrustBench: Benchmarking the Trustworthiness of Video World Models for Robotic Manipulation

📊 核心分析

RoboTrustBench：机器人操作视频世界模型可信度基准测试
RoboTrustBench: Benchmarking the Trustworthiness of Video World Models for Robotic Manipulation