- 现有**驾驶世界模型(driving world model)** 虽能生成逼真视频,但无一模型在所有方面都表现出色
- 当前评估仅关注生成画面的视觉真实感,却很少检验其物理和行为真实性
- 存在关键差距:模型可能在纹理上真实,但违反基本物理规则或无法在闭环规划中保持几何一致性
- 提出**WorldLens** 统一基准,从**像素质量(pixel quality)**、**4D几何(4D geometry)**、**闭环驾驶(closed-loop driving)** 和**人类感知对齐(human perceptual alignment)** 等五个互补方面、24个标准化维度进行评测
- 构建**WorldLens-26K** 数据集,包含26,808条人工标注的偏好对,每条带有数值分数和文本理由
- 训练**WorldLens-Agent**,一个从人类判断中蒸馏出的**视觉-语言评估器(vision-language evaluator)**,实现可扩展、可解释的自动评估
- **首次** 提出多维度、全谱系的世界模型评测框架,覆盖从像素质量到行为保真度的完整链路
- 引入**人类偏好数据(human preference data)** 和**文本理由(textual rationales)**,桥接算法指标与人类感知之间的鸿沟
- 开发可解释的自动评估智能体,替代传统单一数值指标,输出结构化反馈
- 揭示现有模型在**物理一致性(physical consistency)** 与**行为保真度(behavioral fidelity)** 方面的系统性缺陷,最强模型人类真实性评分仅2-3/10
- 为**自动驾驶世界模型(driving world model)** 领域提供了首个统一、多维度的评测基准和配套数据集
- 通过实证分析揭示“以视觉质量为主要目标”的局限性,推动研究向物理和行为保真度转向
- 开源WorldLens基准、WorldLens-26K数据集和WorldLens-Agent评估工具,促进可复现研究与后续工作