你的驾驶世界模型是全能选手吗？

📝 论文摘要

当今的驾驶世界模型能够生成极其逼真的行车记录仪视频，但没有任何单一模型能够在所有方面表现卓越。有些模型能生成照片级纹理，却违反基本物理规律；另一些模型虽能保持几何一致性，但在闭环规划场景中却失效。这种脱节暴露了一个关键差距：该领域评估的是生成世界的视觉真实程度，却很少关注它们的行为真实性。我们提出WorldLens——一个统一的基准，通过五个互补方面和24个标准化维度，全面衡量世界模型的保真度，涵盖像素质量、4D几何、闭环驾驶以及人类感知对齐。我们对六个代表性模型的评估显示，现有方法均无法在所有维度上占据主导地位：纹理丰富的模型违反几何规则，几何感知的模型缺乏行为保真度，即使表现最好的模型在人类真实性评分中也仅达到2-3分（满分10分）。为桥接算法指标与人类感知，我们进一步贡献了WorldLens-26K——一个包含26,808条人工标注偏好数据集，将数值评分与文本理由相结合，以及WorldLens-Agent——一个从这些判断中提炼出的视觉-语言评估器，可实现可扩展、可解释的自动评估。基准、数据集和评估器共同形成一个统一生态系统，不仅通过视觉吸引力，更通过物理和行为保真度来评估生成的世界。

🎯 研究动机

- 现有**驾驶世界模型(driving world model)** 虽能生成逼真视频，但无一模型在所有方面都表现出色 - 当前评估仅关注生成画面的视觉真实感，却很少检验其物理和行为真实性 - 存在关键差距：模型可能在纹理上真实，但违反基本物理规则或无法在闭环规划中保持几何一致性

🔧 核心方法

- 提出**WorldLens** 统一基准，从**像素质量(pixel quality)**、**4D几何(4D geometry)**、**闭环驾驶(closed-loop driving)** 和**人类感知对齐(human perceptual alignment)** 等五个互补方面、24个标准化维度进行评测 - 构建**WorldLens-26K** 数据集，包含26,808条人工标注的偏好对，每条带有数值分数和文本理由 - 训练**WorldLens-Agent**，一个从人类判断中蒸馏出的**视觉-语言评估器(vision-language evaluator)**，实现可扩展、可解释的自动评估

💡 核心创新

- **首次** 提出多维度、全谱系的世界模型评测框架，覆盖从像素质量到行为保真度的完整链路 - 引入**人类偏好数据(human preference data)** 和**文本理由(textual rationales)**，桥接算法指标与人类感知之间的鸿沟 - 开发可解释的自动评估智能体，替代传统单一数值指标，输出结构化反馈 - 揭示现有模型在**物理一致性(physical consistency)** 与**行为保真度(behavioral fidelity)** 方面的系统性缺陷，最强模型人类真实性评分仅2-3/10

🏆 总体贡献

- 为**自动驾驶世界模型(driving world model)** 领域提供了首个统一、多维度的评测基准和配套数据集 - 通过实证分析揭示“以视觉质量为主要目标”的局限性，推动研究向物理和行为保真度转向 - 开源WorldLens基准、WorldLens-26K数据集和WorldLens-Agent评估工具，促进可复现研究与后续工作

你的驾驶世界模型是全能选手吗？
Is Your Driving World Model an All-Around Player?

📊 核心分析

你的驾驶世界模型是全能选手吗？ Is Your Driving World Model an All-Around Player?

📊 核心分析

你的驾驶世界模型是全能选手吗？
Is Your Driving World Model an All-Around Player?