← 返回论文列表

你的驾驶世界模型是全能选手吗?
Is Your Driving World Model an All-Around Player?

作者: Lingdong Kong, Ao Liang, Tianyi Yan 等23人
arXiv: 2605.10858v1
分类: cs.CV, cs.RO
📝 论文摘要
当今的驾驶世界模型能够生成极其逼真的行车记录仪视频,但没有任何单一模型能够在所有方面表现卓越。有些模型能生成照片级纹理,却违反基本物理规律;另一些模型虽能保持几何一致性,但在闭环规划场景中却失效。这种脱节暴露了一个关键差距:该领域评估的是生成世界的视觉真实程度,却很少关注它们的行为真实性。我们提出WorldLens——一个统一的基准,通过五个互补方面和24个标准化维度,全面衡量世界模型的保真度,涵盖像素质量、4D几何、闭环驾驶以及人类感知对齐。我们对六个代表性模型的评估显示,现有方法均无法在所有维度上占据主导地位:纹理丰富的模型违反几何规则,几何感知的模型缺乏行为保真度,即使表现最好的模型在人类真实性评分中也仅达到2-3分(满分10分)。为桥接算法指标与人类感知,我们进一步贡献了WorldLens-26K——一个包含26,808条人工标注偏好数据集,将数值评分与文本理由相结合,以及WorldLens-Agent——一个从这些判断中提炼出的视觉-语言评估器,可实现可扩展、可解释的自动评估。基准、数据集和评估器共同形成一个统一生态系统,不仅通过视觉吸引力,更通过物理和行为保真度来评估生成的世界。

📊 核心分析

🎯 研究动机
- 现有**驾驶世界模型(driving world model)** 虽能生成逼真视频,但无一模型在所有方面都表现出色 - 当前评估仅关注生成画面的视觉真实感,却很少检验其物理和行为真实性 - 存在关键差距:模型可能在纹理上真实,但违反基本物理规则或无法在闭环规划中保持几何一致性
🔧 核心方法
- 提出**WorldLens** 统一基准,从**像素质量(pixel quality)**、**4D几何(4D geometry)**、**闭环驾驶(closed-loop driving)** 和**人类感知对齐(human perceptual alignment)** 等五个互补方面、24个标准化维度进行评测 - 构建**WorldLens-26K** 数据集,包含26,808条人工标注的偏好对,每条带有数值分数和文本理由 - 训练**WorldLens-Agent**,一个从人类判断中蒸馏出的**视觉-语言评估器(vision-language evaluator)**,实现可扩展、可解释的自动评估
💡 核心创新
- **首次** 提出多维度、全谱系的世界模型评测框架,覆盖从像素质量到行为保真度的完整链路 - 引入**人类偏好数据(human preference data)** 和**文本理由(textual rationales)**,桥接算法指标与人类感知之间的鸿沟 - 开发可解释的自动评估智能体,替代传统单一数值指标,输出结构化反馈 - 揭示现有模型在**物理一致性(physical consistency)** 与**行为保真度(behavioral fidelity)** 方面的系统性缺陷,最强模型人类真实性评分仅2-3/10
🏆 总体贡献
- 为**自动驾驶世界模型(driving world model)** 领域提供了首个统一、多维度的评测基准和配套数据集 - 通过实证分析揭示“以视觉质量为主要目标”的局限性,推动研究向物理和行为保真度转向 - 开源WorldLens基准、WorldLens-26K数据集和WorldLens-Agent评估工具,促进可复现研究与后续工作