DeepSight：通过潜在状态预测实现长时域世界建模，用于端到端自动驾驶

📝 论文摘要

端到端自动驾驶系统正日益集成视觉-语言模型（VLM）架构，通过融入文本推理或视觉推理来增强驾驶决策的鲁棒性和准确性。然而，多数方法所采用的推理机制直接来自通用领域的适配，缺乏针对自动驾驶场景的深度探索，特别是在视觉推理模块中。本文提出了一种驾驶世界模型，该模型在鸟瞰图（BEV）空间中对连续未来帧的潜在语义特征进行并行预测，从而实现对未来世界状态的长程建模。我们还引入了一种高效且自适应的文本推理机制，利用额外的社会知识和推理能力，进一步改进在具有挑战性的长尾场景中的驾驶性能。我们提出了一种新颖、高效且有效的方法，在闭环Bench2drive基准上取得了最先进（SOTA）的结果。代码可在 https://github.com/hotdogcheesewhite/DeepSight 获取。

🎯 研究动机

- 端到端自动驾驶系统普遍集成**视觉-语言模型(Vision-Language Model, VLM)** 架构，但现有推理机制直接来自通用领域，缺乏针对自动驾驶场景的深入探索 - 现有方法在**长时域(long-horizon)** 世界建模方面不足，尤其是视觉推理模块未能充分利用驾驶特定结构 - 自动驾驶场景中的**长尾挑战(long-tail scenarios)** 需要额外的社会知识与推理能力，而现有方法难以适应

🔧 核心方法

- 提出**驾驶世界模型(driving world model)**，在**鸟瞰图(Bird's-Eye-View, BEV)** 空间中对连续未来帧进行**潜在语义特征(latent semantic features)** 的并行预测，实现长时域未来状态建模 - 引入一种**高效自适应文本推理机制(efficient and adaptive text reasoning mechanism)**，利用社会知识和推理能力改善长尾场景性能 - 整体框架采用端到端(end-to-end)方式，在闭环Bench2drive基准上验证

💡 核心创新

- **首创性**：首次提出在BEV空间中**并行预测潜在语义特征** 进行长时域世界建模，区别于现有直接适配通用领域的推理机制 - **效率提升**：并行预测机制相比逐帧预测显著提升计算效率，同时保持建模精度 - **领域适配**：文本推理机制自适应结合社会知识，专门针对自动驾驶**长尾场景(long-tail scenarios)** 进行优化 - **端到端闭环验证**：在闭环(closed-loop)Bench2drive基准上达到**最先进(State-of-the-Art, SOTA)** 性能，证明方法的有效性

🏆 总体贡献

- 为端到端自动驾驶领域提供了一种**新范式**：通过潜在状态预测进行长时域世界建模，克服了现有VLM推理机制缺乏领域定制的局限 - 在**闭环Bench2drive基准** 上取得SOTA结果，显著提升了自动驾驶决策的鲁棒性和准确性 - 开源代码（GitHub）促进社区复现与后续研究，推动**可验证自动驾驶世界模型(verifiable autonomous driving world models)** 的发展

DeepSight：通过潜在状态预测实现长时域世界建模，用于端到端自动驾驶
DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving

📊 核心分析

DeepSight：通过潜在状态预测实现长时域世界建模，用于端到端自动驾驶 DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving

📊 核心分析

DeepSight：通过潜在状态预测实现长时域世界建模，用于端到端自动驾驶
DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving