← 返回论文列表

DeepSight:通过潜在状态预测实现长时域世界建模,用于端到端自动驾驶
DeepSight: Long-Horizon World Modeling via Latent States Prediction for End-to-End Autonomous Driving

作者: Lingjun Zhang, Changjie Wu, Linzhe Shi 等9人
arXiv: 2605.10564v1
分类: cs.CV, cs.RO
📝 论文摘要
端到端自动驾驶系统正日益集成视觉-语言模型(VLM)架构,通过融入文本推理或视觉推理来增强驾驶决策的鲁棒性和准确性。然而,多数方法所采用的推理机制直接来自通用领域的适配,缺乏针对自动驾驶场景的深度探索,特别是在视觉推理模块中。本文提出了一种驾驶世界模型,该模型在鸟瞰图(BEV)空间中对连续未来帧的潜在语义特征进行并行预测,从而实现对未来世界状态的长程建模。我们还引入了一种高效且自适应的文本推理机制,利用额外的社会知识和推理能力,进一步改进在具有挑战性的长尾场景中的驾驶性能。我们提出了一种新颖、高效且有效的方法,在闭环Bench2drive基准上取得了最先进(SOTA)的结果。代码可在 https://github.com/hotdogcheesewhite/DeepSight 获取。

📊 核心分析

🎯 研究动机
- 端到端自动驾驶系统普遍集成**视觉-语言模型(Vision-Language Model, VLM)** 架构,但现有推理机制直接来自通用领域,缺乏针对自动驾驶场景的深入探索 - 现有方法在**长时域(long-horizon)** 世界建模方面不足,尤其是视觉推理模块未能充分利用驾驶特定结构 - 自动驾驶场景中的**长尾挑战(long-tail scenarios)** 需要额外的社会知识与推理能力,而现有方法难以适应
🔧 核心方法
- 提出**驾驶世界模型(driving world model)**,在**鸟瞰图(Bird's-Eye-View, BEV)** 空间中对连续未来帧进行**潜在语义特征(latent semantic features)** 的并行预测,实现长时域未来状态建模 - 引入一种**高效自适应文本推理机制(efficient and adaptive text reasoning mechanism)**,利用社会知识和推理能力改善长尾场景性能 - 整体框架采用端到端(end-to-end)方式,在闭环Bench2drive基准上验证
💡 核心创新
- **首创性**:首次提出在BEV空间中**并行预测潜在语义特征** 进行长时域世界建模,区别于现有直接适配通用领域的推理机制 - **效率提升**:并行预测机制相比逐帧预测显著提升计算效率,同时保持建模精度 - **领域适配**:文本推理机制自适应结合社会知识,专门针对自动驾驶**长尾场景(long-tail scenarios)** 进行优化 - **端到端闭环验证**:在闭环(closed-loop)Bench2drive基准上达到**最先进(State-of-the-Art, SOTA)** 性能,证明方法的有效性
🏆 总体贡献
- 为端到端自动驾驶领域提供了一种**新范式**:通过潜在状态预测进行长时域世界建模,克服了现有VLM推理机制缺乏领域定制的局限 - 在**闭环Bench2drive基准** 上取得SOTA结果,显著提升了自动驾驶决策的鲁棒性和准确性 - 开源代码(GitHub)促进社区复现与后续研究,推动**可验证自动驾驶世界模型(verifiable autonomous driving world models)** 的发展