- 端到端自动驾驶系统普遍集成**视觉-语言模型(Vision-Language Model, VLM)** 架构,但现有推理机制直接来自通用领域,缺乏针对自动驾驶场景的深入探索
- 现有方法在**长时域(long-horizon)** 世界建模方面不足,尤其是视觉推理模块未能充分利用驾驶特定结构
- 自动驾驶场景中的**长尾挑战(long-tail scenarios)** 需要额外的社会知识与推理能力,而现有方法难以适应
- 提出**驾驶世界模型(driving world model)**,在**鸟瞰图(Bird's-Eye-View, BEV)** 空间中对连续未来帧进行**潜在语义特征(latent semantic features)** 的并行预测,实现长时域未来状态建模
- 引入一种**高效自适应文本推理机制(efficient and adaptive text reasoning mechanism)**,利用社会知识和推理能力改善长尾场景性能
- 整体框架采用端到端(end-to-end)方式,在闭环Bench2drive基准上验证
- **首创性**:首次提出在BEV空间中**并行预测潜在语义特征** 进行长时域世界建模,区别于现有直接适配通用领域的推理机制
- **效率提升**:并行预测机制相比逐帧预测显著提升计算效率,同时保持建模精度
- **领域适配**:文本推理机制自适应结合社会知识,专门针对自动驾驶**长尾场景(long-tail scenarios)** 进行优化
- **端到端闭环验证**:在闭环(closed-loop)Bench2drive基准上达到**最先进(State-of-the-Art, SOTA)** 性能,证明方法的有效性
- 为端到端自动驾驶领域提供了一种**新范式**:通过潜在状态预测进行长时域世界建模,克服了现有VLM推理机制缺乏领域定制的局限
- 在**闭环Bench2drive基准** 上取得SOTA结果,显著提升了自动驾驶决策的鲁棒性和准确性
- 开源代码(GitHub)促进社区复现与后续研究,推动**可验证自动驾驶世界模型(verifiable autonomous driving world models)** 的发展