该论文旨在解决基于世界模型(world model)的自动驾驶轨迹规划器存在的三个关键问题:
- 表征压缩不足,导致在有限数据和计算资源下规划效果不佳
- 对空间几何关系的理解有限
- 未能充分利用时序动态信息
研究背景是端到端(end-to-end)自动驾驶系统需要高效且强大的世界建模能力来实现精准轨迹规划。
论文提出了Latent-WAM框架,包含两个核心模块:
- 空间感知压缩世界编码器(Spatial-Aware Compressive World Encoder, SCWE):从基础模型(foundation model)中提取几何知识,通过可学习查询(learnable queries)将多视角(multi-view)图像压缩为紧凑的场景令牌(scene tokens)
- 动态潜在世界模型(Dynamic Latent World Model, DLWM):采用因果Transformer(causal Transformer)进行自回归(autoregressive)预测,基于历史视觉和运动表征条件化地预测未来世界状态
论文的核心创新点体现在三个方面:
- 提出了空间感知压缩世界编码器(SCWE),首次将基础模型的几何知识蒸馏(distillation)到端到端自动驾驶框架中,实现了更高效的多视角图像压缩
- 设计了动态潜在世界模型(DLWM),通过因果Transformer建模时序动态,解决了现有方法对时间信息利用不足的问题
- 构建了完整的潜在世界动作建模(Latent World Action Modeling)框架,在显著减少训练数据(仅需约1/10)和模型参数(1.04亿参数)的情况下,实现了最先进的规划性能
论文对该领域的整体贡献包括:
- 提出了Latent-WAM框架,在NAVSIM v2和HUGSIM基准上创造了新的最先进(state-of-the-art)结果:89.3 EPDMS和28.9 HD-Score
- 在NAVSIM v2上以3.2 EPDMS的优势超越了最佳的无感知(perception-free)方法,证明了框架的有效性
- 展示了高效世界建模在资源受限场景下的可行性,为实际部署提供了新思路
- 开源了代码和模型,促进了端到端自动驾驶研究社区的发展