← 返回论文列表

潜在世界行动建模:面向端到端自动驾驶的潜在世界行动建模
Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving

作者: Linbo Wang, Yupeng Zheng, Qiang Chen 等16人
arXiv: 2603.24581v1
分类: cs.CV, cs.RO
📝 论文摘要
我们提出Latent-WAM,一种高效的端到端自动驾驶框架,通过空间感知与动态信息融合的潜在世界表征实现强健的轨迹规划。现有基于世界模型的规划器存在表征压缩不足、空间理解有限、时序动态利用不充分等问题,导致在有限数据和计算资源下规划效果欠佳。Latent-WAM通过两大核心模块突破这些局限:空间感知压缩世界编码器(SCWE)从基础模型中提取几何先验知识,通过可学习查询将多视角图像压缩为紧凑场景标记;动态潜在世界模型(DLWM)采用因果Transformer架构,基于历史视觉与运动表征自回归预测未来世界状态。在NAVSIM v2和HUGSIM数据集上的大量实验取得了新的最优结果:NAVSIM v2上达到89.3 EPDMS,HUGSIM上获得28.9 HD-Score,以显著更少的训练数据和仅1.04亿参数的紧凑模型,超越此前最佳无感知方法3.2 EPDMS。

📊 核心分析

🎯 研究动机
该论文旨在解决基于世界模型(world model)的自动驾驶轨迹规划器存在的三个关键问题: - 表征压缩不足,导致在有限数据和计算资源下规划效果不佳 - 对空间几何关系的理解有限 - 未能充分利用时序动态信息 研究背景是端到端(end-to-end)自动驾驶系统需要高效且强大的世界建模能力来实现精准轨迹规划。
🔧 核心方法
论文提出了Latent-WAM框架,包含两个核心模块: - 空间感知压缩世界编码器(Spatial-Aware Compressive World Encoder, SCWE):从基础模型(foundation model)中提取几何知识,通过可学习查询(learnable queries)将多视角(multi-view)图像压缩为紧凑的场景令牌(scene tokens) - 动态潜在世界模型(Dynamic Latent World Model, DLWM):采用因果Transformer(causal Transformer)进行自回归(autoregressive)预测,基于历史视觉和运动表征条件化地预测未来世界状态
💡 核心创新
论文的核心创新点体现在三个方面: - 提出了空间感知压缩世界编码器(SCWE),首次将基础模型的几何知识蒸馏(distillation)到端到端自动驾驶框架中,实现了更高效的多视角图像压缩 - 设计了动态潜在世界模型(DLWM),通过因果Transformer建模时序动态,解决了现有方法对时间信息利用不足的问题 - 构建了完整的潜在世界动作建模(Latent World Action Modeling)框架,在显著减少训练数据(仅需约1/10)和模型参数(1.04亿参数)的情况下,实现了最先进的规划性能
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出了Latent-WAM框架,在NAVSIM v2和HUGSIM基准上创造了新的最先进(state-of-the-art)结果:89.3 EPDMS和28.9 HD-Score - 在NAVSIM v2上以3.2 EPDMS的优势超越了最佳的无感知(perception-free)方法,证明了框架的有效性 - 展示了高效世界建模在资源受限场景下的可行性,为实际部署提供了新思路 - 开源了代码和模型,促进了端到端自动驾驶研究社区的发展