潜在世界行动建模：面向端到端自动驾驶的潜在世界行动建模

📝 论文摘要

我们提出Latent-WAM，一种高效的端到端自动驾驶框架，通过空间感知与动态信息融合的潜在世界表征实现强健的轨迹规划。现有基于世界模型的规划器存在表征压缩不足、空间理解有限、时序动态利用不充分等问题，导致在有限数据和计算资源下规划效果欠佳。Latent-WAM通过两大核心模块突破这些局限：空间感知压缩世界编码器（SCWE）从基础模型中提取几何先验知识，通过可学习查询将多视角图像压缩为紧凑场景标记；动态潜在世界模型（DLWM）采用因果Transformer架构，基于历史视觉与运动表征自回归预测未来世界状态。在NAVSIM v2和HUGSIM数据集上的大量实验取得了新的最优结果：NAVSIM v2上达到89.3 EPDMS，HUGSIM上获得28.9 HD-Score，以显著更少的训练数据和仅1.04亿参数的紧凑模型，超越此前最佳无感知方法3.2 EPDMS。

🎯 研究动机

该论文旨在解决基于世界模型(world model)的自动驾驶轨迹规划器存在的三个关键问题： - 表征压缩不足，导致在有限数据和计算资源下规划效果不佳 - 对空间几何关系的理解有限 - 未能充分利用时序动态信息研究背景是端到端(end-to-end)自动驾驶系统需要高效且强大的世界建模能力来实现精准轨迹规划。

🔧 核心方法

论文提出了Latent-WAM框架，包含两个核心模块： - 空间感知压缩世界编码器(Spatial-Aware Compressive World Encoder, SCWE)：从基础模型(foundation model)中提取几何知识，通过可学习查询(learnable queries)将多视角(multi-view)图像压缩为紧凑的场景令牌(scene tokens) - 动态潜在世界模型(Dynamic Latent World Model, DLWM)：采用因果Transformer(causal Transformer)进行自回归(autoregressive)预测，基于历史视觉和运动表征条件化地预测未来世界状态

💡 核心创新

论文的核心创新点体现在三个方面： - 提出了空间感知压缩世界编码器(SCWE)，首次将基础模型的几何知识蒸馏(distillation)到端到端自动驾驶框架中，实现了更高效的多视角图像压缩 - 设计了动态潜在世界模型(DLWM)，通过因果Transformer建模时序动态，解决了现有方法对时间信息利用不足的问题 - 构建了完整的潜在世界动作建模(Latent World Action Modeling)框架，在显著减少训练数据(仅需约1/10)和模型参数(1.04亿参数)的情况下，实现了最先进的规划性能

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了Latent-WAM框架，在NAVSIM v2和HUGSIM基准上创造了新的最先进(state-of-the-art)结果：89.3 EPDMS和28.9 HD-Score - 在NAVSIM v2上以3.2 EPDMS的优势超越了最佳的无感知(perception-free)方法，证明了框架的有效性 - 展示了高效世界建模在资源受限场景下的可行性，为实际部署提供了新思路 - 开源了代码和模型，促进了端到端自动驾驶研究社区的发展

潜在世界行动建模：面向端到端自动驾驶的潜在世界行动建模
Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving

📊 核心分析

潜在世界行动建模：面向端到端自动驾驶的潜在世界行动建模 Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving

📊 核心分析

潜在世界行动建模：面向端到端自动驾驶的潜在世界行动建模
Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving