← 返回论文列表

DreamerAD:基于潜在世界模型的高效自动驾驶强化学习
DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

作者: Pengxuan Yang, Yupeng Zheng, Deheng Qian 等14人
arXiv: 2603.24587v1
分类: cs.LG, cs.RO
📝 论文摘要
我们推出DreamerAD,这是首个通过将扩散采样从100步压缩至1步实现80倍加速并保持视觉可解释性的潜在世界模型框架,为自动驾驶提供了高效的强化学习解决方案。在真实世界驾驶数据上训练强化学习策略成本高昂且存在安全风险。现有基于像素级扩散的世界模型虽能实现安全的想象式训练,但其多步扩散推理延迟(2秒/帧)阻碍了高频强化学习交互。我们的方法通过三项关键机制利用视频生成模型的去噪潜在特征:(1)通过递归多分辨率步长压缩降低采样复杂度的捷径强制机制;(2)直接在潜在表征上运行的自回归密集奖励模型,实现细粒度信用分配;(3)为GRPO设计的高斯词汇采样,将探索约束在物理可行的轨迹空间。DreamerAD在NavSim v2基准上取得87.7 EPDMS的卓越表现,确立了最先进的性能标准,证明潜在空间强化学习在自动驾驶领域具有显著效力。

📊 核心分析

🎯 研究动机
该论文旨在解决自动驾驶领域强化学习(RL)训练面临的现实难题: - 在真实世界驾驶数据上训练RL策略成本高昂且存在安全风险。 - 现有基于像素级扩散(diffusion)的世界模型(world model)虽能实现安全的想象训练,但其多步扩散推理延迟高(2秒/帧),无法支持高频率的RL交互。
🔧 核心方法
论文提出了DreamerAD框架,这是一个基于潜在世界模型(latent world model)的高效强化学习框架,包含三个关键技术机制: - 捷径强制(shortcut forcing):通过递归多分辨率步骤压缩,将扩散采样从100步减少到1步,实现80倍加速。 - 自回归密集奖励模型(autoregressive dense reward model):直接在潜在表示(latent representations)上操作,实现细粒度信用分配(credit assignment)。 - 高斯词汇表采样(Gaussian vocabulary sampling):用于GRPO,将探索限制在物理上可行的轨迹内。
💡 核心创新
论文的核心创新点在于: - **首创了用于自动驾驶的潜在世界模型框架**,首次将扩散采样从100步压缩到1步,在保持视觉可解释性的同时实现了80倍的加速,从根本上解决了扩散模型推理延迟高的瓶颈。 - **提出了“捷径强制”等新颖机制**,通过递归多分辨率步骤压缩技术,高效地从视频生成模型中提取去噪潜在特征(denoised latent features),实现了从像素级到潜在级(latent-space)世界模型的关键跨越。 - **构建了完整的潜在空间强化学习(latent-space RL)体系**,将自回归密集奖励模型和高斯词汇表采样与高效的世界模型相结合,为自动驾驶提供了一个既高效又安全的RL训练范式。
🏆 总体贡献
论文对该领域的整体贡献是: - **方法论贡献**:证明了潜在空间强化学习(latent-space RL)在自动驾驶领域的有效性,为高效、安全的RL训练开辟了新路径。 - **性能突破**:在NavSim v2基准上取得了87.7 EPDMS的顶尖(state-of-the-art)性能。 - **实践价值**:大幅降低了基于世界模型的RL训练的计算成本和延迟,使其更接近实际应用,推动了自动驾驶仿真与训练技术的发展。