DreamerAD：基于潜在世界模型的高效自动驾驶强化学习

📝 论文摘要

我们推出DreamerAD，这是首个通过将扩散采样从100步压缩至1步实现80倍加速并保持视觉可解释性的潜在世界模型框架，为自动驾驶提供了高效的强化学习解决方案。在真实世界驾驶数据上训练强化学习策略成本高昂且存在安全风险。现有基于像素级扩散的世界模型虽能实现安全的想象式训练，但其多步扩散推理延迟（2秒/帧）阻碍了高频强化学习交互。我们的方法通过三项关键机制利用视频生成模型的去噪潜在特征：（1）通过递归多分辨率步长压缩降低采样复杂度的捷径强制机制；（2）直接在潜在表征上运行的自回归密集奖励模型，实现细粒度信用分配；（3）为GRPO设计的高斯词汇采样，将探索约束在物理可行的轨迹空间。DreamerAD在NavSim v2基准上取得87.7 EPDMS的卓越表现，确立了最先进的性能标准，证明潜在空间强化学习在自动驾驶领域具有显著效力。

🎯 研究动机

该论文旨在解决自动驾驶领域强化学习(RL)训练面临的现实难题： - 在真实世界驾驶数据上训练RL策略成本高昂且存在安全风险。 - 现有基于像素级扩散(diffusion)的世界模型(world model)虽能实现安全的想象训练，但其多步扩散推理延迟高（2秒/帧），无法支持高频率的RL交互。

🔧 核心方法

论文提出了DreamerAD框架，这是一个基于潜在世界模型(latent world model)的高效强化学习框架，包含三个关键技术机制： - 捷径强制(shortcut forcing)：通过递归多分辨率步骤压缩，将扩散采样从100步减少到1步，实现80倍加速。 - 自回归密集奖励模型(autoregressive dense reward model)：直接在潜在表示(latent representations)上操作，实现细粒度信用分配(credit assignment)。 - 高斯词汇表采样(Gaussian vocabulary sampling)：用于GRPO，将探索限制在物理上可行的轨迹内。

💡 核心创新

论文的核心创新点在于： - **首创了用于自动驾驶的潜在世界模型框架**，首次将扩散采样从100步压缩到1步，在保持视觉可解释性的同时实现了80倍的加速，从根本上解决了扩散模型推理延迟高的瓶颈。 - **提出了“捷径强制”等新颖机制**，通过递归多分辨率步骤压缩技术，高效地从视频生成模型中提取去噪潜在特征(denoised latent features)，实现了从像素级到潜在级(latent-space)世界模型的关键跨越。 - **构建了完整的潜在空间强化学习(latent-space RL)体系**，将自回归密集奖励模型和高斯词汇表采样与高效的世界模型相结合，为自动驾驶提供了一个既高效又安全的RL训练范式。

🏆 总体贡献

论文对该领域的整体贡献是： - **方法论贡献**：证明了潜在空间强化学习(latent-space RL)在自动驾驶领域的有效性，为高效、安全的RL训练开辟了新路径。 - **性能突破**：在NavSim v2基准上取得了87.7 EPDMS的顶尖(state-of-the-art)性能。 - **实践价值**：大幅降低了基于世界模型的RL训练的计算成本和延迟，使其更接近实际应用，推动了自动驾驶仿真与训练技术的发展。

DreamerAD：基于潜在世界模型的高效自动驾驶强化学习
DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

📊 核心分析

DreamerAD：基于潜在世界模型的高效自动驾驶强化学习 DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

📊 核心分析

DreamerAD：基于潜在世界模型的高效自动驾驶强化学习
DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving