该论文旨在解决自动驾驶领域强化学习(RL)训练面临的现实难题:
- 在真实世界驾驶数据上训练RL策略成本高昂且存在安全风险。
- 现有基于像素级扩散(diffusion)的世界模型(world model)虽能实现安全的想象训练,但其多步扩散推理延迟高(2秒/帧),无法支持高频率的RL交互。
论文提出了DreamerAD框架,这是一个基于潜在世界模型(latent world model)的高效强化学习框架,包含三个关键技术机制:
- 捷径强制(shortcut forcing):通过递归多分辨率步骤压缩,将扩散采样从100步减少到1步,实现80倍加速。
- 自回归密集奖励模型(autoregressive dense reward model):直接在潜在表示(latent representations)上操作,实现细粒度信用分配(credit assignment)。
- 高斯词汇表采样(Gaussian vocabulary sampling):用于GRPO,将探索限制在物理上可行的轨迹内。
论文的核心创新点在于:
- **首创了用于自动驾驶的潜在世界模型框架**,首次将扩散采样从100步压缩到1步,在保持视觉可解释性的同时实现了80倍的加速,从根本上解决了扩散模型推理延迟高的瓶颈。
- **提出了“捷径强制”等新颖机制**,通过递归多分辨率步骤压缩技术,高效地从视频生成模型中提取去噪潜在特征(denoised latent features),实现了从像素级到潜在级(latent-space)世界模型的关键跨越。
- **构建了完整的潜在空间强化学习(latent-space RL)体系**,将自回归密集奖励模型和高斯词汇表采样与高效的世界模型相结合,为自动驾驶提供了一个既高效又安全的RL训练范式。
论文对该领域的整体贡献是:
- **方法论贡献**:证明了潜在空间强化学习(latent-space RL)在自动驾驶领域的有效性,为高效、安全的RL训练开辟了新路径。
- **性能突破**:在NavSim v2基准上取得了87.7 EPDMS的顶尖(state-of-the-art)性能。
- **实践价值**:大幅降低了基于世界模型的RL训练的计算成本和延迟,使其更接近实际应用,推动了自动驾驶仿真与训练技术的发展。