- 端到端自动驾驶模型通常难以平衡**多模态机动生成(multi-modal maneuver generation)** 与实时推理约束
- **扩散模型(diffusion models)** 虽能捕捉多样化驾驶行为,但其迭代去噪过程导致延迟过高,不适用于安全关键部署
- 现有方法在生成多样性与专家精度之间缺乏有效权衡,且依赖密集几何标注或迭代采样
- 提出**CLEAR框架**,包含**Drive-JEPA** 作为视觉编码器,取代多步去噪链为**VAE潜空间中的单步条件漂移(single-step conditional drift)**,引入条件系数α来平衡多样性与专家精度
- 微调**Qwen 3.5 0.8B** 模型在驾驶QA对上进行微调,提取场景感知的隐藏状态
- 使用隐藏状态驱动**自适应调度器(Adaptive Scheduler)** 从预定义方案中选择条件系数α和样本数量N,以及**交叉注意力评分器(cross-attention scorer)** 从候选轨迹中选择最优轨迹
- **首创性**:将**VAE潜空间单步漂移** 替代扩散模型的迭代去噪,实现超快速生成规划,同时保持多样性
- **语义推理融合**:通过微调大语言模型提取场景感知隐藏状态,用于自适应调度和轨迹评分,实现深度语义推理
- **无需密集几何标注或迭代采样**:通过条件系数和自适应调度平衡多样性与精度,在NAVSIM v1基准上达到SOTA PDMS 93.7
- 为端到端自动驾驶提供了一种高效、高保真的多模态规划范式,无需迭代采样即可实现实时推理
- 在**NAVSIM v1** 基准上取得**SOTA (state-of-the-art) PDMS 93.7**,验证了方法的有效性
- 表明高阶语义推理与快速生成规划可有机结合,为安全关键场景下的自动驾驶模型设计提供新思路