- 现有**自动驾驶轨迹规划(autonomous driving trajectory planning)** 方法缺乏自我修正能力,往往需要额外精化网络(refinement network)
- **离散扩散模型(discrete diffusion model)** 虽然能生成多样化的轨迹计划,但无法在离散标记空间内高效地原地编辑修正
- 研究背景:自动驾驶对安全性和鲁棒性要求高,模型必须具备自我纠错能力,而现有方法在推理阶段难以实现无辅助网络的**原址编辑(in-place editing)**
- 提出**ReflectDrive-2** 框架,包含一个**掩码离散扩散规划器(masked discrete diffusion planner)** 和独立的**动作专家(action expert)**,将轨迹表示为离散标记(discrete trajectory tokens)并通过**并行掩码解码(parallel masked decoding)** 生成
- 核心编辑机制**AutoEdit**:无需辅助精化网络,使用同一扩散模型直接重写选定轨迹标记,实现**原地轨迹修正(in-place trajectory revision)**
- 两阶段训练流程:第一阶段构造沿纵向(longitudinal)和横向(lateral)方向的结构感知扰动(structured-aware perturbations),监督模型恢复原始专家轨迹;第二阶段采用**强化学习(reinforcement learning, RL)** 微调完整的**决策-草稿-反射(decision-draft-reflect)** 流程,将终端驾驶奖励分配给最终编辑后的轨迹,并通过全流程的回转传播策略梯度
- **离散标记空间中的原地自编辑**:首次在离散扩散规划器中实现无需辅助网络的自编辑,利用同一个模型进行重写,显著降低推理开销
- **全流程强化学习(Full-rollout RL)**:证明将RL应用于完整的决策-草稿-反射流程是耦合草稿与编辑的关键,相比纯监督训练(PDMS增益仅0.3),RL将编辑带来的增益提升至1.9
- **高效的反射解码堆栈(reflective decoding stack)**:协同设计**共享前缀KV复用(shared-prefix KV reuse)**、**交替步骤解码(Alternating Step Decode)** 和**融合设备上解掩码(fused on-device unmasking)**,实现低延迟推理
- 为**自动驾驶离散扩散规划(discrete diffusion planning)** 提供了一种新颖的自我编辑范式,无需额外网络即可实现高效轨迹修正
- 在**NAVSIM** 基准上取得领先性能:仅使用摄像头输入达到**91.0 PDMS**,最佳6次采样达**94.8 PDMS**,同时平均延迟仅**31.8毫秒** (NVIDIA Thor平台)
- 揭示了强化学习在离散扩散规划中自我编辑训练的关键作用,为后续将**强化学习(RL)** 与**扩散模型(diffusion model)** 结合提供方法论指导