ReflectDrive-2: 强化学习对齐的离散扩散驾驶自编辑

📝 论文摘要

我们提出ReflectDrive-2，一种带有独立动作专家的掩蔽离散扩散自动驾驶规划器，它将规划表示为离散轨迹令牌，并通过并行掩蔽解码生成。这种离散令牌空间实现了原地轨迹修正：AutoEdit使用同一模型重写选中的令牌，无需额外的精化网络。为了训练这一能力，我们采用两阶段流程。首先，我们构建沿纵向进度和横向航向方向的结构感知专家轨迹扰动，并监督模型恢复原始专家轨迹。然后，我们使用强化学习（RL）对完整的决策-草稿-反思（decision-draft-reflect）推演进行微调，将最终编辑后轨迹的终端驾驶奖励分配，并通过完整推演转移传播策略梯度信誉。完整推演RL被证明对耦合草稿和编辑至关重要：仅通过监督训练，推理时的AutoEdit最多能将PDMS提升0.3，而RL将其增益提升至1.9。我们还联合设计了用于决策-草稿-反思流程的高效反思解码堆栈，结合了共享前缀KV重用、交替步进解码和融合的端侧去掩蔽。在NAVSIM上，ReflectDrive-2在仅限摄像头输入下达到91.0 PDMS，在6选1预言机设置下达到94.8 PDMS，同时在NVIDIA Thor上平均延迟31.8毫秒。

🎯 研究动机

- 现有**自动驾驶轨迹规划(autonomous driving trajectory planning)** 方法缺乏自我修正能力，往往需要额外精化网络(refinement network) - **离散扩散模型(discrete diffusion model)** 虽然能生成多样化的轨迹计划，但无法在离散标记空间内高效地原地编辑修正 - 研究背景：自动驾驶对安全性和鲁棒性要求高，模型必须具备自我纠错能力，而现有方法在推理阶段难以实现无辅助网络的**原址编辑(in-place editing)**

🔧 核心方法

- 提出**ReflectDrive-2** 框架，包含一个**掩码离散扩散规划器(masked discrete diffusion planner)** 和独立的**动作专家(action expert)**，将轨迹表示为离散标记(discrete trajectory tokens)并通过**并行掩码解码(parallel masked decoding)** 生成 - 核心编辑机制**AutoEdit**：无需辅助精化网络，使用同一扩散模型直接重写选定轨迹标记，实现**原地轨迹修正(in-place trajectory revision)** - 两阶段训练流程：第一阶段构造沿纵向(longitudinal)和横向(lateral)方向的结构感知扰动(structured-aware perturbations)，监督模型恢复原始专家轨迹；第二阶段采用**强化学习(reinforcement learning, RL)** 微调完整的**决策-草稿-反射(decision-draft-reflect)** 流程，将终端驾驶奖励分配给最终编辑后的轨迹，并通过全流程的回转传播策略梯度

💡 核心创新

- **离散标记空间中的原地自编辑**：首次在离散扩散规划器中实现无需辅助网络的自编辑，利用同一个模型进行重写，显著降低推理开销 - **全流程强化学习(Full-rollout RL)**：证明将RL应用于完整的决策-草稿-反射流程是耦合草稿与编辑的关键，相比纯监督训练（PDMS增益仅0.3），RL将编辑带来的增益提升至1.9 - **高效的反射解码堆栈(reflective decoding stack)**：协同设计**共享前缀KV复用(shared-prefix KV reuse)**、**交替步骤解码(Alternating Step Decode)** 和**融合设备上解掩码(fused on-device unmasking)**，实现低延迟推理

🏆 总体贡献

- 为**自动驾驶离散扩散规划(discrete diffusion planning)** 提供了一种新颖的自我编辑范式，无需额外网络即可实现高效轨迹修正 - 在**NAVSIM** 基准上取得领先性能：仅使用摄像头输入达到**91.0 PDMS**，最佳6次采样达**94.8 PDMS**，同时平均延迟仅**31.8毫秒** （NVIDIA Thor平台） - 揭示了强化学习在离散扩散规划中自我编辑训练的关键作用，为后续将**强化学习(RL)** 与**扩散模型(diffusion model)** 结合提供方法论指导

ReflectDrive-2: 强化学习对齐的离散扩散驾驶自编辑
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

📊 核心分析

ReflectDrive-2: 强化学习对齐的离散扩散驾驶自编辑 ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

📊 核心分析

ReflectDrive-2: 强化学习对齐的离散扩散驾驶自编辑
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving