← 返回论文列表

ReflectDrive-2: 强化学习对齐的离散扩散驾驶自编辑
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

作者: Huimin Wang, Yue Wang, Bihao Cui 等10人
arXiv: 2605.04647v1
分类: cs.RO
📝 论文摘要
我们提出ReflectDrive-2,一种带有独立动作专家的掩蔽离散扩散自动驾驶规划器,它将规划表示为离散轨迹令牌,并通过并行掩蔽解码生成。这种离散令牌空间实现了原地轨迹修正:AutoEdit使用同一模型重写选中的令牌,无需额外的精化网络。为了训练这一能力,我们采用两阶段流程。首先,我们构建沿纵向进度和横向航向方向的结构感知专家轨迹扰动,并监督模型恢复原始专家轨迹。然后,我们使用强化学习(RL)对完整的决策-草稿-反思(decision-draft-reflect)推演进行微调,将最终编辑后轨迹的终端驾驶奖励分配,并通过完整推演转移传播策略梯度信誉。完整推演RL被证明对耦合草稿和编辑至关重要:仅通过监督训练,推理时的AutoEdit最多能将PDMS提升0.3,而RL将其增益提升至1.9。我们还联合设计了用于决策-草稿-反思流程的高效反思解码堆栈,结合了共享前缀KV重用、交替步进解码和融合的端侧去掩蔽。在NAVSIM上,ReflectDrive-2在仅限摄像头输入下达到91.0 PDMS,在6选1预言机设置下达到94.8 PDMS,同时在NVIDIA Thor上平均延迟31.8毫秒。

📊 核心分析

🎯 研究动机
- 现有**自动驾驶轨迹规划(autonomous driving trajectory planning)** 方法缺乏自我修正能力,往往需要额外精化网络(refinement network) - **离散扩散模型(discrete diffusion model)** 虽然能生成多样化的轨迹计划,但无法在离散标记空间内高效地原地编辑修正 - 研究背景:自动驾驶对安全性和鲁棒性要求高,模型必须具备自我纠错能力,而现有方法在推理阶段难以实现无辅助网络的**原址编辑(in-place editing)**
🔧 核心方法
- 提出**ReflectDrive-2** 框架,包含一个**掩码离散扩散规划器(masked discrete diffusion planner)** 和独立的**动作专家(action expert)**,将轨迹表示为离散标记(discrete trajectory tokens)并通过**并行掩码解码(parallel masked decoding)** 生成 - 核心编辑机制**AutoEdit**:无需辅助精化网络,使用同一扩散模型直接重写选定轨迹标记,实现**原地轨迹修正(in-place trajectory revision)** - 两阶段训练流程:第一阶段构造沿纵向(longitudinal)和横向(lateral)方向的结构感知扰动(structured-aware perturbations),监督模型恢复原始专家轨迹;第二阶段采用**强化学习(reinforcement learning, RL)** 微调完整的**决策-草稿-反射(decision-draft-reflect)** 流程,将终端驾驶奖励分配给最终编辑后的轨迹,并通过全流程的回转传播策略梯度
💡 核心创新
- **离散标记空间中的原地自编辑**:首次在离散扩散规划器中实现无需辅助网络的自编辑,利用同一个模型进行重写,显著降低推理开销 - **全流程强化学习(Full-rollout RL)**:证明将RL应用于完整的决策-草稿-反射流程是耦合草稿与编辑的关键,相比纯监督训练(PDMS增益仅0.3),RL将编辑带来的增益提升至1.9 - **高效的反射解码堆栈(reflective decoding stack)**:协同设计**共享前缀KV复用(shared-prefix KV reuse)**、**交替步骤解码(Alternating Step Decode)** 和**融合设备上解掩码(fused on-device unmasking)**,实现低延迟推理
🏆 总体贡献
- 为**自动驾驶离散扩散规划(discrete diffusion planning)** 提供了一种新颖的自我编辑范式,无需额外网络即可实现高效轨迹修正 - 在**NAVSIM** 基准上取得领先性能:仅使用摄像头输入达到**91.0 PDMS**,最佳6次采样达**94.8 PDMS**,同时平均延迟仅**31.8毫秒** (NVIDIA Thor平台) - 揭示了强化学习在离散扩散规划中自我编辑训练的关键作用,为后续将**强化学习(RL)** 与**扩散模型(diffusion model)** 结合提供方法论指导