该论文旨在解决闭环协同驾驶中的多智能体轨迹规划问题。研究背景是:
- 现有扩散模型(diffusion model)规划器能够从演示数据中建模多模态(multimodal)行为,但存在场景一致性(scene consistency)弱、与闭环目标对齐不佳的问题。
- 在反应式多智能体环境中进行稳定的在线后训练(online post-training)仍然很困难。
论文提出了Multi-ORFT方法,该方法将场景条件化扩散预训练(scene-conditioned diffusion pre-training)与稳定的在线强化后训练(online reinforcement post-training)相结合:
- **预训练阶段**:规划器使用智能体间自注意力(inter-agent self-attention)、交叉注意力(cross-attention)和基于AdaLN-Zero的场景条件化(scene conditioning)来提升联合轨迹的场景一致性和道路遵循性(road adherence)。
- **后训练阶段**:
- 制定了一个两级马尔可夫决策过程(two-level MDP),暴露用于在线优化的逐步反向核似然(step-wise reverse-kernel likelihoods)。
- 结合密集轨迹级奖励(dense trajectory-level rewards)与方差门控组相对策略优化(variance-gated group-relative policy optimization, VG-GRPO)来稳定训练。
论文的核心创新点在于:
- **方法耦合创新**:首次将场景条件化扩散预训练与稳定的在线强化后训练系统性地耦合(coupling)起来,用于多智能体扩散规划(multi-agent diffusion planning)。
- **训练稳定性创新**:提出了一个专门用于在线优化扩散模型的两级MDP框架,并设计了VG-GRPO算法来稳定多智能体环境中的训练过程。
- **架构与优化目标创新**:在扩散模型中引入了增强场景一致性的注意力机制,并将逐步反向核似然暴露为可优化的目标,从而更好地对齐闭环驾驶的奖励信号。
论文对该领域的整体贡献是:
- **提出新框架**:提出了Multi-ORFT框架,证明了将场景一致的降噪(scene-consistent denoising)与稳定的在线扩散策略优化(online diffusion-policy optimization)相结合,可以提升闭环协同驾驶的可靠性。
- **实现性能提升**:在WOMD闭环基准测试上,相对于预训练规划器,将碰撞率(collision rate)从2.04%降至1.89%,将越野率(off-road rate)从1.68%降至1.36%,同时将平均速度从8.36提升至8.61 m/s,并在主要安全和效率指标上超越了多个强开源基线。
- **提供新见解**:为多智能体扩散模型的在线强化微调(reinforcement fine-tuning)提供了新的稳定训练方法和理论框架。