← 返回论文列表

多智能体在线强化微调:协同驾驶中多智能体扩散规划的稳定在线强化微调
Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving

作者: Haojie Bai, Aimin Li, Ruoyu Yao 等8人
arXiv: 2604.11734v1
分类: cs.RO, cs.AI
📝 论文摘要
闭环协同驾驶需要规划器能够生成真实的多模态多智能体轨迹,同时提升安全性与交通效率。现有扩散规划器虽能从演示数据中建模多模态行为,但常存在场景一致性弱、与闭环目标契合度不足的问题;此外,在反应式多智能体环境中进行稳定的在线后训练仍具挑战。我们提出Multi-ORFT方法,将场景条件化扩散预训练与稳定的在线强化后训练相结合。在预训练阶段,规划器通过智能体间自注意力机制、交叉注意力机制以及基于AdaLN-Zero的场景条件化技术,提升联合轨迹的场景一致性与道路遵循性。在后训练阶段,我们构建了双层马尔可夫决策过程,显式提供逐步反向核似然以支持在线优化,并结合密集轨迹级奖励与方差门控群体相对策略优化(VG-GRPO)来稳定训练过程。在WOMD闭环基准测试中,相较于预训练规划器,Multi-ORFT将碰撞率从2.04%降至1.89%,道路偏离率从1.68%降至1.36%,同时将平均速度从8.36提升至8.61米/秒;在核心安全与效率指标上,其表现优于SMART-large、SMART-tiny-CLSFT及VBD等强开源基线模型。这些结果表明,将场景一致性去噪与稳定的在线扩散策略优化相结合,能有效提升闭环协同驾驶的可靠性。

📊 核心分析

🎯 研究动机
该论文旨在解决闭环协同驾驶中的多智能体轨迹规划问题。研究背景是: - 现有扩散模型(diffusion model)规划器能够从演示数据中建模多模态(multimodal)行为,但存在场景一致性(scene consistency)弱、与闭环目标对齐不佳的问题。 - 在反应式多智能体环境中进行稳定的在线后训练(online post-training)仍然很困难。
🔧 核心方法
论文提出了Multi-ORFT方法,该方法将场景条件化扩散预训练(scene-conditioned diffusion pre-training)与稳定的在线强化后训练(online reinforcement post-training)相结合: - **预训练阶段**:规划器使用智能体间自注意力(inter-agent self-attention)、交叉注意力(cross-attention)和基于AdaLN-Zero的场景条件化(scene conditioning)来提升联合轨迹的场景一致性和道路遵循性(road adherence)。 - **后训练阶段**: - 制定了一个两级马尔可夫决策过程(two-level MDP),暴露用于在线优化的逐步反向核似然(step-wise reverse-kernel likelihoods)。 - 结合密集轨迹级奖励(dense trajectory-level rewards)与方差门控组相对策略优化(variance-gated group-relative policy optimization, VG-GRPO)来稳定训练。
💡 核心创新
论文的核心创新点在于: - **方法耦合创新**:首次将场景条件化扩散预训练与稳定的在线强化后训练系统性地耦合(coupling)起来,用于多智能体扩散规划(multi-agent diffusion planning)。 - **训练稳定性创新**:提出了一个专门用于在线优化扩散模型的两级MDP框架,并设计了VG-GRPO算法来稳定多智能体环境中的训练过程。 - **架构与优化目标创新**:在扩散模型中引入了增强场景一致性的注意力机制,并将逐步反向核似然暴露为可优化的目标,从而更好地对齐闭环驾驶的奖励信号。
🏆 总体贡献
论文对该领域的整体贡献是: - **提出新框架**:提出了Multi-ORFT框架,证明了将场景一致的降噪(scene-consistent denoising)与稳定的在线扩散策略优化(online diffusion-policy optimization)相结合,可以提升闭环协同驾驶的可靠性。 - **实现性能提升**:在WOMD闭环基准测试上,相对于预训练规划器,将碰撞率(collision rate)从2.04%降至1.89%,将越野率(off-road rate)从1.68%降至1.36%,同时将平均速度从8.36提升至8.61 m/s,并在主要安全和效率指标上超越了多个强开源基线。 - **提供新见解**:为多智能体扩散模型的在线强化微调(reinforcement fine-tuning)提供了新的稳定训练方法和理论框架。