超越保守自动驾驶：在多智能体场景中通过耦合模型预测控制与深度强化学习实现

Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

作者: Saeed Rahmani, Gözde Körpe, Zhenlin 等7人

arXiv: 2604.13891v1

分类: cs.RO, cs.AI, eess.SY

📝 论文摘要

无信号灯交叉口的自动驾驶因复杂的多车交互及安全与效率的平衡需求而极具挑战。模型预测控制通过优化提供结构化约束处理能力，但其依赖人工设计规则，往往导致行为过于保守。深度强化学习能够从经验中学习自适应行为，但在安全保证与未知环境泛化方面常面临困难。本研究提出一种融合模型预测控制与强化学习的集成框架，以提升多智能体场景中的导航性能。实验表明，在三种交通密度条件下，该框架性能均优于独立模型预测控制与端到端强化学习方法。相较于纯模型预测控制，集成框架整体碰撞率降低21%，成功率提升6.5%。研究进一步评估了该框架在未经重新训练情况下向高速公路合流场景的零样本迁移能力。两种基于模型预测控制的方法均展现出显著优于端到端近端策略优化算法的迁移性能，凸显了模型预测控制主干在跨场景鲁棒性中的关键作用。该框架在训练过程中还表现出比端到端强化学习更快的损失收敛速度，表明其降低了学习负担。这些结果表明，集成方法能够改善多智能体交叉口场景中安全性能与效率的平衡，同时模型预测控制组件为驾驶环境的跨场景泛化提供了坚实基础。本研究的实现代码已开源发布。

📊 核心分析

🎯 研究动机

研究动机: 解决无信号灯交叉路口自动驾驶中的多车交互难题，需要平衡安全性与通行效率。现有方法存在局限性： - 模型预测控制(MPC)依赖人工规则，通常导致过于保守的驾驶行为 - 深度强化学习(RL)能从经验中学习自适应行为，但难以保证安全性且泛化能力不足

🔧 核心方法

核心方法: 提出集成MPC-RL框架： - 耦合模型预测控制(Model Predictive Control, MPC)与深度强化学习(Deep Reinforcement Learning, RL) - MPC提供结构化约束处理和安全基础 - RL学习自适应策略以提升效率 - 在三种交通密度水平下进行实验验证

💡 核心创新

核心创新点: 提出创新的混合控制架构： - 首次将MPC的优化框架与RL的适应性学习能力深度耦合 - MPC作为安全骨干网络，RL作为效率优化器，实现安全与效率的动态平衡 - 框架支持零样本迁移(zero-shot transfer)到新场景（如高速公路汇入） - 相比纯MPC减少21%碰撞率，提升6.5%成功率 - 训练过程中损失函数更快稳定，表明学习负担显著降低

🏆 总体贡献

总体贡献: - 提出可解释的混合控制框架，在安全约束下提升驾驶效率 - 通过实验证明MPC-RL在交叉路口场景中优于独立MPC和端到端RL - 验证MPC骨干网络对跨场景鲁棒性的关键作用 - 提供开源实现代码，促进相关研究发展 - 为多智能体自动驾驶场景提供了新的安全与效率平衡方案