← 返回论文列表

CoordLight:学习去中心化协调以实现网络级交通信号控制
CoordLight: Learning Decentralized Coordination for Network-Wide Traffic Signal Control

作者: Yifeng Zhang, Harsh Goel, Peizhuo Li 等6人
arXiv: 2603.24366v1
分类: cs.LG, cs.RO
📝 论文摘要
自适应交通信号控制(ATSC)对于缓解不断扩张的城市交通拥堵、最大化通行能力及促进可持续出行至关重要。多智能体强化学习(MARL)近年来在处理复杂交通动态方面展现出巨大潜力,但分散式环境中的部分可观测性与协调机制等复杂问题,仍是构建可扩展高效控制策略的核心挑战。为此,我们提出CoordLight——一个基于MARL的框架,通过优化单个交叉口(智能体)的决策机制,并增强与相邻智能体的协调能力,从而提升区域交通效率,最终实现网络级交通优化。具体而言,我们设计了基于车辆排队模型的队列动态状态编码(QDSE)这一创新状态表征方法,强化了智能体分析、预测和响应局部交通动态的能力。进一步提出名为邻域感知策略优化(NAPO)的先进MARL算法,该算法集成注意力机制以识别相邻智能体间的状态与动作依赖关系,旨在促进更协调的决策过程,并通过鲁棒优势值计算改进策略学习更新。这使得智能体能识别并优先处理与关键相邻节点的交互,从而增强智能体间的定向协调与合作能力。通过在包含196个交叉口的三个真实交通数据集上,与前沿交通信号控制方法进行综合对比评估,我们实证表明CoordLight在不同交通流量的多样化路网中均能保持卓越性能。代码已开源:https://github.com/marmotlab/CoordLight

📊 核心分析

🎯 研究动机
该论文旨在解决自适应交通信号控制(ATSC)中的两个关键挑战: - 在去中心化环境中,智能体面临的部分可观测性(partial observability)问题 - 多个路口智能体之间缺乏有效协调,难以实现网络级交通优化
🔧 核心方法
论文提出了CoordLight框架,包含两个核心技术: - 队列动态状态编码(Queue Dynamic State Encoding, QDSE):基于车辆排队模型的新型状态表示方法,增强智能体对局部交通动态的分析、预测和响应能力 - 邻居感知策略优化(Neighbor-aware Policy Optimization, NAPO):集成注意力机制(attention mechanism)的多智能体强化学习(MARL)算法,能够识别相邻智能体之间的状态和动作依赖关系,并通过稳健的优势计算改进策略学习更新
💡 核心创新
论文的核心创新点体现在: - 提出了QDSE状态表示方法,将车辆排队模型融入状态编码,使智能体能更准确地捕捉局部交通动态 - 设计了NAPO算法,通过注意力机制实现智能体间的针对性协调,使智能体能够识别并优先处理与关键邻居的交互 - 将局部决策优化与邻居协调机制有机结合,实现了从路口级到网络级的可扩展交通控制
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出了一个完整的去中心化协调框架CoordLight,能够同时优化单个路口决策和邻居间协调 - 在三个真实交通数据集(包含最多196个路口)上的实验表明,该方法在不同交通流量的多样化交通网络中均表现出优越性能 - 为大规模网络级交通信号控制提供了可扩展的解决方案,代码已开源供社区使用