CoordLight：学习去中心化协调以实现网络级交通信号控制

CoordLight: Learning Decentralized Coordination for Network-Wide Traffic Signal Control

作者: Yifeng Zhang, Harsh Goel, Peizhuo Li 等6人

arXiv: 2603.24366v1

分类: cs.LG, cs.RO

📝 论文摘要

自适应交通信号控制(ATSC)对于缓解不断扩张的城市交通拥堵、最大化通行能力及促进可持续出行至关重要。多智能体强化学习(MARL)近年来在处理复杂交通动态方面展现出巨大潜力，但分散式环境中的部分可观测性与协调机制等复杂问题，仍是构建可扩展高效控制策略的核心挑战。为此，我们提出CoordLight——一个基于MARL的框架，通过优化单个交叉口（智能体）的决策机制，并增强与相邻智能体的协调能力，从而提升区域交通效率，最终实现网络级交通优化。具体而言，我们设计了基于车辆排队模型的队列动态状态编码(QDSE)这一创新状态表征方法，强化了智能体分析、预测和响应局部交通动态的能力。进一步提出名为邻域感知策略优化(NAPO)的先进MARL算法，该算法集成注意力机制以识别相邻智能体间的状态与动作依赖关系，旨在促进更协调的决策过程，并通过鲁棒优势值计算改进策略学习更新。这使得智能体能识别并优先处理与关键相邻节点的交互，从而增强智能体间的定向协调与合作能力。通过在包含196个交叉口的三个真实交通数据集上，与前沿交通信号控制方法进行综合对比评估，我们实证表明CoordLight在不同交通流量的多样化路网中均能保持卓越性能。代码已开源：https://github.com/marmotlab/CoordLight

📊 核心分析

🎯 研究动机

该论文旨在解决自适应交通信号控制(ATSC)中的两个关键挑战： - 在去中心化环境中，智能体面临的部分可观测性(partial observability)问题 - 多个路口智能体之间缺乏有效协调，难以实现网络级交通优化

🔧 核心方法

论文提出了CoordLight框架，包含两个核心技术： - 队列动态状态编码(Queue Dynamic State Encoding, QDSE)：基于车辆排队模型的新型状态表示方法，增强智能体对局部交通动态的分析、预测和响应能力 - 邻居感知策略优化(Neighbor-aware Policy Optimization, NAPO)：集成注意力机制(attention mechanism)的多智能体强化学习(MARL)算法，能够识别相邻智能体之间的状态和动作依赖关系，并通过稳健的优势计算改进策略学习更新

💡 核心创新

论文的核心创新点体现在： - 提出了QDSE状态表示方法，将车辆排队模型融入状态编码，使智能体能更准确地捕捉局部交通动态 - 设计了NAPO算法，通过注意力机制实现智能体间的针对性协调，使智能体能够识别并优先处理与关键邻居的交互 - 将局部决策优化与邻居协调机制有机结合，实现了从路口级到网络级的可扩展交通控制

🏆 总体贡献

论文对该领域的整体贡献包括： - 提出了一个完整的去中心化协调框架CoordLight，能够同时优化单个路口决策和邻居间协调 - 在三个真实交通数据集（包含最多196个路口）上的实验表明，该方法在不同交通流量的多样化交通网络中均表现出优越性能 - 为大规模网络级交通信号控制提供了可扩展的解决方案，代码已开源供社区使用