该论文旨在解决自适应交通信号控制(ATSC)中的两个关键挑战:
- 在去中心化环境中,智能体面临的部分可观测性(partial observability)问题
- 多个路口智能体之间缺乏有效协调,难以实现网络级交通优化
论文提出了CoordLight框架,包含两个核心技术:
- 队列动态状态编码(Queue Dynamic State Encoding, QDSE):基于车辆排队模型的新型状态表示方法,增强智能体对局部交通动态的分析、预测和响应能力
- 邻居感知策略优化(Neighbor-aware Policy Optimization, NAPO):集成注意力机制(attention mechanism)的多智能体强化学习(MARL)算法,能够识别相邻智能体之间的状态和动作依赖关系,并通过稳健的优势计算改进策略学习更新
论文的核心创新点体现在:
- 提出了QDSE状态表示方法,将车辆排队模型融入状态编码,使智能体能更准确地捕捉局部交通动态
- 设计了NAPO算法,通过注意力机制实现智能体间的针对性协调,使智能体能够识别并优先处理与关键邻居的交互
- 将局部决策优化与邻居协调机制有机结合,实现了从路口级到网络级的可扩展交通控制
论文对该领域的整体贡献包括:
- 提出了一个完整的去中心化协调框架CoordLight,能够同时优化单个路口决策和邻居间协调
- 在三个真实交通数据集(包含最多196个路口)上的实验表明,该方法在不同交通流量的多样化交通网络中均表现出优越性能
- 为大规模网络级交通信号控制提供了可扩展的解决方案,代码已开源供社区使用