- 城市交通拥堵导致通勤时间长和环境污染,传统交通信号控制系统难以适应动态交通条件
- 现有**深度强化学习(DRL)** 方法使用基于**延迟(delay)** 或**队列(queue)** 的奖励函数,容易产生短视或不稳定的策略
- 需要一种能平衡**吞吐量(throughput)** 与**排放(emission)** 且学习更稳定的奖励设计
- 提出**基于动量的奖励函数(Momentum-Based Reward Function, MBRF)**,鼓励车辆保持移动而非仅仅惩罚拥堵
- 在**SUMO(Simulation of Urban MObility)** 仿真环境中进行评估
- 与基于延迟的奖励、基于队列的奖励以及经典控制器**Max Pressure** 和**LQF** 进行对比
- 使用等待时间、队列长度、吞吐量和CO2排放等标准交通指标衡量性能
- **奖励设计创新**:引入**动量(momentum)** 概念,通过鼓励持续移动而非静态惩罚来引导策略优化
- **性能权衡**:相比现有延迟/队列奖励以及经典控制方法,实现更好的**吞吐量-排放权衡(throughput-emission trade-off)**
- **学习稳定性**:表现出更稳定的学习行为,减少策略波动,提升训练收敛性
- 为**自适应交通信号控制(Adaptive Traffic Signal Control)** 提供了一种新颖的奖励函数范式,兼顾效率与环保
- 在仿真实验中验证了该方法在多个指标上优于现有DRL奖励及经典控制器
- 推动**深度强化学习(DRL)** 在智慧交通领域的实际应用,有助于减少城市交通排放