该论文旨在解决自适应交通信号控制(Adaptive Traffic Signal Control, ATSC)中的两个关键问题:
- 现有基于多智能体强化学习(Multi-agent Reinforcement Learning, MARL)的方法在复杂动态交通环境中表征能力有限,导致性能欠佳和泛化能力差。
- 大语言模型(Large Language Models, LLMs)虽具有强大的语义表征和推理能力,但其幻觉(hallucination)倾向和推理速度慢的问题阻碍了其在实时决策任务中的直接应用。
论文提出了一种名为LATS的新型学习范式,核心是一个即插即用(plug-and-play)的师生学习(teacher-student learning)模块:
1. **教师模型**:使用一个经过训练的嵌入大语言模型(embedding LLM)作为教师,其输入是每个交叉口的拓扑结构(topology structures)和交通动态(traffic dynamics)信息,输出是丰富的语义特征(semantic features)。
2. **学生模型**:一个更简单的神经网络作为学生,在潜在空间(latent space)中通过知识蒸馏(knowledge distillation)学习模仿教师模型生成的特征。
3. **集成与决策**:最终模型在强化学习(Reinforcement Learning, RL)的决策过程中可以独立于大语言模型运行,利用蒸馏得到的增强表征进行下游决策。
论文的核心创新点在于提出了一种新颖的、将大语言模型与多智能体强化学习深度融合的范式,具体独特之处包括:
- **范式创新**:首次提出利用大语言模型的强先验知识和归纳能力来增强多智能体强化学习在交通控制中的决策过程,克服了两类技术各自的固有缺陷。
- **模块设计**:设计了即插即用的师生学习模块,其中大语言模型仅作为离线的“特征教师”,避免了其直接参与实时决策带来的幻觉和延迟问题。
- **知识迁移机制**:通过潜在空间的知识蒸馏,将大语言模型强大的语义表征能力高效地迁移到一个轻量级的学生网络中,从而显著提升了最终模型的表征能力和泛化性,而无需在部署时依赖大语言模型。
论文对该领域的整体贡献主要体现在:
- **方法论贡献**:为自适应交通信号控制领域提供了一种结合大语言模型与强化学习的新颖、有效的学习范式(LATS),开辟了利用大语言模型先验知识提升强化学习智能体性能的新途径。
- **性能提升**:通过大量实验证明,该方法能显著增强强化学习模型在多样交通场景下的表征学习能力(representation learning capability),从而在整体性能和泛化能力上均优于传统的强化学习方法以及纯大语言模型方法。
- **实践价值**:所提出的框架实现了性能与效率的平衡,学生网络继承了教师的知识但运行高效,更适合实际交通信号控制系统的部署需求。