← 返回论文列表

SARAD:基于LLM的安全感知混合强化学习与碰撞预测的自动驾驶
SARAD: LLM-Based Safety-Aware Hybrid Reinforcement Learning with Collision Prediction for Autonomous Driving

作者: Kangyu Wu, Peng Cui, Guoxi Chen 等4人
arXiv: 2605.28583v1
分类: cs.RO, cs.AI, cs.LG, eess.SY
📝 论文摘要
确保自动驾驶系统在决策过程中兼顾安全与效率仍是一项根本性挑战。传统深度强化学习存在随机探索不安全及收敛缓慢的问题,而大型语言模型在实时推理操作中存在固有延迟。为解决这些局限,本文提出SARAD——一种将LLMs与DRL协同融合的新型安全感知混合框架,用于自动驾驶。SARAD利用来自动态专家知识库的检索增强生成(RAG)增强型LLM引导决策,替代DRL的随机探索。提出注意力判别器,将LLM的先验知识整合到DRL策略优化中。进一步设计基于历史碰撞数据微调的碰撞预测模块,提升车辆安全性。大量实验表明,SARAD在Highway-Env模拟器中实现了显著的性能提升,验证了所提模型在自动驾驶中的有效性。

📊 核心分析

🎯 研究动机
- 自动驾驶系统在决策中同时保证**安全性(safety)** 和**效率(efficiency)** 仍是根本性挑战 - 传统**深度强化学习(DRL)** 存在不安全随机探索和收敛慢的问题 - **大语言模型(LLM)** 在实时推理中具有固有延迟,难以直接应用
🔧 核心方法
- 提出**SARAD** 混合框架,协同LLM与DRL进行自动驾驶决策 - 使用**检索增强生成(RAG)** 从动态专家知识库中获取LLM引导的决策,替代DRL的随机探索 - 设计**注意力判别器(attention discriminator)** 将LLM先验知识整合到DRL策略优化中 - 构建**碰撞预测器(collision predictor)**,利用历史碰撞数据微调,提升车辆安全性
💡 核心创新
- **首次融合**:将**RAG增强的LLM** 与**DRL** 在安全感知框架中结合,弥补随机探索与实时推理的不足 - **双模块创新**:提出**注意力判别器** 实现LLM知识向DRL策略的迁移,以及**碰撞预测器** 专门针对安全性优化 - **替代性探索机制**:用**LLM引导决策** 替代DRL的随机探索,既加快收敛又提升安全性
🏆 总体贡献
- 为自动驾驶决策提供了一个**安全感知混合范式**,有效解决DRL的安全风险和LLM的延迟问题 - 在**Highway-Env** 模拟器上取得显著性能提升,验证了框架的有效性 - 为将**大语言模型** 与**强化学习** 结合用于实时控制任务提供了可参考的设计方案