该论文旨在解决纯追踪(Pure Pursuit)路径跟踪算法中前瞻距离(lookahead distance)选择的两难问题。研究背景是:在自动驾驶赛车中,固定的前瞻距离无法同时满足直道稳定性与弯道精度的需求,短距离利于转弯但直道易失稳,长距离则相反,这限制了经典控制器的性能。
论文提出了一种混合控制框架,具体方法包括:
- 将近端策略优化(Proximal Policy Optimization, PPO)强化学习算法与经典纯追踪(Pure Pursuit)控制器集成。
- PPO智能体以车辆速度和多视野曲率特征(multi-horizon curvature features)为输入,动态输出在线前瞻距离指令。
- 使用Stable-Baselines3在F1TENTH Gym模拟器中训练智能体,并采用KL惩罚(KL penalty)和学习率衰减(learning-rate decay)确保训练稳定性。
- 将训练好的策略部署于ROS2环境,实时指导纯追踪控制器。
论文的核心创新点在于:
- **首次将强化学习(reinforcement learning)用于动态调整纯追踪算法的前瞻距离**,实现了对该关键参数的自适应在线优化。
- 提出了一种**轻量级、可解释的混合架构**,仅通过在线调整单一可解释参数(前瞻距离)来增强经典控制器,而非完全替代,兼顾了性能与可靠性。
- 所学的策略能够**零样本迁移(zero-shot transfer)到真实硬件**,在未见过的赛道上显著提升单圈时间和完成率,并耐受更激进的速度曲线缩放。
论文对该领域的整体贡献包括:
- 为经典路径跟踪算法提供了一种数据驱动的自适应增强范式,证明了强化学习与传统控制方法有效结合的可行性。
- 通过仿真与真实1:10比例自动驾驶赛车平台的实验,验证了所提方法在提升圈速、鲁棒性和泛化性方面的优势,并成功实现了从仿真到现实的迁移。
- 为自动驾驶赛车领域提供了一种高性能、可转移的解决方案,同时保持了控制框架的简洁性和可解释性。