基于强化学习的纯追踪动态前瞻距离在自动驾驶赛车中的应用

📝 论文摘要

纯追踪算法因其简洁性和实时性，在自动驾驶车辆路径跟踪领域得到广泛应用。然而，该算法的性能对前瞻距离参数极为敏感：较短的前瞻距离能提升弯道跟踪性能，但可能导致直线行驶不稳定；较长的前瞻距离可增强行驶平顺性，但会降低弯道跟踪精度。本研究提出一种混合控制框架，将近端策略优化算法与经典纯追踪控制器相结合，实现竞速场景中前瞻距离的动态调整。该框架通过PPO智能体将车辆速度与多尺度曲率特征映射为实时前瞻距离指令，采用Stable-Baselines3在F1TENTH Gym仿真环境中进行训练，通过KL惩罚和学习率衰减机制确保稳定性，最终部署于ROS2环境驱动控制器。仿真实验将所提方法与固定前瞻距离纯追踪算法及自适应纯追踪基准方法进行对比，实车实验则对比了学习型控制器与固定前瞻距离控制器的性能。结果表明：学习策略在陌生赛道上显著提升了单圈速度与连续圈数完成能力，并实现了零样本迁移至实体硬件。学习型控制器通过在直线段增大前瞻距离、弯道段减小前瞻距离的自适应调节，有效验证了通过单参数在线优化增强经典控制器性能的可行性。在陌生赛道测试中，所提方法在蒙特利尔赛道取得33.16秒、亚斯码头赛道取得46.05秒的成绩，相较于基准方法能适应更激进的速控策略，在所有测试配置中获得最优圈速。初步实车实验进一步验证了该框架在1:10比例自动驾驶竞速平台上的仿真到现实迁移能力。

🎯 研究动机

该论文旨在解决纯追踪(Pure Pursuit)路径跟踪算法中前瞻距离(lookahead distance)选择的两难问题。研究背景是：在自动驾驶赛车中，固定的前瞻距离无法同时满足直道稳定性与弯道精度的需求，短距离利于转弯但直道易失稳，长距离则相反，这限制了经典控制器的性能。

🔧 核心方法

论文提出了一种混合控制框架，具体方法包括： - 将近端策略优化(Proximal Policy Optimization, PPO)强化学习算法与经典纯追踪(Pure Pursuit)控制器集成。 - PPO智能体以车辆速度和多视野曲率特征(multi-horizon curvature features)为输入，动态输出在线前瞻距离指令。 - 使用Stable-Baselines3在F1TENTH Gym模拟器中训练智能体，并采用KL惩罚(KL penalty)和学习率衰减(learning-rate decay)确保训练稳定性。 - 将训练好的策略部署于ROS2环境，实时指导纯追踪控制器。

💡 核心创新

论文的核心创新点在于： - **首次将强化学习(reinforcement learning)用于动态调整纯追踪算法的前瞻距离**，实现了对该关键参数的自适应在线优化。 - 提出了一种**轻量级、可解释的混合架构**，仅通过在线调整单一可解释参数（前瞻距离）来增强经典控制器，而非完全替代，兼顾了性能与可靠性。 - 所学的策略能够**零样本迁移(zero-shot transfer)到真实硬件**，在未见过的赛道上显著提升单圈时间和完成率，并耐受更激进的速度曲线缩放。

🏆 总体贡献

论文对该领域的整体贡献包括： - 为经典路径跟踪算法提供了一种数据驱动的自适应增强范式，证明了强化学习与传统控制方法有效结合的可行性。 - 通过仿真与真实1:10比例自动驾驶赛车平台的实验，验证了所提方法在提升圈速、鲁棒性和泛化性方面的优势，并成功实现了从仿真到现实的迁移。 - 为自动驾驶赛车领域提供了一种高性能、可转移的解决方案，同时保持了控制框架的简洁性和可解释性。

基于强化学习的纯追踪动态前瞻距离在自动驾驶赛车中的应用
Dynamic Lookahead Distance via Reinforcement Learning-Based Pure Pursuit for Autonomous Racing

📊 核心分析

基于强化学习的纯追踪动态前瞻距离在自动驾驶赛车中的应用 Dynamic Lookahead Distance via Reinforcement Learning-Based Pure Pursuit for Autonomous Racing

📊 核心分析

基于强化学习的纯追踪动态前瞻距离在自动驾驶赛车中的应用
Dynamic Lookahead Distance via Reinforcement Learning-Based Pure Pursuit for Autonomous Racing