该论文旨在解决自主车辆在威胁环境中的实时路径规划问题。研究背景是:传统最优控制方法虽然能找到理想路径,但计算时间过长,难以满足实时决策需求。
论文使用了深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)方法,具体包括:
- 将威胁建模为简单的圆形“禁入区”。
- 定义任务失败条件:车辆进入“禁入区”或未到达目的地邻域。
- 使用奖励函数和两个神经网络(评论家网络和演员网络)来描述环境并指导控制。
- 训练DDPG智能体学习从当前状态(位置和速度)到一系列可行动作的直接映射,以安全到达目标。
- 在仿真中验证方法,并与传统最优控制(伪谱法)进行对比。
论文的核心创新点在于:
- 将DDPG强化学习方法应用于威胁环境下的路径规划,并明确建模“禁入区”威胁。
- 训练智能体不仅学习单一路径,而是寻找最大的可行起始点集合(“可行集”),从而为任务规划提供关键的事前可达成性评估。
- 通过对比实验,实证了基于学习的方法在速度上显著优于传统最优控制方法,更适合实时应用,同时明确了其当前局限性(存在“不可行集”且路径可能非最优)。
论文对该领域的整体贡献是:
- 提出并验证了一种基于DDPG的快速路径规划框架,为实时自主决策提供了新思路。
- 通过可行集分析,将路径规划从单次求解提升到对任务全局可行性的评估,增强了方法的实用性。
- 通过与传统方法的系统对比,清晰揭示了基于学习的方法在速度与最优性之间的权衡,为后续研究指明了改进方向(如改进奖励函数、对比可行集、探索弧搜索内点法等)。