- 现有基于强化学习(RL)的无人水面艇(USV)自主导航方法在动态海洋环境中难以同时保证安全性和遵守国际海上避碰规则(COLREGs),特别是当感知系统存在未校准的不确定性时
- 状态估计误差会导致不可靠的置信状态,进而误导价值函数,而离散的交通规则引入学习目标的不连续性
- 研究背景:智能船舶自主航行需要处理感知不确定性、几何约束和规则合规性三重挑战
- 提出**可信度加权价值学习(CW-VL)**:通过滤波器估计协方差与经验误差统计之间的差异计算动态信任因子,调整评论家的异方差损失,防止策略过拟合噪声样本
- 引入**协方差膨胀速度障碍(CI-VO)**:将位置估计不确定性映射为集合级角度余量,形成保守几何屏蔽,覆盖危险探索动作
- 设计**风险感知COLREGs职责嵌入**:将二元相遇职责转化为连续规则感知信号,提供平滑的扇区过渡信息,抑制稀疏规则奖励带来的振荡
- **可信度感知价值学习**:首次将动态信任因子引入强化学习评论家训练,基于不确定性差异自适应调整损失权重,避免过拟合
- **几何安全屏蔽与不确定性的深度融合**:利用协方差膨胀将位置不确定性直接转化为速度障碍的安全角度余量,提供保守但有效的安全保护
- **连续规则嵌入**:将离散的COLREGs规则松弛为连续信号,消除因规则稀疏性导致的学习不稳定问题
- 为无人水面艇(USV)安全导航提供了一种统一的框架,同时处理感知不确定性、几何约束和规则合规性
- 在仿真相遇研究中证明了对感知不一致性的训练鲁棒性提升,以及在避碰和COLREGs合规方面优于基线方法
- 所提出的可信度加权、几何屏蔽和规则嵌入技术可推广到其他受不确定性和规则约束的机器人导航任务