信任、几何与规则：一种面向不确定性下安全USV导航的可信度感知强化学习框架

📝 论文摘要

在动态海事环境中，实现无人水面艇（USVs）安全且符合《国际海上避碰规则》（COLREGs）的自主导航仍是一项严峻挑战，尤其当感知系统存在未校准的不确定性时。现有基于强化学习（RL）的方法常因状态估计误差导致不可靠的置信状态误导价值函数而失效，同时离散的交通规则又为学习目标引入不连续性。为解决上述问题，我们提出了一种融合可信度感知学习、几何安全屏蔽及连续规则感知嵌入的框架。首先，可信度加权价值学习（CW-VL）通过滤波器估计协方差与经验误差统计量之间的差异推导动态信任因子，以调节评价网络的异方差损失，防止策略过度拟合噪声样本。其次，协方差膨胀速度障碍（CI-VO）将位置估计不确定性映射为集合角度裕度，形成保守的几何安全屏蔽以覆盖危险探索行为。第三，风险感知COLREGs职责嵌入将二元避碰职责松弛为连续规则感知信号，提供平滑的扇区转化信息并抑制稀疏规则奖励引发的振荡。仿真遭遇场景实验表明，该方法在感知不一致情况下具有更强的训练鲁棒性，且在避碰性能与COLREGs合规性方面优于基线方法。

🎯 研究动机

- 现有基于强化学习(RL)的无人水面艇(USV)自主导航方法在动态海洋环境中难以同时保证安全性和遵守国际海上避碰规则(COLREGs)，特别是当感知系统存在未校准的不确定性时 - 状态估计误差会导致不可靠的置信状态，进而误导价值函数，而离散的交通规则引入学习目标的不连续性 - 研究背景：智能船舶自主航行需要处理感知不确定性、几何约束和规则合规性三重挑战

🔧 核心方法

- 提出**可信度加权价值学习(CW-VL)**：通过滤波器估计协方差与经验误差统计之间的差异计算动态信任因子，调整评论家的异方差损失，防止策略过拟合噪声样本 - 引入**协方差膨胀速度障碍(CI-VO)**：将位置估计不确定性映射为集合级角度余量，形成保守几何屏蔽，覆盖危险探索动作 - 设计**风险感知COLREGs职责嵌入**：将二元相遇职责转化为连续规则感知信号，提供平滑的扇区过渡信息，抑制稀疏规则奖励带来的振荡

💡 核心创新

- **可信度感知价值学习**：首次将动态信任因子引入强化学习评论家训练，基于不确定性差异自适应调整损失权重，避免过拟合 - **几何安全屏蔽与不确定性的深度融合**：利用协方差膨胀将位置不确定性直接转化为速度障碍的安全角度余量，提供保守但有效的安全保护 - **连续规则嵌入**：将离散的COLREGs规则松弛为连续信号，消除因规则稀疏性导致的学习不稳定问题

🏆 总体贡献

- 为无人水面艇(USV)安全导航提供了一种统一的框架，同时处理感知不确定性、几何约束和规则合规性 - 在仿真相遇研究中证明了对感知不一致性的训练鲁棒性提升，以及在避碰和COLREGs合规方面优于基线方法 - 所提出的可信度加权、几何屏蔽和规则嵌入技术可推广到其他受不确定性和规则约束的机器人导航任务

信任、几何与规则：一种面向不确定性下安全USV导航的可信度感知强化学习框架
Trust, Geometry, and Rules: A Credibility-Aware Reinforcement Learning Framework for Safe USV Navigation under Uncertainty

📊 核心分析

信任、几何与规则：一种面向不确定性下安全USV导航的可信度感知强化学习框架 Trust, Geometry, and Rules: A Credibility-Aware Reinforcement Learning Framework for Safe USV Navigation under Uncertainty

📊 核心分析

信任、几何与规则：一种面向不确定性下安全USV导航的可信度感知强化学习框架
Trust, Geometry, and Rules: A Credibility-Aware Reinforcement Learning Framework for Safe USV Navigation under Uncertainty