- 多智能体**近端策略优化(Multi-Agent Proximal Policy Optimization, MAPPO)** 在多维环境下因**非平稳观测(non-stationary observation)** 而无法提取最优策略
- 现有**多智能体强化学习(MARL)** 方法在处理观测不确定性和时间关键型任务时存在检测失败率高的问题
- 背景:MAPPO使用**集中式批评家与分散式行动家(centralized critic with decentralized actors)**,但面对高维动态环境时策略优化受限
- 提出**基于熵正则化的近端策略优化(Entropy Regularization-based Proximal Policy Optimization, ERPPO)** 框架
- 首先训练**分布时空模糊度学习器(Distributional Spatiotemporal Ambiguity, DSA)**,用于估计非平稳约束下目标检测的不确定性
- 在PPO中引入**动态熵正则化(entropy regularization)** 项:高模糊度观测时应用强**L1正则化(L1 regularization)** 以鼓励探索性动作,低模糊度观测时应用弱**L2正则化(L2 regularization)** 以稳定策略更新
- **首次将熵正则化与模糊度估计相结合**,针对观测不确定性动态调整正则化强度,而非使用固定系数
- **自适应的L1/L2混合正则化**:根据**分布时空模糊度(DSA)** 的估计值,在探索与利用之间自动平衡,区别于标准MAPPO的静态裁剪方法
- **端到端(end-to-end)集成**:模糊度学习器与策略优化联合训练,无需额外人工标注不确定性
- 为**多智能体强化学习(MARL)** 在**时间关键型(time-critical)操作** 中的目标定位提供了一种有效优化范式
- 在**AirSim海事搜索模拟测试台(testbed)** 上,**准确率(accuracy)** 优于MAPPO,且**梯度更新更高效(higher gradient)**
- **定性结果(qualitative results)** 证明ERPPO在视觉不确定条件下能有效抑制误报(false detection)