ERPPO：基于熵正则化的近端策略优化

📝 论文摘要

多智能体近端策略优化（MAPPO）是近端策略优化（PPO）算法的一种变体，专门针对多智能体强化学习（MARL）设计。MAPPO通过采用集中式评论家与分散式演员来优化合作性多智能体场景。然而，在多维环境情况下，MAPPO因智能体观测的非平稳性而无法提取最优策略。为解决此问题，我们提出了一种新方法——基于熵正则化的近端策略优化（ERPPO）。在策略优化过程中，我们首先定义了多维观测环境下的目标检测模糊性。分布时空模糊性（DSA）学习器被训练用于估计非平稳约束下的目标检测不确定性。随后，我们通过引入一种新颖的熵正则化项对PPO进行了增强。该正则化通过对高模糊性观测施加更强的L1正则化以鼓励显著探索性动作，并对低模糊性观测施加较弱的L2正则化以稳定近端策略优化，从而动态调整策略更新。该方法旨在通过减少检测失败并优化搜索策略，提升时间关键操作中成功定位目标的概率。在基于AirSim的海上搜索场景测试平台上的实验表明，所提出的ERPPO提高了准确率性能。我们的方法相比MAPPO获得了更高的梯度。定性结果证实了ERPPO在视觉不确定条件下抑制误检测的有效性。

🎯 研究动机

- 多智能体**近端策略优化(Multi-Agent Proximal Policy Optimization, MAPPO)** 在多维环境下因**非平稳观测(non-stationary observation)** 而无法提取最优策略 - 现有**多智能体强化学习(MARL)** 方法在处理观测不确定性和时间关键型任务时存在检测失败率高的问题 - 背景：MAPPO使用**集中式批评家与分散式行动家(centralized critic with decentralized actors)**，但面对高维动态环境时策略优化受限

🔧 核心方法

- 提出**基于熵正则化的近端策略优化(Entropy Regularization-based Proximal Policy Optimization, ERPPO)** 框架 - 首先训练**分布时空模糊度学习器(Distributional Spatiotemporal Ambiguity, DSA)**，用于估计非平稳约束下目标检测的不确定性 - 在PPO中引入**动态熵正则化(entropy regularization)** 项：高模糊度观测时应用强**L1正则化(L1 regularization)** 以鼓励探索性动作，低模糊度观测时应用弱**L2正则化(L2 regularization)** 以稳定策略更新

💡 核心创新

- **首次将熵正则化与模糊度估计相结合**，针对观测不确定性动态调整正则化强度，而非使用固定系数 - **自适应的L1/L2混合正则化**：根据**分布时空模糊度(DSA)** 的估计值，在探索与利用之间自动平衡，区别于标准MAPPO的静态裁剪方法 - **端到端(end-to-end)集成**：模糊度学习器与策略优化联合训练，无需额外人工标注不确定性

🏆 总体贡献

- 为**多智能体强化学习(MARL)** 在**时间关键型(time-critical)操作** 中的目标定位提供了一种有效优化范式 - 在**AirSim海事搜索模拟测试台(testbed)** 上，**准确率(accuracy)** 优于MAPPO，且**梯度更新更高效(higher gradient)** - **定性结果(qualitative results)** 证明ERPPO在视觉不确定条件下能有效抑制误报(false detection)

ERPPO：基于熵正则化的近端策略优化
ERPPO: Entropy Regularization-based Proximal Policy Optimization

📊 核心分析

ERPPO：基于熵正则化的近端策略优化 ERPPO: Entropy Regularization-based Proximal Policy Optimization

📊 核心分析

ERPPO：基于熵正则化的近端策略优化
ERPPO: Entropy Regularization-based Proximal Policy Optimization