该论文旨在解决仿生水下机器人协同追捕任务中的核心挑战:
- 传统协同追捕策略学习方法在仿生水下机器人场景下面临根本性困难
- 具体挑战包括:长时程(long-horizon)决策、部分可观测性(partial observability)以及机器人间协调需求
- 这些挑战要求策略兼具表达能力和稳定性
论文提出了一种名为M$^{2}$GRPO(基于Mamba的多智能体组相对策略优化)的新框架:
- 在集中式训练与分散式执行(CTDE)范式下,整合了选择性状态空间Mamba策略与组相对策略优化
- Mamba策略利用观测历史捕获长时程时间依赖性,并利用基于注意力(attention)的关系特征编码智能体间交互
- 通过归一化高斯采样产生有界连续动作
- 通过在每个回合内对智能体奖励进行归一化来获得组相对优势(group-relative advantages),并通过GRPO的多智能体扩展进行优化
论文的核心创新点在于:
- **首次将选择性状态空间模型(selective state-space model, Mamba)引入多智能体强化学习领域**,用于处理水下机器人追捕的长时程依赖和部分可观测问题
- **提出了组相对策略优化(GRPO)的多智能体扩展**,通过跨智能体奖励归一化改进信用分配(credit assignment),同时保持训练稳定性
- **实现了表达力与稳定性的平衡**:Mamba策略提供强大的序列建模能力,而GRPO机制确保稳定的策略更新,显著降低了对训练资源的需求
- 与传统的基于循环神经网络(RNN)或注意力机制的方法相比,该框架在保持高效性的同时,更好地处理了水下环境的特殊挑战
论文对该领域的整体贡献包括:
- 为仿生水下机器人协同追捕提供了一个实用且可扩展的解决方案
- 通过广泛的仿真和真实水池实验验证了框架的有效性,在多种团队规模和逃避策略下,M$^{2}$GRPO在追捕成功率和捕获效率上均优于MAPPO和循环基线方法
- 展示了选择性状态空间模型在多智能体协同控制任务中的潜力
- 提出的组相对优势计算方法为多智能体信用分配问题提供了新的思路,平衡了性能与训练稳定性