← 返回论文列表

M$^{2}$GRPO:基于Mamba架构的多智能体群体相对策略优化用于仿生水下机器人追捕
M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

作者: Yukai Feng, Zhiheng Wu, Zhengxing Wu 等5人
arXiv: 2604.19404v1
分类: cs.RO, cs.AI
📝 论文摘要
在仿生水下机器人的协同追捕任务中,传统策略学习方法面临长时域决策、局部可观测性与跨机器人协调对策略表达力与稳定性的双重挑战。为此,本研究提出一种基于Mamba的多智能体群组相对策略优化框架(M$^{2}$GRPO),该框架在集中训练分散执行范式下,将选择性状态空间Mamba策略与群组相对策略优化相结合。具体而言,基于Mamba的策略网络利用观测历史捕捉长时域时序依赖,通过注意力机制的关系特征编码智能体间交互,并采用归一化高斯采样生成有界连续动作。为在保持稳定性的同时优化信用分配,该方法通过归一化单回合内跨智能体奖励计算群组相对优势值,并借助GRPO的多智能体扩展版本进行优化,在实现稳定可扩展策略更新的同时显著降低训练资源需求。跨团队规模与逃逸策略的仿真及真实水池实验表明,M$^{2}$GRPO在追捕成功率和捕获效率上均持续优于MAPPO及循环基线方法。该框架为仿生机器人系统的协同水下追捕任务提供了实用且可扩展的解决方案。

📊 核心分析

🎯 研究动机
该论文旨在解决仿生水下机器人协同追捕任务中的核心挑战: - 传统协同追捕策略学习方法在仿生水下机器人场景下面临根本性困难 - 具体挑战包括:长时程(long-horizon)决策、部分可观测性(partial observability)以及机器人间协调需求 - 这些挑战要求策略兼具表达能力和稳定性
🔧 核心方法
论文提出了一种名为M$^{2}$GRPO(基于Mamba的多智能体组相对策略优化)的新框架: - 在集中式训练与分散式执行(CTDE)范式下,整合了选择性状态空间Mamba策略与组相对策略优化 - Mamba策略利用观测历史捕获长时程时间依赖性,并利用基于注意力(attention)的关系特征编码智能体间交互 - 通过归一化高斯采样产生有界连续动作 - 通过在每个回合内对智能体奖励进行归一化来获得组相对优势(group-relative advantages),并通过GRPO的多智能体扩展进行优化
💡 核心创新
论文的核心创新点在于: - **首次将选择性状态空间模型(selective state-space model, Mamba)引入多智能体强化学习领域**,用于处理水下机器人追捕的长时程依赖和部分可观测问题 - **提出了组相对策略优化(GRPO)的多智能体扩展**,通过跨智能体奖励归一化改进信用分配(credit assignment),同时保持训练稳定性 - **实现了表达力与稳定性的平衡**:Mamba策略提供强大的序列建模能力,而GRPO机制确保稳定的策略更新,显著降低了对训练资源的需求 - 与传统的基于循环神经网络(RNN)或注意力机制的方法相比,该框架在保持高效性的同时,更好地处理了水下环境的特殊挑战
🏆 总体贡献
论文对该领域的整体贡献包括: - 为仿生水下机器人协同追捕提供了一个实用且可扩展的解决方案 - 通过广泛的仿真和真实水池实验验证了框架的有效性,在多种团队规模和逃避策略下,M$^{2}$GRPO在追捕成功率和捕获效率上均优于MAPPO和循环基线方法 - 展示了选择性状态空间模型在多智能体协同控制任务中的潜力 - 提出的组相对优势计算方法为多智能体信用分配问题提供了新的思路,平衡了性能与训练稳定性