- 现有**分布式多智能体强化学习(distributed multi-agent reinforcement learning)** 方法需要机器人表示组合数量的交互状态,对**计算能力有限** 的机器人内存造成巨大挑战
- 合作机器人群体中每个机器人只能与少数同伴交互,无法直接感知对集体效用的影响,需要高效的学习表示
- 研究背景:机器人群体在共享目标下独立学习,但状态表示复杂度过高,限制实际部署
- 提出**模块化(模块化,modular)表示** 方法,将状态特征分解为独立分量,每个分量由单独的学习程序处理
- 通过**特征分解(feature decomposition)** 将空间交互状态拆解,分别学习后**聚合(aggregate)** 结果
- 在模拟机器人群体上进行**觅食任务(foraging)** 实验,验证模块化强化学习框架的有效性
- **状态表示创新**:首次将**模块化分解(modular decomposition)** 引入群体机器人强化学习,替代传统组合状态表示
- **内存效率提升**:每个机器人只需处理独立特征,避免指数级增长的交互状态表示,显著降低内存需求
- **可扩展性(scalability)**:模块化设计使方法易于扩展到更大规模群体,无需重新设计学习架构
- 提供一种**轻量级状态表示范式**,解决群体机器人强化学习中内存瓶颈问题
- 通过模拟觅食实验证明方法在**合作任务(cooperative tasks)** 中的有效性,为实际部署奠定基础
- 推动**模块化强化学习(modular reinforcement learning)** 在机器人群体中的应用,启发后续研究