- 多智能体**模仿学习(imitation learning)** 面临数据瓶颈:联合状态-动作空间随智能体数量指数增长,收集协调的多智能体演示成本极高
- 现有方法依赖大量多智能体演示数据,难以扩展到多臂机器人、多车辆等复杂系统
- 研究动机:如何利用丰富的单智能体演示数据学习**多智能体协作策略(multi-agent coordination policy)**
- 提出**CoDi (Coordinated Diffusion)** 框架,将独立训练的**单智能体扩散策略(single-agent diffusion policies)** 通过用户定义的多智能体代价函数进行耦合
- 推导新的扩散采样方案:**扩散分数函数(diffusion score function)** 分解为独立的单智能体预训练基础策略加上**代价驱动指导项(cost-driven guidance term)**,用于协调基础策略形成连贯的多智能体行为
- 该指导项采用**无梯度估计(gradient-free estimation)** 方式计算,适用于黑箱、不可微的代价函数,无需额外训练
- **突破数据瓶颈**:首次实现无需任何多智能体演示,仅利用单智能体数据生成协调的多智能体行为
- **可组合性设计**:通过分数分解将单智能体策略与多智能体代价指导解耦,实现模块化组合,且指导项可无梯度计算,兼容任意代价函数
- **理论分析深入**:阐明了演示数据与代价函数的互补角色——单智能体数据需覆盖目标多智能体行为支撑(support),代价函数需从乘积策略中促进期望行为
- 为**多智能体行为生成(multi-agent behavior generation)** 提供了一种实用新范式,显著降低了对多智能体演示数据的依赖
- 在**双臂操作(two-arm manipulation)** 仿真和硬件实验中验证了有效性,相比多智能体基线方法具有更高的数据效率
- 揭示了**联合指导(joint guidance)**、**基础策略支撑(base policy support)** 和**代价设计(cost design)** 三个关键因素对性能的影响,为后续研究提供指导