协调扩散：无需多智能体演示即可生成多智能体行为

📝 论文摘要

由生成模型驱动的模仿学习已被证明能有效建模复杂单智能体行为。然而，通过模仿学习教授多智能体系统（如多机械臂或多车辆）协调行为时，存在根本性的数据瓶颈：由于联合状态-动作空间随智能体数量呈指数增长，收集足够数量的协调多智能体演示数据变得极其昂贵。本研究提出：如何利用单智能体演示数据学习多智能体策略？我们提出协调扩散（CoDi）框架——该框架通过用户定义的多智能体代价函数耦合独立训练的单智能体扩散策略，且无需任何协调演示数据。我们推导出一种新的基于扩散的采样方案，其中扩散分数函数分解为独立单智能体预训练基础策略与代价驱动引导项的组合，后者可将这些基础策略协调为一致的多智能体行为。我们证明该引导项可通过无梯度方式估计，使CoDi可应用于无需额外训练的黑箱、不可微代价函数。我们从理论与实证角度分析这种组合能忠实近似目标多智能体行为的条件，揭示演示数据与代价函数的互补作用：单智能体演示必须覆盖所需多智能体行为的支撑集，而代价函数需从单智能体策略的乘积空间促进所需行为。在双机械臂操作任务的仿真与硬件实验中，我们的结果表明CoDi能从单智能体数据中发现稳健的协调行为，比多智能体基线方法更具数据效率，并突显了联合引导、基础策略支撑与代价函数设计的重要性。

🎯 研究动机

- 多智能体**模仿学习(imitation learning)** 面临数据瓶颈：联合状态-动作空间随智能体数量指数增长，收集协调的多智能体演示成本极高 - 现有方法依赖大量多智能体演示数据，难以扩展到多臂机器人、多车辆等复杂系统 - 研究动机：如何利用丰富的单智能体演示数据学习**多智能体协作策略(multi-agent coordination policy)**

🔧 核心方法

- 提出**CoDi (Coordinated Diffusion)** 框架，将独立训练的**单智能体扩散策略(single-agent diffusion policies)** 通过用户定义的多智能体代价函数进行耦合 - 推导新的扩散采样方案：**扩散分数函数(diffusion score function)** 分解为独立的单智能体预训练基础策略加上**代价驱动指导项(cost-driven guidance term)**，用于协调基础策略形成连贯的多智能体行为 - 该指导项采用**无梯度估计(gradient-free estimation)** 方式计算，适用于黑箱、不可微的代价函数，无需额外训练

💡 核心创新

- **突破数据瓶颈**：首次实现无需任何多智能体演示，仅利用单智能体数据生成协调的多智能体行为 - **可组合性设计**：通过分数分解将单智能体策略与多智能体代价指导解耦，实现模块化组合，且指导项可无梯度计算，兼容任意代价函数 - **理论分析深入**：阐明了演示数据与代价函数的互补角色——单智能体数据需覆盖目标多智能体行为支撑(support)，代价函数需从乘积策略中促进期望行为

🏆 总体贡献

- 为**多智能体行为生成(multi-agent behavior generation)** 提供了一种实用新范式，显著降低了对多智能体演示数据的依赖 - 在**双臂操作(two-arm manipulation)** 仿真和硬件实验中验证了有效性，相比多智能体基线方法具有更高的数据效率 - 揭示了**联合指导(joint guidance)**、**基础策略支撑(base policy support)** 和**代价设计(cost design)** 三个关键因素对性能的影响，为后续研究提供指导

协调扩散：无需多智能体演示即可生成多智能体行为
Coordinated Diffusion: Generating Multi-Agent Behavior Without Multi-Agent Demonstrations

📊 核心分析

协调扩散：无需多智能体演示即可生成多智能体行为 Coordinated Diffusion: Generating Multi-Agent Behavior Without Multi-Agent Demonstrations

📊 核心分析

协调扩散：无需多智能体演示即可生成多智能体行为
Coordinated Diffusion: Generating Multi-Agent Behavior Without Multi-Agent Demonstrations