- 城市动态物流中,**时间敏感任务(time-sensitive tasks)** 的随机出现对**异构AAV(heterogeneous AAVs)** 物流任务分配构成重大优化挑战
- 现有方法难以处理由随机订单到达引起的**时变任务集(time-varying task sets)**,导致分配方案次优
- 研究背景:动态物流场景下,服务质量与资源消耗的**全局最优性(global optimality)** 需要被统一量化
- 建立**动态任务分配模型(dynamic task allocation model)**,通过**通用物流成本(generalized logistics cost)** 耦合服务质量与资源消耗来量化最优性
- 设计**基于Transformer的软演员-评论家网络(Transformer-based Soft Actor-Critic network)**,利用**多头自注意力(multi-head self-attention)** 编码可变长度物流状态并捕获任务间**时空依赖(spatiotemporal dependencies)**
- 学习到的策略自适应指导联盟更新,取代**重叠联盟形成博弈(overlapping coalition formation game)** 中的启发式规则,使异构AAV形成更高效的重叠联盟
- 联盟形成过程被证明构成**精确势博弈(exact potential game)**,保证有限迭代内收敛到**纳什稳定均衡(Nash-stable equilibrium)**
- **首创性**:将**强化学习(reinforcement learning)** 与**重叠联盟形成博弈(overlapping coalition formation game)** 相结合,实现任务分配的动态自适应优化
- **方法替代**:用**Transformer编码器(Transformer encoder)** 学习到的策略替代传统启发式规则,增强了联盟更新对时变任务集的适应能力
- **理论保证**:证明联盟形成过程是精确势博弈,保证了有限迭代收敛性,这在RL增强博弈中较为少见
- 为异构AAV物流任务分配提供了一种**新颖的RL增强重叠联盟形成范式(RL-enhanced OCF paradigm)**,显著提升了动态场景下的最优性
- 在32架AAV、80个任务的仿真场景中,相比启发式OCF基线实现**39.76%的成本降低(cost reduction)**
- 通过室内飞行实验进一步验证了方法的**实际可部署性(practical feasibility)**,推动了该领域从理论到应用的发展