← 返回论文列表

异构AAV物流任务分配:一种强化学习增强的重叠联盟形成博弈方法
Heterogeneous AAV Logistics Task Allocation: A Reinforcement Learning Enhanced Overlapping Coalition Formation Game Approach

作者: Yuze Zhou, Jingliang Sun, Junzhi Li 等6人
arXiv: 2605.26471v1
分类: cs.RO
📝 论文摘要
在动态城市物流中,时效性任务的随机出现对异构AAV物流任务分配构成了显著的最优性挑战。为解决该问题,提出了一种强化学习增强的重叠联盟形成博弈方法。建立了动态任务分配模型,通过耦合服务质量和资源消耗的广义物流成本对全局最优性进行数学量化。针对随机订单到达导致的时变任务集,设计了基于Transformer的软演员-评论家网络。通过利用多头自注意力机制对变长物流状态进行编码并捕捉任务间时空依赖关系,习得的策略自适应地指导联盟更新,取代了重叠联盟形成博弈中的启发式规则。在此基础上,异构AAV能够为动态物流任务形成更高效的重叠联盟。所得到的联盟形成过程被证明构成精确势博弈,保证了在有限迭代次数内收敛至纳什稳定均衡。数值仿真表明,在广义物流成本准则下,所提算法有效提升了任务分配的最优性。在32架AAV与80个任务的场景中,与启发式OCF基准相比,本算法实现了39.76%的成本降低。室内飞行实验进一步验证了其实用性。

📊 核心分析

🎯 研究动机
- 城市动态物流中,**时间敏感任务(time-sensitive tasks)** 的随机出现对**异构AAV(heterogeneous AAVs)** 物流任务分配构成重大优化挑战 - 现有方法难以处理由随机订单到达引起的**时变任务集(time-varying task sets)**,导致分配方案次优 - 研究背景:动态物流场景下,服务质量与资源消耗的**全局最优性(global optimality)** 需要被统一量化
🔧 核心方法
- 建立**动态任务分配模型(dynamic task allocation model)**,通过**通用物流成本(generalized logistics cost)** 耦合服务质量与资源消耗来量化最优性 - 设计**基于Transformer的软演员-评论家网络(Transformer-based Soft Actor-Critic network)**,利用**多头自注意力(multi-head self-attention)** 编码可变长度物流状态并捕获任务间**时空依赖(spatiotemporal dependencies)** - 学习到的策略自适应指导联盟更新,取代**重叠联盟形成博弈(overlapping coalition formation game)** 中的启发式规则,使异构AAV形成更高效的重叠联盟 - 联盟形成过程被证明构成**精确势博弈(exact potential game)**,保证有限迭代内收敛到**纳什稳定均衡(Nash-stable equilibrium)**
💡 核心创新
- **首创性**:将**强化学习(reinforcement learning)** 与**重叠联盟形成博弈(overlapping coalition formation game)** 相结合,实现任务分配的动态自适应优化 - **方法替代**:用**Transformer编码器(Transformer encoder)** 学习到的策略替代传统启发式规则,增强了联盟更新对时变任务集的适应能力 - **理论保证**:证明联盟形成过程是精确势博弈,保证了有限迭代收敛性,这在RL增强博弈中较为少见
🏆 总体贡献
- 为异构AAV物流任务分配提供了一种**新颖的RL增强重叠联盟形成范式(RL-enhanced OCF paradigm)**,显著提升了动态场景下的最优性 - 在32架AAV、80个任务的仿真场景中,相比启发式OCF基线实现**39.76%的成本降低(cost reduction)** - 通过室内飞行实验进一步验证了方法的**实际可部署性(practical feasibility)**,推动了该领域从理论到应用的发展