- 解决**机器人移动订单履行系统(Robotic Mobile Fulfillment Systems, RMFS)** 中**订单分配(order allocation)** 与**机器人调度(robot scheduling)** 的联合优化问题
- 现有方法要么分解为孤立子任务以保证实时响应性,但牺牲了**全局最优性(global optimality)**;要么依赖计算昂贵的全局优化模型,难以适应动态工业环境
- 研究背景:RMFS依赖移动机器人进行自动化库存运输,需要高效协调多阶段决策,但面临严格的**实时约束(real-time constraints)** 和**强耦合(strong coupling)** 挑战
- 提出**SOAR**,一个统一的**深度强化学习(Deep Reinforcement Learning, DRL)** 框架,将订单分配与机器人调度转化为**统一过程(unified process)**,使用**软订单分配(soft order allocations)** 作为观测
- 将问题建模为**事件驱动马尔可夫决策过程(Event-Driven Markov Decision Process, Event-Driven MDP)**,使智能体能够响应**异步系统事件(asynchronous system events)** 进行同时调度
- 采用**异构图变换器(Heterogeneous Graph Transformer)** 编码仓库状态,并集成**阶段性领域知识(phased domain knowledge)**
- 引入**奖励塑形策略(reward shaping strategy)** 以应对长程任务中的**稀疏反馈(sparse feedback)** 问题
- **首创性**:首次将**订单分配与机器人调度** 统一为**联合优化(joint optimization)** 框架,而非传统分解式方法,实现全局最优与实时性兼顾
- **实时性突破**:通过**事件驱动MDP** 设计,智能体能在**亚100毫秒(sub-100ms)延迟** 内完成调度决策,满足工业动态环境要求
- **状态表示创新**:**异构图变换器** 有效捕获仓库异构实体间的复杂关系,并融入**领域知识** 提升学习效率
- **训练技术**:**奖励塑形策略** 解决长程**稀疏奖励(sparse reward)** 问题,提升收敛速度与策略质量
- 为**RMFS** 领域提供了一种**实时联合优化(real-time joint optimization)** 的新范式,在全局最优性与响应速度之间取得平衡
- 在合成数据集与**真实工业数据集(合作Geekplus)** 上,**全局完工时间(makespan)** 降低7.5%,**平均订单完成时间(average order completion time)** 降低15.4%
- **从仿真到现实(sim-to-real)** 部署验证了方法的实际可行性,证明了在生产环境中的显著性能提升
- 开源代码(https://github.com/200815147/SOAR)促进社区复现与后续研究