- 现有**并行轨迹优化(parallel trajectory optimization)**框架通过**交替方向乘子法(ADMM)**分解问题,但使用预定义的固定结构,导致在高约束区域出现优化停滞
- 少量滞后子问题(lagging subproblems)延迟全局收敛,而规则启发式方法难以决定何时、何处以及如何重新拆分停滞段
- 研究背景:长时域运动规划需要可扩展的并行优化方法,但现有刚性结构限制了自适应能力
- 提出**ATRS**框架,将**共享深度强化学习(shared Deep Reinforcement Learning)**策略嵌入并行**ADMM**循环中
- 将自适应调整建模为**多智能体共享策略马尔可夫决策过程(Multi-Agent Shared-Policy MDP)**,所有轨迹段作为同质智能体,共享统一的神经策略网络
- 采用**参数共享(parameter-sharing)**架构实现大小不变性(size invariance),支持动态变化的段数和任意轨迹长度
- 引入**基于置信度的选举机制(Confidence-Based Election mechanism)**,每步仅选择最停滞的段进行重拆分,确保求解器稳定性
- **首创自适应拆分与强化学习结合**:首次将深度强化学习用于在线自适应重拆分并行ADMM中的轨迹段,打破固定结构限制
- **大小不变性与零样本泛化**:参数共享架构使策略网络不受段数影响,能泛化到任意长度轨迹;且依赖求解器内部状态而非环境几何特征,实现零样本泛化到未见环境
- **稳定性保障**:置信度选举机制避免同时重拆分多个段导致的求解器不稳定,平衡自适应性与收敛可靠性
- 在并行轨迹优化领域提供了**自适应重拆分(adaptive re-splitting)**的新范式,显著提升ADMM在约束场景下的收敛效率
- 实验证明迭代次数减少**26.0%**,计算时间减少**19.1%**,且支持大规模离线全局规划和实时在线重规划(每周期<35ms)
- 零模拟-真实迁移(sim-to-real)退化,验证了方法的实际应用价值,为机器人运动规划提供了可扩展的实时并行优化方案