← 返回论文列表

ATRS:并行优化中基于共享神经策略的自适应轨迹重分割
ATRS: Adaptive Trajectory Re-splitting via a Shared Neural Policy for Parallel Optimization

作者: Jiajun Yu, Guodong Liu, Li Wang 等9人
arXiv: 2604.22715v1
分类: cs.RO
📝 论文摘要
通过交替方向乘子法(ADMM)进行并行轨迹优化已成为解决长时域运动规划的可扩展方法。然而,现有框架通常基于预定义的固定结构将问题分解为并行子问题。这种结构刚性在高度约束的区域常常导致优化停滞,其中少数滞后子问题延缓了全局收敛速度。一种自然的补救措施是在线自适应重新拆分这些停滞段。然而,决定何时、何地以及如何拆分超出了基于规则启发式方法的能力。为此,我们提出ATRS,一种将共享深度强化学习策略嵌入并行ADMM循环的新框架。我们将这种自适应调整建模为多智能体共享策略马尔可夫决策过程,其中所有轨迹段充当同质智能体,并共享统一的神经策略网络。这种参数共享架构赋予系统尺寸不变性,使其能够在重新拆分过程中处理动态变化的段数,并泛化到任意轨迹长度。此外,我们的公式天然支持对未知环境的零样本泛化,因为网络仅依赖于数值求解器的内部状态,而非环境的几何特征。为确保求解器稳定性,基于置信度的选举机制仅选择最停滞的段在每一步进行重新拆分。大量仿真表明,ATRS加速了收敛,迭代次数最多减少26.0%,计算时间最多减少19.1%。实际实验进一步验证了其在大规模离线全局规划和实时机载重规划中的适用性,每周期耗时小于35毫秒,且无仿真到现实的性能下降。

📊 核心分析

🎯 研究动机
- 现有**并行轨迹优化(parallel trajectory optimization)**框架通过**交替方向乘子法(ADMM)**分解问题,但使用预定义的固定结构,导致在高约束区域出现优化停滞 - 少量滞后子问题(lagging subproblems)延迟全局收敛,而规则启发式方法难以决定何时、何处以及如何重新拆分停滞段 - 研究背景:长时域运动规划需要可扩展的并行优化方法,但现有刚性结构限制了自适应能力
🔧 核心方法
- 提出**ATRS**框架,将**共享深度强化学习(shared Deep Reinforcement Learning)**策略嵌入并行**ADMM**循环中 - 将自适应调整建模为**多智能体共享策略马尔可夫决策过程(Multi-Agent Shared-Policy MDP)**,所有轨迹段作为同质智能体,共享统一的神经策略网络 - 采用**参数共享(parameter-sharing)**架构实现大小不变性(size invariance),支持动态变化的段数和任意轨迹长度 - 引入**基于置信度的选举机制(Confidence-Based Election mechanism)**,每步仅选择最停滞的段进行重拆分,确保求解器稳定性
💡 核心创新
- **首创自适应拆分与强化学习结合**:首次将深度强化学习用于在线自适应重拆分并行ADMM中的轨迹段,打破固定结构限制 - **大小不变性与零样本泛化**:参数共享架构使策略网络不受段数影响,能泛化到任意长度轨迹;且依赖求解器内部状态而非环境几何特征,实现零样本泛化到未见环境 - **稳定性保障**:置信度选举机制避免同时重拆分多个段导致的求解器不稳定,平衡自适应性与收敛可靠性
🏆 总体贡献
- 在并行轨迹优化领域提供了**自适应重拆分(adaptive re-splitting)**的新范式,显著提升ADMM在约束场景下的收敛效率 - 实验证明迭代次数减少**26.0%**,计算时间减少**19.1%**,且支持大规模离线全局规划和实时在线重规划(每周期<35ms) - 零模拟-真实迁移(sim-to-real)退化,验证了方法的实际应用价值,为机器人运动规划提供了可扩展的实时并行优化方案