← 返回论文列表

迈向基于安全学习的非线性模型预测控制:通过递归神经网络建模实现
Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling

作者: Mihaela-Larisa Clement, Mónika Farsang, Agnes Poks 等7人
arXiv: 2603.24503v1
分类: cs.LG, cs.RO, eess.SY
📝 论文摘要
非线性模型预测控制(NMPC)的实际应用常受限于在线计算:在嵌入式硬件上以高控制频率求解非线性规划问题代价高昂,尤其在模型复杂或预测时域较长时。基于学习的NMPC近似方法将计算负担转移至离线阶段,但通常需要大量专家数据集和昂贵的训练成本。我们提出序列化AMPC方法——一种通过在预测时域共享参数来生成MPC候选控制序列的序列神经策略。为部署该策略,我们将其封装于安全增强的在线评估与回退机制中,形成安全序列化AMPC。相较于多个基准测试中的前馈策略基线,序列化AMPC所需专家MPC推演数据显著减少,生成的候选序列具有更高的可行性概率和更强的闭环安全性。在高维系统上,该方法展现出更优的学习动态和更少的训练周期即可实现性能提升,同时保持稳定的验证改进,而前馈基线策略则易陷入停滞。

📊 核心分析

🎯 研究动机
该论文旨在解决非线性模型预测控制(Nonlinear Model Predictive Control, NMPC)在实际部署中的在线计算瓶颈问题。研究背景是:在嵌入式硬件上以高控制率求解非线性规划(Nonlinear Program)通常计算成本高昂,尤其是在模型复杂或预测时域较长时。现有的基于学习的NMPC近似方法虽然能将计算转移到离线阶段,但通常需要大量专家数据集和昂贵的训练成本。
🔧 核心方法
论文提出了Sequential-AMPC,这是一种序列神经策略(Sequential Neural Policy)。其核心方法是:通过在整个预测时域(Prediction Horizon)上共享参数,来生成MPC候选控制序列。为了部署,论文将该策略包装在一个安全增强的在线评估和回退机制(Safety-Augmented Online Evaluation and Fallback Mechanism)中,从而得到Safe Sequential-AMPC。
💡 核心创新
论文的核心创新点在于: - **提出了一种新颖的序列神经策略架构**:与传统的、在每个时间步独立预测的前馈策略(Feedforward Policy)不同,Sequential-AMPC通过在整个预测时域上共享参数来顺序生成控制序列,这更符合MPC的序列决策本质。 - **实现了高效的学习与部署**:该方法显著减少了对专家MPC轨迹(Expert MPC Rollouts)的需求,并提高了候选序列的可行性率(Feasibility Rate)和闭环安全性(Closed-Loop Safety)。 - **改善了高维系统的学习动态**:在高维系统上,该方法在更少的训练周期(Epochs)内表现出更好的学习动态和性能,并在前馈基线可能停滞时保持稳定的验证改进。
🏆 总体贡献
论文对该领域的总体贡献是: - 提出了一种新的、基于学习的NMPC近似框架(Sequential-AMPC),它比前馈策略基线更数据高效、性能更优。 - 设计了一个集成的安全机制(Safe Sequential-AMPC),将学习到的策略与在线安全评估和回退相结合,增强了实际部署的鲁棒性。 - 通过多个基准测试(Benchmarks)验证了所提方法在减少专家数据需求、提高候选序列可行性和闭环安全性方面的优势,为安全、高效的学习型非线性模型预测控制提供了新的可行路径。