基于学习安全滤波器与自适应共形推理的安全控制

📝 论文摘要

安全过滤器已被证明是确保具有不安全名义策略的控制系统安全的有效工具。为解决传统综合方法在可扩展性方面的挑战，针对高维状态和控制空间的系统，基于学习的方法被提出用于设计安全过滤器。然而，这些模型决策中不可避免的误差引发了对其可靠性及所提供安全保障的担忧。本文提出自适应共形过滤（ACoFi）方法，该方法将基于学习的汉密尔顿-雅可比可达性安全过滤器与自适应共形推断相结合。在ACoFi框架下，过滤器根据其动作安全预测中观察到的误差动态调整切换标准。名义策略输出的可能安全值范围被用于量化安全评估中的不确定性。当该范围表明可能不安全时，过滤器从名义策略切换到学习到的安全策略。我们证明，ACoFi能保证名义策略预测安全中不确定性量化错误率渐近上界受用户定义参数约束，从而提供软性安全保障而非硬性保证。我们在杜宾斯汽车仿真和安全体育馆环境中评估ACoFi，实证表明其通过获得更高的学习安全值和更少的安全违规，显著优于使用固定切换阈值的基线方法，尤其在分布外场景中表现突出。

🎯 研究动机

该论文旨在解决基于学习的安全过滤器(safety filters)在实际应用中存在的可靠性问题。研究背景是：传统安全过滤器合成方法面临可扩展性挑战，而基于学习的方法虽然能处理高维状态和控制空间，但其决策中的不可避免的误差会引发对安全保证的担忧。

🔧 核心方法

论文提出了自适应保形过滤(Adaptive Conformal Filtering, ACoFi)方法，该方法结合了： - 基于学习的汉密尔顿-雅可比可达性(Hamilton-Jacobi reachability)安全过滤器。 - 自适应保形推断(adaptive conformal inference)。该方法的核心是：过滤器根据其预测动作安全性的观测误差，动态调整其切换标准。具体而言，它使用标称策略(nominal policy)输出的可能安全值范围来量化安全评估的不确定性，当该范围表明动作可能不安全时，就从标称策略切换到学习到的安全策略。

💡 核心创新

论文的核心创新点在于： - **将自适应保形推断与学习型安全过滤器相结合**：这是首次将自适应保形推断技术系统地集成到基于学习的汉密尔顿-雅可比可达性安全过滤器中，以动态量化预测不确定性。 - **提供渐近统计安全保证**：与提供“硬”安全保证的传统方法不同，ACoFi保证对标称策略预测安全性的不确定性量化错误率渐近地由用户定义参数上界，从而提供了一种“软”安全保证(soft safety guarantee)。 - **动态、数据驱动的切换机制**：与使用固定切换阈值的基线方法相比，ACoFi的切换标准能够根据在线观测到的预测误差进行自适应调整，这使其在分布外(out-of-distribution)场景中更具鲁棒性。

🏆 总体贡献

论文对该领域的总体贡献是： - 提出了一种新的、可证明安全保证的学习型安全过滤器框架(ACoFi)，它弥合了传统可证明安全方法与数据驱动学习方法的可靠性差距。 - 通过理论证明和实验验证（在杜宾斯车(Dubins car)仿真和安全体育馆(Safety Gymnasium)环境中），表明ACoFi在实现更高的学习安全值和更少的安全违规方面显著优于使用固定切换阈值的基线方法，尤其是在分布外场景中。 - 为安全关键控制(safety-critical control)领域提供了一种将统计不确定性量化与基于模型的安全分析相结合的新范式。

基于学习安全滤波器与自适应共形推理的安全控制
Safe Control using Learned Safety Filters and Adaptive Conformal Inference

📊 核心分析

基于学习安全滤波器与自适应共形推理的安全控制 Safe Control using Learned Safety Filters and Adaptive Conformal Inference

📊 核心分析

基于学习安全滤波器与自适应共形推理的安全控制
Safe Control using Learned Safety Filters and Adaptive Conformal Inference