该论文旨在解决基于学习的安全过滤器(safety filters)在实际应用中存在的可靠性问题。研究背景是:传统安全过滤器合成方法面临可扩展性挑战,而基于学习的方法虽然能处理高维状态和控制空间,但其决策中的不可避免的误差会引发对安全保证的担忧。
论文提出了自适应保形过滤(Adaptive Conformal Filtering, ACoFi)方法,该方法结合了:
- 基于学习的汉密尔顿-雅可比可达性(Hamilton-Jacobi reachability)安全过滤器。
- 自适应保形推断(adaptive conformal inference)。
该方法的核心是:过滤器根据其预测动作安全性的观测误差,动态调整其切换标准。具体而言,它使用标称策略(nominal policy)输出的可能安全值范围来量化安全评估的不确定性,当该范围表明动作可能不安全时,就从标称策略切换到学习到的安全策略。
论文的核心创新点在于:
- **将自适应保形推断与学习型安全过滤器相结合**:这是首次将自适应保形推断技术系统地集成到基于学习的汉密尔顿-雅可比可达性安全过滤器中,以动态量化预测不确定性。
- **提供渐近统计安全保证**:与提供“硬”安全保证的传统方法不同,ACoFi保证对标称策略预测安全性的不确定性量化错误率渐近地由用户定义参数上界,从而提供了一种“软”安全保证(soft safety guarantee)。
- **动态、数据驱动的切换机制**:与使用固定切换阈值的基线方法相比,ACoFi的切换标准能够根据在线观测到的预测误差进行自适应调整,这使其在分布外(out-of-distribution)场景中更具鲁棒性。
论文对该领域的总体贡献是:
- 提出了一种新的、可证明安全保证的学习型安全过滤器框架(ACoFi),它弥合了传统可证明安全方法与数据驱动学习方法的可靠性差距。
- 通过理论证明和实验验证(在杜宾斯车(Dubins car)仿真和安全体育馆(Safety Gymnasium)环境中),表明ACoFi在实现更高的学习安全值和更少的安全违规方面显著优于使用固定切换阈值的基线方法,尤其是在分布外场景中。
- 为安全关键控制(safety-critical control)领域提供了一种将统计不确定性量化与基于模型的安全分析相结合的新范式。