- 确保**黑箱混合动态系统(black-box hybrid dynamical systems)**的安全性面临重大挑战,因其存在**瞬时状态跳变(instantaneous state jumps)**和未知非线性动力学
- 现有方法如**控制障碍函数(control barrier functions, CBFs)**和**可达性分析(reachability analysis)**依赖于动力学显式知识,而**安全强化学习(safe RL)**常仅通过奖励塑形抑制违规,无法提供严格保证
- 需要学习一种**闭环策略(closed-loop policy)**,能**证明地满足仿射状态约束(provably satisfy affine state constraints)**,同时适用混合系统的黑箱特性
- 强制RL策略在**约束边界(constraint boundaries)**附近为**仿射和排斥(affine and repulsive)**,为未知非线性动力学提供轨迹不违反约束的保证
- 针对混合系统中的**瞬时状态跳变**(由冲击或重置映射引起),在重置前引入**第二个排斥仿射区域(a second repulsive affine region)**,防止重置后状态违反约束
- 推导出策略在闭环下满足安全约束的**充分条件(sufficient conditions)**,并进行理论验证
- **首创性地**提出在约束边界附近强制策略为**仿射-排斥形式**,为黑箱非线性动力学提供严格安全保证,无需已知动力学模型
- **双重排斥区域设计**:同时处理连续动态和离散跳变(重置映射)引起的违规,确保混合系统全程安全
- **理论保证与实证结合**:推导充分条件,并在混合系统基准(约束摆、球拍抛球器)上证明比奖励塑形和学习CBF方法获得更高质量策略且始终满足安全约束
- 为**黑箱混合动力系统**的**安全约束满足**提供了一种新颖的可证明方法,弥补了现有方法依赖动力学知识的局限
- 提供了**理论充分条件**指导策略设计,确保闭环安全并兼容黑箱假设
- 在具有挑战性的混合系统环境中验证了方法的**有效性**和**优越性**,推动了安全强化学习在复杂物理系统中的应用