学习控制策略以可证明地满足黑箱混合动力系统的硬仿射约束

📝 论文摘要

确保黑箱混合动态系统的安全性面临显著挑战，因其存在瞬时状态跳变和未知的非线性显式动力学。现有的严格安全约束满足解决方案（如控制障碍函数和可达性分析）依赖于对动力学的直接认知。类似地，安全强化学习方法通常依赖于已知的系统动力学，或仅通过奖励塑造来抑制安全违规行为。本研究旨在学习一种强化学习策略，该策略在闭环条件下可证明地满足带有仿射重置映射的黑箱混合动态系统中的仿射状态约束。我们的核心思路是：迫使强化学习策略在系统未知非线性动力学的约束边界附近呈现仿射且排斥的特性，从而保证轨迹不会违反约束。针对混合系统中因碰撞或重置映射导致的瞬时状态跳变可能引发的约束违反问题，我们通过在重置前引入第二个排斥仿射区域，防止重置后的状态违反约束。我们推导了这些策略在闭环中满足安全约束的充分条件，并在混合动态系统（如受限摆锤和球拍杂耍环境）中将我们的方法与最先进的奖励塑造和学习的CBF方法进行了比较。在这两种场景下，我们的方法在始终满足安全约束的同时，能够学习到更高质量的策略。

🎯 研究动机

- 确保**黑箱混合动态系统(black-box hybrid dynamical systems)**的安全性面临重大挑战，因其存在**瞬时状态跳变(instantaneous state jumps)**和未知非线性动力学 - 现有方法如**控制障碍函数(control barrier functions, CBFs)**和**可达性分析(reachability analysis)**依赖于动力学显式知识，而**安全强化学习(safe RL)**常仅通过奖励塑形抑制违规，无法提供严格保证 - 需要学习一种**闭环策略(closed-loop policy)**，能**证明地满足仿射状态约束(provably satisfy affine state constraints)**，同时适用混合系统的黑箱特性

🔧 核心方法

- 强制RL策略在**约束边界(constraint boundaries)**附近为**仿射和排斥(affine and repulsive)**，为未知非线性动力学提供轨迹不违反约束的保证 - 针对混合系统中的**瞬时状态跳变**（由冲击或重置映射引起），在重置前引入**第二个排斥仿射区域(a second repulsive affine region)**，防止重置后状态违反约束 - 推导出策略在闭环下满足安全约束的**充分条件(sufficient conditions)**，并进行理论验证

💡 核心创新

- **首创性地**提出在约束边界附近强制策略为**仿射-排斥形式**，为黑箱非线性动力学提供严格安全保证，无需已知动力学模型 - **双重排斥区域设计**：同时处理连续动态和离散跳变（重置映射）引起的违规，确保混合系统全程安全 - **理论保证与实证结合**：推导充分条件，并在混合系统基准（约束摆、球拍抛球器）上证明比奖励塑形和学习CBF方法获得更高质量策略且始终满足安全约束

🏆 总体贡献

- 为**黑箱混合动力系统**的**安全约束满足**提供了一种新颖的可证明方法，弥补了现有方法依赖动力学知识的局限 - 提供了**理论充分条件**指导策略设计，确保闭环安全并兼容黑箱假设 - 在具有挑战性的混合系统环境中验证了方法的**有效性**和**优越性**，推动了安全强化学习在复杂物理系统中的应用

学习控制策略以可证明地满足黑箱混合动力系统的硬仿射约束
Learning Control Policies to Provably Satisfy Hard Affine Constraints for Black-Box Hybrid Dynamical Systems

📊 核心分析

学习控制策略以可证明地满足黑箱混合动力系统的硬仿射约束 Learning Control Policies to Provably Satisfy Hard Affine Constraints for Black-Box Hybrid Dynamical Systems

📊 核心分析

学习控制策略以可证明地满足黑箱混合动力系统的硬仿射约束
Learning Control Policies to Provably Satisfy Hard Affine Constraints for Black-Box Hybrid Dynamical Systems