鲁棒库普曼控制障碍滤波器用于安全演员-评论家强化学习

📝 论文摘要

面向机器人系统的安全强化学习需要策略在训练和部署期间既能提升任务性能，又能满足状态与输入约束。控制障碍函数（CBF）通过最小侵入式安全滤波器实现正向不变性，提供了基础性的约束机制，但其在无模型强化学习中的应用受限于对精确动力学和手工设计障碍认证函数的需求。我们提出鲁棒Koopman-CBF SAC框架——一种安全滤波的行动器-评价器框架：从数据中学习有限维Koopman预测器，在提升空间中构建仿射CBF约束，并通过二次规划安全层强制执行。为补偿有限维Koopman近似误差，利用留出回放数据估计的投影残差裕度收紧CBF条件。评价器基于执行的安全动作进行训练，行动器则向Koopman-CBF可行集正则化，从而随训练进程降低对滤波器的依赖。在安全控制基准测试中，该方法在CartPole镇定与跟踪任务中实现零约束违反，同时匹配或超越无约束SAC的回报。在高维Safety Gymnasium运动任务中，该方法在部分场景减少了约束违反，但也暴露了一阶速度障碍与线性EDMD模型的局限性，这促使我们探索高阶与多步Koopman-CBF扩展。这些结果表明：鲁棒Koopman-CBF滤波器是连接无模型强化学习与可认证安全的有效桥梁，同时也阐明了此类滤波器保持效力的结构性条件。所有代码开源在GitHub仓库。

🎯 研究动机

- 安全强化学习要求策略在训练和部署中同时提升任务性能并满足状态和输入约束。 - 控制屏障函数(CBF)提供最小干预安全过滤机制，但现有方法依赖准确动力学模型和手工设计的屏障证书，限制了其在无模型RL中的应用。

🔧 核心方法

- 提出**鲁棒Koopman-CBF SAC** 框架，从数据中学习有限维**Koopman预测器(Koopman predictor)**，将非线性系统提升到线性空间。 - 在提升空间中构建仿射**控制屏障函数(CBF)** 约束，并通过**二次规划(Quadratic Program, QP)** 安全层强制执行。 - 使用从预留轨迹数据估计的**投影残差边际(projected residual margin)** 来收紧CBF条件，以补偿有限维Koopman近似误差。 - 评论家(critic)在执行的**安全动作(safe action)** 上训练，演员(actor)正则化向Koopman-CBF可行集靠拢，减少对过滤器的依赖。

💡 核心创新

- **数据驱动与模型无关**：首次将**Koopman算子(Koopman operator)** 与CBF安全过滤相结合，无需精确动力学模型。 - **鲁棒性处理**：通过**投影残差边际(projected residual margin)** 量化并补偿Koopman近似误差，使CBF条件更可靠。 - **演员正则化**：通过使演员向Feasible Set靠近，降低对**安全过滤器(safety filter)** 的依赖，提升训练效率。 - **零违规表现**：在CartPole稳定与跟踪任务中实现零约束违反，同时匹配或超越无约束SAC的回报。

🏆 总体贡献

- 为无模型强化学习与可证明安全之间提供了一种有前景的桥梁，即**鲁棒Koopman-CBF过滤器**。 - 在高维Safety Gymnasium任务中减少了一些违规，同时暴露了**一阶速度屏障** 和**线性EDMD模型** 的局限性，推动高阶与多步Koopman-CBF扩展。 - 开源代码促进社区复现与后续研究。

鲁棒库普曼控制障碍滤波器用于安全演员-评论家强化学习
Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning

📊 核心分析

鲁棒库普曼控制障碍滤波器用于安全演员-评论家强化学习 Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning

📊 核心分析

鲁棒库普曼控制障碍滤波器用于安全演员-评论家强化学习
Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning