- 安全强化学习要求策略在训练和部署中同时提升任务性能并满足状态和输入约束。
- 控制屏障函数(CBF)提供最小干预安全过滤机制,但现有方法依赖准确动力学模型和手工设计的屏障证书,限制了其在无模型RL中的应用。
- 提出**鲁棒Koopman-CBF SAC** 框架,从数据中学习有限维**Koopman预测器(Koopman predictor)**,将非线性系统提升到线性空间。
- 在提升空间中构建仿射**控制屏障函数(CBF)** 约束,并通过**二次规划(Quadratic Program, QP)** 安全层强制执行。
- 使用从预留轨迹数据估计的**投影残差边际(projected residual margin)** 来收紧CBF条件,以补偿有限维Koopman近似误差。
- 评论家(critic)在执行的**安全动作(safe action)** 上训练,演员(actor)正则化向Koopman-CBF可行集靠拢,减少对过滤器的依赖。
- **数据驱动与模型无关**:首次将**Koopman算子(Koopman operator)** 与CBF安全过滤相结合,无需精确动力学模型。
- **鲁棒性处理**:通过**投影残差边际(projected residual margin)** 量化并补偿Koopman近似误差,使CBF条件更可靠。
- **演员正则化**:通过使演员向Feasible Set靠近,降低对**安全过滤器(safety filter)** 的依赖,提升训练效率。
- **零违规表现**:在CartPole稳定与跟踪任务中实现零约束违反,同时匹配或超越无约束SAC的回报。
- 为无模型强化学习与可证明安全之间提供了一种有前景的桥梁,即**鲁棒Koopman-CBF过滤器**。
- 在高维Safety Gymnasium任务中减少了一些违规,同时暴露了**一阶速度屏障** 和**线性EDMD模型** 的局限性,推动高阶与多步Koopman-CBF扩展。
- 开源代码促进社区复现与后续研究。