- 解决**离线策略安全强化学习(off-policy safe reinforcement learning)** 中,分别学习奖励和安全Q值导致忽略**目标间相关性(inter-objective correlation)** 的问题
- 现有方法使用独立的评论家集成(separate critic ensembles)独立处理不确定性,产生**过于保守(overly conservative)** 的价值估计,从而降低**样本效率(sample efficiency)**
- 研究背景:机器人控制需同时最大化回报和满足安全约束,但目标间相互作用常被忽视
- 提出**Cholesky-Ordered Projection Q-learning (COP-Q)**,一种安全优先方法
- 将**目标间协方差(inter-objective covariance)** 纳入**向量值Q值估计(vector-valued Q-value estimation)** 中
- 在联合Q值空间构建**广义置信区间(generalized confidence bound)**,并使用**Cholesky分解(Cholesky factorization)** 将目标优先级编码为序列形式
- 该估计同时用于**时序差分目标计算(temporal-difference target computation)** 和**演员优化(actor optimization)**,计算开销极小
- **首次显式建模目标间相关性**:相比独立处理每个目标的不确定性,COP-Q引入协方差避免过度保守
- **Cholesky分解编码安全优先级**:通过序列投影保持对安全的保守性,同时自适应减少对奖励的**过度保守(excessive conservatism)**
- **轻量级通用兼容性**:计算开销极小,可直接集成到现有深度Q学习框架中,无需修改整体架构
- 为**安全强化学习(safe reinforcement learning)** 领域提供了一种新颖的安全优先范式,通过协方差建模提升了样本效率和安全性能
- 在Brax机器人运动和Safety-Gymnasium安全导航(硬约束和软约束)实验中,相对代表性基线实现了强大的安全性和有竞争力或改进的样本效率
- 方法兼容性强,开源实现有助于社区复现和后续研究