- 现有**离策略安全强化学习(off-policy safe reinforcement learning)** 方法中,奖励和安全性**Q值(Q-values)** 由分离的**评委集成(critic ensembles)** 学习,各自独立处理不确定性
- **按目标独立处理(Objective-wise treatment)** 忽略了目标间相关性,导致过于保守的价值估计,从而降低**样本效率(sample efficiency)**
- 研究背景:安全机器人控制需要在最大化回报的同时满足安全约束,现有方法在保守性和效率之间存在矛盾
- 提出**Cholesky-Ordered Projection Q-learning (COP-Q)**,一种安全优先方法,将**目标间协方差(inter-objective covariance)** 纳入**向量值Q值估计(vector-valued Q-value estimation)**
- 构建**联合Q值空间(joint Q-value space)** 中的**广义置信界(generalized confidence bound)**,并使用**Cholesky分解(Cholesky factorization)** 以顺序形式编码目标优先级
- 在**时序差分目标(temporal-difference target computation)** 和**演员优化(actor optimization)** 中使用该估计结果,仅增加最小计算开销,并与现有深度Q学习框架兼容
- **首创性**:首次将目标间协方差显式纳入向量值Q值估计,通过**Cholesky排序投影(Cholesky-Ordered Projection)** 编码优先级顺序,实现非对称保守性控制
- **安全优先(safety-first)** 机制:在安全性上保持保守性,同时在奖励目标上自适应减少过度保守,打破了独立处理不确定性导致的僵化保守
- **低开销兼容性**:只需最小计算开销即可与大多数现有深度Q学习框架兼容,无需大规模改造模型结构
- 为**安全强化学习(safe reinforcement learning)** 领域提供了考虑目标间相关性的新颖范式,有效缓解了过度保守性问题
- 在**机器人运动控制(robot locomotion)** 和**安全导航(safe navigation)** 任务上(Brax和Safety-Gymnasium环境)验证了强安全性及竞争或更优的样本效率
- 方法通用性强且实用,可轻易集成到现有框架,推动了安全RL在真实机器人控制中的应用