COP-Q: 通过乔列斯基顺序投影的安全优先机器人控制强化学习

📝 论文摘要

安全机器人控制要求在满足安全约束的同时最大化回报。在离策略安全强化学习中，奖励Q值与安全Q值通常通过独立的批评家集成进行学习，每个目标的不确定性被单独处理。这种按目标处理的方式忽略了目标间的相关性，可能导致过于保守的价值估计，从而降低样本效率。为解决这一问题，我们提出了Cholesky有序投影Q学习（COP-Q），这是一种优先考虑安全的方法，它将目标间协方差引入向量值Q值估计。COP-Q在联合Q值空间中构建广义置信边界，并利用Cholesky分解以顺序形式编码目标优先级。这既保持了安全性上的保守性，又自适应地减少了奖励目标上过度的保守性。所得估计同时用于时序差分目标计算和参与者优化。COP-Q带来的计算开销极小，并易于与大多数现有深度Q学习框架兼容。在Brax机器人 locomotion 和Safety-Gymnasium安全导航（涵盖硬安全和软安全设置）上的实验表明，相比于代表性基线，COP-Q在实现强安全性能的同时，具备具有竞争力或更高的样本效率。

🎯 研究动机

- 解决**离线策略安全强化学习(off-policy safe reinforcement learning)** 中，分别学习奖励和安全Q值导致忽略**目标间相关性(inter-objective correlation)** 的问题 - 现有方法使用独立的评论家集成(separate critic ensembles)独立处理不确定性，产生**过于保守(overly conservative)** 的价值估计，从而降低**样本效率(sample efficiency)** - 研究背景：机器人控制需同时最大化回报和满足安全约束，但目标间相互作用常被忽视

🔧 核心方法

- 提出**Cholesky-Ordered Projection Q-learning (COP-Q)**，一种安全优先方法 - 将**目标间协方差(inter-objective covariance)** 纳入**向量值Q值估计(vector-valued Q-value estimation)** 中 - 在联合Q值空间构建**广义置信区间(generalized confidence bound)**，并使用**Cholesky分解(Cholesky factorization)** 将目标优先级编码为序列形式 - 该估计同时用于**时序差分目标计算(temporal-difference target computation)** 和**演员优化(actor optimization)**，计算开销极小

💡 核心创新

- **首次显式建模目标间相关性**：相比独立处理每个目标的不确定性，COP-Q引入协方差避免过度保守 - **Cholesky分解编码安全优先级**：通过序列投影保持对安全的保守性，同时自适应减少对奖励的**过度保守(excessive conservatism)** - **轻量级通用兼容性**：计算开销极小，可直接集成到现有深度Q学习框架中，无需修改整体架构

🏆 总体贡献

- 为**安全强化学习(safe reinforcement learning)** 领域提供了一种新颖的安全优先范式，通过协方差建模提升了样本效率和安全性能 - 在Brax机器人运动和Safety-Gymnasium安全导航（硬约束和软约束）实验中，相对代表性基线实现了强大的安全性和有竞争力或改进的样本效率 - 方法兼容性强，开源实现有助于社区复现和后续研究

COP-Q: 通过乔列斯基顺序投影的安全优先机器人控制强化学习
COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

📊 核心分析

COP-Q: 通过乔列斯基顺序投影的安全优先机器人控制强化学习 COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

📊 核心分析

COP-Q: 通过乔列斯基顺序投影的安全优先机器人控制强化学习
COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection