← 返回论文列表

COP-Q: 通过乔列斯基顺序投影的安全优先机器人控制强化学习
COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

作者: Guopeng Li, Moritz A. Zanger, Matthijs T. J. Spaan 等4人
arXiv: 2606.04749
分类: cs.RO, cs.LG
📝 论文摘要
安全机器人控制要求在满足安全约束的同时最大化回报。在离策略安全强化学习中,奖励Q值与安全Q值通常通过独立的批评家集成进行学习,每个目标的不确定性被单独处理。这种按目标处理的方式忽略了目标间的相关性,可能导致过于保守的价值估计,从而降低样本效率。为解决这一问题,我们提出了Cholesky有序投影Q学习(COP-Q),这是一种优先考虑安全的方法,它将目标间协方差引入向量值Q值估计。COP-Q在联合Q值空间中构建广义置信边界,并利用Cholesky分解以顺序形式编码目标优先级。这既保持了安全性上的保守性,又自适应地减少了奖励目标上过度的保守性。所得估计同时用于时序差分目标计算和参与者优化。COP-Q带来的计算开销极小,并易于与大多数现有深度Q学习框架兼容。在Brax机器人 locomotion 和Safety-Gymnasium安全导航(涵盖硬安全和软安全设置)上的实验表明,相比于代表性基线,COP-Q在实现强安全性能的同时,具备具有竞争力或更高的样本效率。

📊 核心分析

🎯 研究动机
- 解决**离线策略安全强化学习(off-policy safe reinforcement learning)** 中,分别学习奖励和安全Q值导致忽略**目标间相关性(inter-objective correlation)** 的问题 - 现有方法使用独立的评论家集成(separate critic ensembles)独立处理不确定性,产生**过于保守(overly conservative)** 的价值估计,从而降低**样本效率(sample efficiency)** - 研究背景:机器人控制需同时最大化回报和满足安全约束,但目标间相互作用常被忽视
🔧 核心方法
- 提出**Cholesky-Ordered Projection Q-learning (COP-Q)**,一种安全优先方法 - 将**目标间协方差(inter-objective covariance)** 纳入**向量值Q值估计(vector-valued Q-value estimation)** 中 - 在联合Q值空间构建**广义置信区间(generalized confidence bound)**,并使用**Cholesky分解(Cholesky factorization)** 将目标优先级编码为序列形式 - 该估计同时用于**时序差分目标计算(temporal-difference target computation)** 和**演员优化(actor optimization)**,计算开销极小
💡 核心创新
- **首次显式建模目标间相关性**:相比独立处理每个目标的不确定性,COP-Q引入协方差避免过度保守 - **Cholesky分解编码安全优先级**:通过序列投影保持对安全的保守性,同时自适应减少对奖励的**过度保守(excessive conservatism)** - **轻量级通用兼容性**:计算开销极小,可直接集成到现有深度Q学习框架中,无需修改整体架构
🏆 总体贡献
- 为**安全强化学习(safe reinforcement learning)** 领域提供了一种新颖的安全优先范式,通过协方差建模提升了样本效率和安全性能 - 在Brax机器人运动和Safety-Gymnasium安全导航(硬约束和软约束)实验中,相对代表性基线实现了强大的安全性和有竞争力或改进的样本效率 - 方法兼容性强,开源实现有助于社区复现和后续研究