← 返回论文列表

COP-Q:通过乔列斯基有序投影实现机器人控制的安全优先强化学习
COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

作者: Guopeng Li, Moritz A. Zanger, Matthijs T. J. Spaan 等4人
arXiv: 2606.04749v1
分类: cs.RO, cs.LG
📝 论文摘要
安全机器人控制需要在满足安全约束的同时最大化回报。在离策略安全强化学习中,奖励和安全Q值通常由独立的评论家集成学习,每个目标的不确定性被单独处理。这种按目标处理的方式忽略了目标间的相关性,可能导致过于保守的价值估计,从而降低样本效率。为解决这一问题,我们提出乔列斯基有序投影Q学习(COP-Q),一种安全优先的方法,将目标间协方差纳入向量值Q值估计中。COP-Q在联合Q值空间中构建广义置信区间,并利用乔列斯基分解以序列形式编码目标优先级。这既保留了安全方面的保守性,又自适应地减少了对奖励目标的过度保守。所得估计同时用于时差目标计算和演员优化。COP-Q仅引入极小的计算开销,且易于与现有深度Q学习框架兼容。在Brax机器人 locomotion 和在Safety-Gymnasium中安全导航的实验(涵盖硬安全与软安全设置)表明,相对于代表性基线,COP-Q在实现强安全性能的同时,具有竞争力或更优的样本效率。

📊 核心分析

🎯 研究动机
- 现有**离策略安全强化学习(off-policy safe reinforcement learning)** 方法中,奖励和安全性**Q值(Q-values)** 由分离的**评委集成(critic ensembles)** 学习,各自独立处理不确定性 - **按目标独立处理(Objective-wise treatment)** 忽略了目标间相关性,导致过于保守的价值估计,从而降低**样本效率(sample efficiency)** - 研究背景:安全机器人控制需要在最大化回报的同时满足安全约束,现有方法在保守性和效率之间存在矛盾
🔧 核心方法
- 提出**Cholesky-Ordered Projection Q-learning (COP-Q)**,一种安全优先方法,将**目标间协方差(inter-objective covariance)** 纳入**向量值Q值估计(vector-valued Q-value estimation)** - 构建**联合Q值空间(joint Q-value space)** 中的**广义置信界(generalized confidence bound)**,并使用**Cholesky分解(Cholesky factorization)** 以顺序形式编码目标优先级 - 在**时序差分目标(temporal-difference target computation)** 和**演员优化(actor optimization)** 中使用该估计结果,仅增加最小计算开销,并与现有深度Q学习框架兼容
💡 核心创新
- **首创性**:首次将目标间协方差显式纳入向量值Q值估计,通过**Cholesky排序投影(Cholesky-Ordered Projection)** 编码优先级顺序,实现非对称保守性控制 - **安全优先(safety-first)** 机制:在安全性上保持保守性,同时在奖励目标上自适应减少过度保守,打破了独立处理不确定性导致的僵化保守 - **低开销兼容性**:只需最小计算开销即可与大多数现有深度Q学习框架兼容,无需大规模改造模型结构
🏆 总体贡献
- 为**安全强化学习(safe reinforcement learning)** 领域提供了考虑目标间相关性的新颖范式,有效缓解了过度保守性问题 - 在**机器人运动控制(robot locomotion)** 和**安全导航(safe navigation)** 任务上(Brax和Safety-Gymnasium环境)验证了强安全性及竞争或更优的样本效率 - 方法通用性强且实用,可轻易集成到现有框架,推动了安全RL在真实机器人控制中的应用