← 返回论文列表

基于可微CVaR障碍函数的风险适应强化学习
Reinforcement Learning for Risk Adaptation via Differentiable CVaR Barrier Functions

作者: Xinyi Wang, Taekyung Kim, Bardh Hoxha 等5人
arXiv: 2605.21257v1
分类: cs.RO
📝 论文摘要
在不确定性障碍物运动下的拥挤环境中的规划仍然具有挑战性,因为随机交互常常导致过于保守的行为或效率降低。为应对这一挑战,我们提出了一种端到端的风险适应框架,用于在由高斯混合模型建模的障碍物运动不确定性下进行人群导航。该框架将强化学习(RL)与基于条件风险价值(CVaR)障碍函数的可微二次规划安全层相结合,共同学习标称控制输入、风险水平和安全裕度,并强制执行显式概率安全约束。这种设计实现了上下文感知的自适应,仅在必要时触发谨慎行为,同时促进高效运行。我们在不同障碍密度和机器人模型下的动态、不确定且拥挤环境中进行了广泛评估,并进一步在三种分布外案例下评估了泛化能力。通过与基于优化、基于强化学习以及集成强化学习和优化的方法进行比较,所提方法在不确定性下的安全性、效率和泛化能力方面展现了最强的综合性能。

📊 核心分析

🎯 研究动机
- 现有方法在不确定障碍物运动下的拥挤环境规划中,由于随机交互导致行为过于保守或效率降低 - 传统方法难以在不确定性和效率之间自适应权衡,缺乏上下文感知的风险调整能力 - 研究背景:机器人需在动态、不确定的拥挤场景中安全高效导航,如人群环境
🔧 核心方法
- 提出**端到端风险适应框架**,结合**强化学习(reinforcement learning)** 与**可微二次规划安全层(differentiable quadratic-program safety layer)** - 使用**高斯混合模型(Gaussian mixture model, GMM)** 对障碍物运动不确定性进行建模 - 引入基于**条件风险价值(Conditional Value-at-Risk, CVaR)** 的**屏障函数(barrier functions)**,显式强制执行概率安全约束 - 联合学习**名义控制输入(nominal control input)**、**风险水平(risk level)** 和**安全余量(safety margin)**,实现上下文自适应
💡 核心创新
- **端到端集成**:首次将RL与可微CVaR安全层结合,在统一框架中同步学习控制和风险参数 - **上下文自适应风险适应**:根据环境动态调整风险水平,仅在必要时触发谨慎行为,避免过度保守 - **显式概率安全约束**:通过可微二次规划层强制执行CVaR屏障约束,确保理论安全性并保持可微性以支持RL训练
🏆 总体贡献
- 提出一种新颖的**风险自适应导航范式**,在安全、效率和泛化上达到最强综合性能 - 在动态、不确定、拥挤环境中进行广泛评估,涵盖不同障碍密度、机器人模型及三种分布外场景 - 与优化、RL、集成方法对比,验证了该方法在不确定性下的显著优势,推动安全强化学习在机器人导航中的应用