基于可微CVaR障碍函数的风险适应强化学习

📝 论文摘要

在不确定性障碍物运动下的拥挤环境中的规划仍然具有挑战性，因为随机交互常常导致过于保守的行为或效率降低。为应对这一挑战，我们提出了一种端到端的风险适应框架，用于在由高斯混合模型建模的障碍物运动不确定性下进行人群导航。该框架将强化学习（RL）与基于条件风险价值（CVaR）障碍函数的可微二次规划安全层相结合，共同学习标称控制输入、风险水平和安全裕度，并强制执行显式概率安全约束。这种设计实现了上下文感知的自适应，仅在必要时触发谨慎行为，同时促进高效运行。我们在不同障碍密度和机器人模型下的动态、不确定且拥挤环境中进行了广泛评估，并进一步在三种分布外案例下评估了泛化能力。通过与基于优化、基于强化学习以及集成强化学习和优化的方法进行比较，所提方法在不确定性下的安全性、效率和泛化能力方面展现了最强的综合性能。

🎯 研究动机

- 现有方法在不确定障碍物运动下的拥挤环境规划中，由于随机交互导致行为过于保守或效率降低 - 传统方法难以在不确定性和效率之间自适应权衡，缺乏上下文感知的风险调整能力 - 研究背景：机器人需在动态、不确定的拥挤场景中安全高效导航，如人群环境

🔧 核心方法

- 提出**端到端风险适应框架**，结合**强化学习(reinforcement learning)** 与**可微二次规划安全层(differentiable quadratic-program safety layer)** - 使用**高斯混合模型(Gaussian mixture model, GMM)** 对障碍物运动不确定性进行建模 - 引入基于**条件风险价值(Conditional Value-at-Risk, CVaR)** 的**屏障函数(barrier functions)**，显式强制执行概率安全约束 - 联合学习**名义控制输入(nominal control input)**、**风险水平(risk level)** 和**安全余量(safety margin)**，实现上下文自适应

💡 核心创新

- **端到端集成**：首次将RL与可微CVaR安全层结合，在统一框架中同步学习控制和风险参数 - **上下文自适应风险适应**：根据环境动态调整风险水平，仅在必要时触发谨慎行为，避免过度保守 - **显式概率安全约束**：通过可微二次规划层强制执行CVaR屏障约束，确保理论安全性并保持可微性以支持RL训练

🏆 总体贡献

- 提出一种新颖的**风险自适应导航范式**，在安全、效率和泛化上达到最强综合性能 - 在动态、不确定、拥挤环境中进行广泛评估，涵盖不同障碍密度、机器人模型及三种分布外场景 - 与优化、RL、集成方法对比，验证了该方法在不确定性下的显著优势，推动安全强化学习在机器人导航中的应用

基于可微CVaR障碍函数的风险适应强化学习
Reinforcement Learning for Risk Adaptation via Differentiable CVaR Barrier Functions

📊 核心分析

基于可微CVaR障碍函数的风险适应强化学习 Reinforcement Learning for Risk Adaptation via Differentiable CVaR Barrier Functions

📊 核心分析

基于可微CVaR障碍函数的风险适应强化学习
Reinforcement Learning for Risk Adaptation via Differentiable CVaR Barrier Functions