- 现有方法在不确定障碍物运动下的拥挤环境规划中,由于随机交互导致行为过于保守或效率降低
- 传统方法难以在不确定性和效率之间自适应权衡,缺乏上下文感知的风险调整能力
- 研究背景:机器人需在动态、不确定的拥挤场景中安全高效导航,如人群环境
- 提出**端到端风险适应框架**,结合**强化学习(reinforcement learning)** 与**可微二次规划安全层(differentiable quadratic-program safety layer)**
- 使用**高斯混合模型(Gaussian mixture model, GMM)** 对障碍物运动不确定性进行建模
- 引入基于**条件风险价值(Conditional Value-at-Risk, CVaR)** 的**屏障函数(barrier functions)**,显式强制执行概率安全约束
- 联合学习**名义控制输入(nominal control input)**、**风险水平(risk level)** 和**安全余量(safety margin)**,实现上下文自适应
- **端到端集成**:首次将RL与可微CVaR安全层结合,在统一框架中同步学习控制和风险参数
- **上下文自适应风险适应**:根据环境动态调整风险水平,仅在必要时触发谨慎行为,避免过度保守
- **显式概率安全约束**:通过可微二次规划层强制执行CVaR屏障约束,确保理论安全性并保持可微性以支持RL训练
- 提出一种新颖的**风险自适应导航范式**,在安全、效率和泛化上达到最强综合性能
- 在动态、不确定、拥挤环境中进行广泛评估,涵盖不同障碍密度、机器人模型及三种分布外场景
- 与优化、RL、集成方法对比,验证了该方法在不确定性下的显著优势,推动安全强化学习在机器人导航中的应用