- 现有随机轨迹优化方法如**STOMP** 虽能处理非可微成本,但其更新过程缺乏稳定性,收敛性能有限
- 作者揭示了STOMP隐式最小化**KL散度(KL divergence)**,具有**变分推断(Variational Inference, VI)** 结构,但未显式利用该结构进行稳定化
- 研究背景:机器人轨迹规划中需平衡灵活性(非可微成本)与优化稳定性,梯度方法受限,随机方法需改进
- 提出**PISTO(Proximal Inference for Stochastic Trajectory Optimization)** 算法,在目标函数中增加**KL正则化(KL regularization)** 项,约束连续高斯提议分布之间的差异
- 该近端形式具有**信赖域(trust-region)** 解释,推导出**闭式均值更新(closed-form mean updates)**,可表示为代理分布下的期望
- 使用**重要性加权蒙特卡洛采样(importance-weighted Monte Carlo sampling)** 估计期望,得到简单的**无导数(derivative-free)** 算法,保留STOMP处理非可微成本的能力
- **理论创新**:首次明确将STOMP的更新解释为**变分推断(Variational Inference)**,揭示其隐式最小化KL散度的本质
- **算法设计**:引入**KL正则化** 作为近端项,使更新更稳定,具备信赖域特性,且保持闭式解形式
- **效率提升**:通过重要性采样估计期望,无需梯度计算,在机器人手臂规划中速度是竞争性随机方法的两倍,同时路径更短更平滑
- 提出一种新颖的随机轨迹优化算法**PISTO**,在多个基准上显著超越现有方法,如机器人手臂规划成功率89%(CHOMP 63%、STOMP 68%)
- 验证了PISTO在接触丰富的**MuJoCo** 运动控制和操作任务中持续优于**CEM** 和**MPPI** 基线
- 为随机轨迹优化领域提供了基于**变分推断** 和**近端(proximal)** 理论的统一框架,兼具理论深度与实用性能