← 返回论文列表

PISTO:面向随机轨迹优化的近端推断
PISTO: Proximal Inference for Stochastic Trajectory Optimization

作者: Hongzhe Yu, Zinuo Chang, Yongxin Chen
arXiv: 2605.07215v1
分类: cs.RO
📝 论文摘要
像STOMP这样的随机轨迹优化方法能够处理不可微成本,相比基于梯度的算法具有显著灵活性。我们证明STOMP隐式最小化与玻尔兹曼轨迹分布的KL散度,揭示其更新过程背后优雅的变分推理(VI)结构。基于这一发现,我们提出\textit{随机轨迹优化的近端推理}(PISTO)算法,通过在目标函数中增加连续高斯提案分布之间的KL正则化项来稳定更新过程。该近端公式具有信赖域解释,并产生可表示为代理分布下期望的闭式均值更新。我们通过重要性加权蒙特卡洛采样估计这些期望,得到一种简单、无导数的算法,该算法继承了STOMP无需修改即可处理不可微和不连续成本的能力。在机器人手臂运动规划基准测试中,PISTO达到89%的成功率——优于CHOMP(63%)和STOMP(68%)——同时以两倍于竞争随机方法的速度生成更短、更平滑的路径。我们进一步在接触丰富的MuJoCo运动与操作任务中验证PISTO,其在奖励上持续超越CEM和MPPI基线。

📊 核心分析

🎯 研究动机
- 现有随机轨迹优化方法如**STOMP** 虽能处理非可微成本,但其更新过程缺乏稳定性,收敛性能有限 - 作者揭示了STOMP隐式最小化**KL散度(KL divergence)**,具有**变分推断(Variational Inference, VI)** 结构,但未显式利用该结构进行稳定化 - 研究背景:机器人轨迹规划中需平衡灵活性(非可微成本)与优化稳定性,梯度方法受限,随机方法需改进
🔧 核心方法
- 提出**PISTO(Proximal Inference for Stochastic Trajectory Optimization)** 算法,在目标函数中增加**KL正则化(KL regularization)** 项,约束连续高斯提议分布之间的差异 - 该近端形式具有**信赖域(trust-region)** 解释,推导出**闭式均值更新(closed-form mean updates)**,可表示为代理分布下的期望 - 使用**重要性加权蒙特卡洛采样(importance-weighted Monte Carlo sampling)** 估计期望,得到简单的**无导数(derivative-free)** 算法,保留STOMP处理非可微成本的能力
💡 核心创新
- **理论创新**:首次明确将STOMP的更新解释为**变分推断(Variational Inference)**,揭示其隐式最小化KL散度的本质 - **算法设计**:引入**KL正则化** 作为近端项,使更新更稳定,具备信赖域特性,且保持闭式解形式 - **效率提升**:通过重要性采样估计期望,无需梯度计算,在机器人手臂规划中速度是竞争性随机方法的两倍,同时路径更短更平滑
🏆 总体贡献
- 提出一种新颖的随机轨迹优化算法**PISTO**,在多个基准上显著超越现有方法,如机器人手臂规划成功率89%(CHOMP 63%、STOMP 68%) - 验证了PISTO在接触丰富的**MuJoCo** 运动控制和操作任务中持续优于**CEM** 和**MPPI** 基线 - 为随机轨迹优化领域提供了基于**变分推断** 和**近端(proximal)** 理论的统一框架,兼具理论深度与实用性能