PISTO：面向随机轨迹优化的近端推断

📝 论文摘要

像STOMP这样的随机轨迹优化方法能够处理不可微成本，相比基于梯度的算法具有显著灵活性。我们证明STOMP隐式最小化与玻尔兹曼轨迹分布的KL散度，揭示其更新过程背后优雅的变分推理（VI）结构。基于这一发现，我们提出\textit{随机轨迹优化的近端推理}（PISTO）算法，通过在目标函数中增加连续高斯提案分布之间的KL正则化项来稳定更新过程。该近端公式具有信赖域解释，并产生可表示为代理分布下期望的闭式均值更新。我们通过重要性加权蒙特卡洛采样估计这些期望，得到一种简单、无导数的算法，该算法继承了STOMP无需修改即可处理不可微和不连续成本的能力。在机器人手臂运动规划基准测试中，PISTO达到89%的成功率——优于CHOMP（63%）和STOMP（68%）——同时以两倍于竞争随机方法的速度生成更短、更平滑的路径。我们进一步在接触丰富的MuJoCo运动与操作任务中验证PISTO，其在奖励上持续超越CEM和MPPI基线。

🎯 研究动机

- 现有随机轨迹优化方法如**STOMP** 虽能处理非可微成本，但其更新过程缺乏稳定性，收敛性能有限 - 作者揭示了STOMP隐式最小化**KL散度(KL divergence)**，具有**变分推断(Variational Inference, VI)** 结构，但未显式利用该结构进行稳定化 - 研究背景：机器人轨迹规划中需平衡灵活性（非可微成本）与优化稳定性，梯度方法受限，随机方法需改进

🔧 核心方法

- 提出**PISTO(Proximal Inference for Stochastic Trajectory Optimization)** 算法，在目标函数中增加**KL正则化(KL regularization)** 项，约束连续高斯提议分布之间的差异 - 该近端形式具有**信赖域(trust-region)** 解释，推导出**闭式均值更新(closed-form mean updates)**，可表示为代理分布下的期望 - 使用**重要性加权蒙特卡洛采样(importance-weighted Monte Carlo sampling)** 估计期望，得到简单的**无导数(derivative-free)** 算法，保留STOMP处理非可微成本的能力

💡 核心创新

- **理论创新**：首次明确将STOMP的更新解释为**变分推断(Variational Inference)**，揭示其隐式最小化KL散度的本质 - **算法设计**：引入**KL正则化** 作为近端项，使更新更稳定，具备信赖域特性，且保持闭式解形式 - **效率提升**：通过重要性采样估计期望，无需梯度计算，在机器人手臂规划中速度是竞争性随机方法的两倍，同时路径更短更平滑

🏆 总体贡献

- 提出一种新颖的随机轨迹优化算法**PISTO**，在多个基准上显著超越现有方法，如机器人手臂规划成功率89%（CHOMP 63%、STOMP 68%） - 验证了PISTO在接触丰富的**MuJoCo** 运动控制和操作任务中持续优于**CEM** 和**MPPI** 基线 - 为随机轨迹优化领域提供了基于**变分推断** 和**近端(proximal)** 理论的统一框架，兼具理论深度与实用性能

PISTO：面向随机轨迹优化的近端推断
PISTO: Proximal Inference for Stochastic Trajectory Optimization

📊 核心分析

PISTO：面向随机轨迹优化的近端推断 PISTO: Proximal Inference for Stochastic Trajectory Optimization

📊 核心分析

PISTO：面向随机轨迹优化的近端推断
PISTO: Proximal Inference for Stochastic Trajectory Optimization