基于可微动力学的轨迹与策略优化的回火序贯蒙特卡洛方法

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

作者: Heng Yang

arXiv: 2604.21456v1

分类: cs.LG, cs.RO

📝 论文摘要

我们提出了一种基于采样的框架，用于在可微动力学条件下实现有限时域轨迹与策略优化，其核心思想是将控制器设计转化为推断问题。具体而言，我们通过最小化KL正则化的期望轨迹代价，得到控制器参数上的最优"玻尔兹曼倾斜"分布——该分布随温度降低而集中于低代价解。为高效采样这一尖锐且可能多模态的目标分布，我们引入时序退火序贯蒙特卡洛方法（TSMC）：一种退火方案，通过沿从先验到目标分布的退火路径自适应地重加权与重采样粒子，同时利用哈密顿蒙特卡洛更新机制保持多样性，并充分利用通过轨迹展开微分获得的精确梯度。针对策略优化，我们通过以下两点扩展TSMC：（i）初始状态分布的确定性经验近似；（ii）将轨迹随机性视为辅助变量的扩展空间构造。在轨迹优化与策略优化基准测试中的实验表明，TSMC具有广泛适用性，且性能优于当前最先进的基线方法。

📊 核心分析

🎯 研究动机

在可微动力学(differentiable dynamics)条件下，有限时域轨迹与策略优化问题中，现有方法难以高效地从尖锐、多模态的控制器参数分布中采样，导致优化效果不佳。

🔧 核心方法

提出了一种基于采样的框架，通过将控制器设计视为推理问题，最小化KL正则化期望轨迹代价，得到最优的“玻尔兹曼倾斜”(Boltzmann-tilted)分布；采用时序蒙特卡洛(tempered sequential Monte Carlo, TSMC)方法，沿退火路径从先验分布到目标分布自适应地重加权和重采样粒子，并使用哈密顿蒙特卡洛(Hamiltonian Monte Carlo)重振步骤保持多样性，利用通过轨迹展开微分得到的精确梯度。

💡 核心创新

核心创新在于：1) 将退火时序蒙特卡洛(TSMC)与可微动力学结合，通过哈密顿蒙特卡洛重振步骤利用精确梯度高效采样；2) 针对策略优化，提出确定性经验近似初始状态分布和扩展空间构造将轨迹随机性作为辅助变量，从而扩展TSMC的适用性。

🏆 总体贡献

提出了一种通用且高效的采样优化框架，在轨迹和策略优化基准测试中优于现有基线方法，为可微动力学下的控制器设计提供了新思路。