在可微动力学(differentiable dynamics)条件下,有限时域轨迹与策略优化问题中,现有方法难以高效地从尖锐、多模态的控制器参数分布中采样,导致优化效果不佳。
提出了一种基于采样的框架,通过将控制器设计视为推理问题,最小化KL正则化期望轨迹代价,得到最优的“玻尔兹曼倾斜”(Boltzmann-tilted)分布;采用时序蒙特卡洛(tempered sequential Monte Carlo, TSMC)方法,沿退火路径从先验分布到目标分布自适应地重加权和重采样粒子,并使用哈密顿蒙特卡洛(Hamiltonian Monte Carlo)重振步骤保持多样性,利用通过轨迹展开微分得到的精确梯度。
核心创新在于:1) 将退火时序蒙特卡洛(TSMC)与可微动力学结合,通过哈密顿蒙特卡洛重振步骤利用精确梯度高效采样;2) 针对策略优化,提出确定性经验近似初始状态分布和扩展空间构造将轨迹随机性作为辅助变量,从而扩展TSMC的适用性。
提出了一种通用且高效的采样优化框架,在轨迹和策略优化基准测试中优于现有基线方法,为可微动力学下的控制器设计提供了新思路。