基于Sobolev训练的扩散策略加速轨迹优化

📝 论文摘要

轨迹优化（TO）求解器利用已知的系统动力学，通过迭代改进计算局部最优轨迹。其缺点在于每个新问题实例都是独立求解的；因此，收敛速度和所得解的质量取决于初始轨迹的设定。为提高效率，一种自然的方法是利用学习策略生成的初始猜测来预热启动TO，该策略通过求解器先前生成的轨迹进行训练。基于扩散的策略最近已成为表达能力强的模仿学习模型，使其在这一角色中展现出潜力。然而，一个反直觉的挑战来自TO演示的局部最优性：当策略展开时，微小的非最优偏差可能将其推入训练数据中未涵盖的情况，从而在长时域内引发累积误差。在本研究中，我们专注于基于梯度的TO求解器的学习型预热启动，这些求解器同时提供反馈增益。利用这一特性，我们推导了一种基于扩散策略的索博列夫学习的一阶损失函数，该函数同时使用轨迹和反馈增益。通过全面的实验，我们证明所得策略能够避免累积误差，因此能够从极少量轨迹中学习，提供初始猜测，将求解时间减少2倍至20倍。结合一阶信息使得预测所需的扩散步骤更少，从而降低了推理延迟。

🎯 研究动机

研究动机: 解决轨迹优化(Trajectory Optimization, TO)求解器效率问题。 - 背景：传统TO求解器对每个新问题独立求解，收敛速度和求解质量严重依赖初始轨迹猜测 - 挑战：使用学习策略为TO提供初始猜测时，由于训练数据来自TO生成的局部最优轨迹，策略执行中的微小偏差会导致复合误差(compounding errors)，影响长期预测效果

🔧 核心方法

核心方法: 提出一种基于Sobolev学习的扩散策略(diffusion policy)训练方法。 - 针对提供反馈增益(feedback gains)的梯度型TO求解器 - 利用轨迹和反馈增益的一阶信息，推导Sobolev学习的一阶损失函数(first-order loss) - 训练扩散策略同时学习最优轨迹及其一阶导数信息

💡 核心创新

核心创新点: 将一阶信息融入扩散策略训练，解决模仿学习中的复合误差问题。 - 独特之处： 1. 首次将Sobolev学习应用于扩散策略训练，利用TO求解器提供的反馈增益 2. 通过一阶信息约束策略输出，确保在训练数据分布外仍能保持稳定性 3. 减少对大量训练轨迹的依赖，仅需少量轨迹即可有效学习 4. 预测时所需扩散步骤更少，降低推理延迟

🏆 总体贡献

总体贡献: 提出高效的学习型预热启动方法，显著加速轨迹优化求解。 - 理论贡献：推导了适用于扩散策略的Sobolev学习损失函数 - 实践价值：策略能避免复合误差，仅需少量训练轨迹 - 性能提升：初始猜测将求解时间减少2到20倍 - 效率优化：减少扩散步骤，降低推理延迟

基于Sobolev训练的扩散策略加速轨迹优化
Accelerating trajectory optimization with Sobolev-trained diffusion policies

📊 核心分析

基于Sobolev训练的扩散策略加速轨迹优化 Accelerating trajectory optimization with Sobolev-trained diffusion policies

📊 核心分析

基于Sobolev训练的扩散策略加速轨迹优化
Accelerating trajectory optimization with Sobolev-trained diffusion policies