← 返回论文列表

基于Sobolev训练的扩散策略加速轨迹优化
Accelerating trajectory optimization with Sobolev-trained diffusion policies

作者: Théotime Le Hellard, Franki Nguimatsia Tiofack, Quentin Le Lidec 等4人
arXiv: 2604.19011v1
分类: cs.LG, cs.RO
📝 论文摘要
轨迹优化(TO)求解器利用已知的系统动力学,通过迭代改进计算局部最优轨迹。其缺点在于每个新问题实例都是独立求解的;因此,收敛速度和所得解的质量取决于初始轨迹的设定。为提高效率,一种自然的方法是利用学习策略生成的初始猜测来预热启动TO,该策略通过求解器先前生成的轨迹进行训练。基于扩散的策略最近已成为表达能力强的模仿学习模型,使其在这一角色中展现出潜力。然而,一个反直觉的挑战来自TO演示的局部最优性:当策略展开时,微小的非最优偏差可能将其推入训练数据中未涵盖的情况,从而在长时域内引发累积误差。在本研究中,我们专注于基于梯度的TO求解器的学习型预热启动,这些求解器同时提供反馈增益。利用这一特性,我们推导了一种基于扩散策略的索博列夫学习的一阶损失函数,该函数同时使用轨迹和反馈增益。通过全面的实验,我们证明所得策略能够避免累积误差,因此能够从极少量轨迹中学习,提供初始猜测,将求解时间减少2倍至20倍。结合一阶信息使得预测所需的扩散步骤更少,从而降低了推理延迟。

📊 核心分析

🎯 研究动机
研究动机: 解决轨迹优化(Trajectory Optimization, TO)求解器效率问题。 - 背景:传统TO求解器对每个新问题独立求解,收敛速度和求解质量严重依赖初始轨迹猜测 - 挑战:使用学习策略为TO提供初始猜测时,由于训练数据来自TO生成的局部最优轨迹,策略执行中的微小偏差会导致复合误差(compounding errors),影响长期预测效果
🔧 核心方法
核心方法: 提出一种基于Sobolev学习的扩散策略(diffusion policy)训练方法。 - 针对提供反馈增益(feedback gains)的梯度型TO求解器 - 利用轨迹和反馈增益的一阶信息,推导Sobolev学习的一阶损失函数(first-order loss) - 训练扩散策略同时学习最优轨迹及其一阶导数信息
💡 核心创新
核心创新点: 将一阶信息融入扩散策略训练,解决模仿学习中的复合误差问题。 - 独特之处: 1. 首次将Sobolev学习应用于扩散策略训练,利用TO求解器提供的反馈增益 2. 通过一阶信息约束策略输出,确保在训练数据分布外仍能保持稳定性 3. 减少对大量训练轨迹的依赖,仅需少量轨迹即可有效学习 4. 预测时所需扩散步骤更少,降低推理延迟
🏆 总体贡献
总体贡献: 提出高效的学习型预热启动方法,显著加速轨迹优化求解。 - 理论贡献:推导了适用于扩散策略的Sobolev学习损失函数 - 实践价值:策略能避免复合误差,仅需少量训练轨迹 - 性能提升:初始猜测将求解时间减少2到20倍 - 效率优化:减少扩散步骤,降低推理延迟