研究动机: 解决轨迹优化(Trajectory Optimization, TO)求解器效率问题。
- 背景:传统TO求解器对每个新问题独立求解,收敛速度和求解质量严重依赖初始轨迹猜测
- 挑战:使用学习策略为TO提供初始猜测时,由于训练数据来自TO生成的局部最优轨迹,策略执行中的微小偏差会导致复合误差(compounding errors),影响长期预测效果
核心方法: 提出一种基于Sobolev学习的扩散策略(diffusion policy)训练方法。
- 针对提供反馈增益(feedback gains)的梯度型TO求解器
- 利用轨迹和反馈增益的一阶信息,推导Sobolev学习的一阶损失函数(first-order loss)
- 训练扩散策略同时学习最优轨迹及其一阶导数信息
核心创新点: 将一阶信息融入扩散策略训练,解决模仿学习中的复合误差问题。
- 独特之处:
1. 首次将Sobolev学习应用于扩散策略训练,利用TO求解器提供的反馈增益
2. 通过一阶信息约束策略输出,确保在训练数据分布外仍能保持稳定性
3. 减少对大量训练轨迹的依赖,仅需少量轨迹即可有效学习
4. 预测时所需扩散步骤更少,降低推理延迟
总体贡献: 提出高效的学习型预热启动方法,显著加速轨迹优化求解。
- 理论贡献:推导了适用于扩散策略的Sobolev学习损失函数
- 实践价值:策略能避免复合误差,仅需少量训练轨迹
- 性能提升:初始猜测将求解时间减少2到20倍
- 效率优化:减少扩散步骤,降低推理延迟