- 现有的**模仿学习(imitation learning)**方法依赖高质量演示数据,但获取这些数据成本高昂且往往次优
- 目标条件策略学习需要大量覆盖各种目标的训练样本,传统方法难以高效生成
- 轨迹优化虽然能产生最优解,但计算开销大,难以直接用于实时控制或大规模数据生成
- 提出**GCImOpt**方法,通过高效的轨迹优化算法在笔记本电脑上几分钟内生成数千条最优轨迹作为训练数据集
- 设计**数据增强(data augmentation)**方案,将轨迹中的中间状态视为新的目标,从而将训练数据集规模扩大一个数量级
- 使用生成的增强数据集训练**目标条件神经网络策略(goal-conditioned neural network policy)**,输出控制动作以实现任意目标
- **高效数据集生成**:首次将轨迹优化与数据增强结合,在计算资源受限环境下快速产出大量高质量最优演示
- **中间状态作为目标的数据增强**:通过将轨迹中间状态重新标记为不同目标,显著提升数据多样性,使策略泛化到更多目标
- **轻量化策略部署**:训练出的神经网络参数少于8万,推理速度比轨迹优化求解器快6000倍以上,可直接部署于资源受限的嵌入式控制器
- 为**目标条件控制(goal-conditioned control)**领域提供了一种无需大量人工演示的可扩展学习框架
- 在多个典型控制任务(车杆稳定、无人机稳定、机器人臂操作)上验证了方法的高成功率和近似最优控制性能
- 开源了代码、数据集和预训练策略,促进了社区复现及在低成本硬件上的实际部署应用