- 现有**基于模型的强化学习(model-based RL)** 方法多依赖无梯度的、基于种群的规划或策略网络,**混合方法(Hybrid approaches)** 结合**模型预测控制(MPC)** 与策略先验,但仍使用无梯度优化,计算成本高
- 梯度优化方法虽具潜力,但已有实证表明其性能通常不如无梯度方法
- 目标:设计一种高效且性能优越的**梯度优化(gradient-based)** 规划方法,克服现有梯度方法在连续控制任务中的不足
- 提出**Dream-MPC** 框架,从**策略网络(policy network)** 推出少量候选轨迹,对每条轨迹执行**梯度上升(gradient ascent)** 优化
- 使用**学习的世界模型(learned world model)** 进行轨迹预测,并引入**不确定性正则化(uncertainty regularization)** 以约束优化方向
- 通过**摊销优化迭代(amortization of optimization iterations)**,重用先前优化的动作作为初始化,跨时间步分摊计算成本
- **首创梯度优化的混合规划**:在MPC框架内首次将**梯度上升(gradient ascent)** 与策略推出的候选轨迹结合,替代传统无梯度方法
- **不确定性正则化(uncertainty regularization)**:在优化过程中显式考虑模型不确定性,提升梯度更新的鲁棒性
- **时间步上分摊迭代**:通过重用历史优化动作,减少每步计算量,实现高效在线规划
- 在**24个连续控制任务(continuous control tasks)** 上显著提升底层策略性能,超越**无梯度MPC(gradient-free MPC)** 及**最新基线(state-of-the-art baselines)**
- 为基于模型的强化学习提供一种**高效梯度规划范式**,证明梯度方法在控制任务中的潜力
- 开源代码和项目网站,促进社区复现与后续研究