- 基于模型的强化学习(model-based RL)在视觉控制中面临长期规划(long-horizon planning)的挑战:长期展开的潜在动力学会产生**分支未来(branching futures)** 和**多模态动作-价值分布(multi-modal action-value distributions)**
- 视觉遮挡导致的**累积模型误差(compounding model errors)** 使得深度想象(deep imagination)变得脆弱,限制了实际应用
- 现有方法如标准**模型预测路径积分(MPPI)** 采用单模态假设,无法在分支轨迹下有效处理多模态不确定性
- 使用**Dreamer风格** 的**循环状态空间模型(RSSM)** 进行潜在动力学建模,并在此基础上执行模型预测控制(MPC)
- 提出**高斯混合模型MPPI(Gaussian-mixture MPPI, GMM-MPPI)** 替代标准单峰MPPI,在长期规划中维持多个连贯的假设,避免模式平均(mode averaging)
- 引入**集成校准的共享不确定性感知lambda-return(ensemble-calibrated lambda-return)**:集成多个潜在评论家(critic)给出**上置信界(UCB)** 分数,门控时变lambda参数,自适应地平衡自举(bootstrapping)与前瞻(look-ahead),限制规划时的累积误差
- 相同的lambda-return同时用于训练**演员-评论家(actor-critic)** 先验以及评分GMM-MPPI内的候选轨迹,统一了强化学习目标与规划器的长期优化
- **首个** 在潜在空间中结合**高斯混合MPPI** 与**集成不确定性校准** 的长期视觉MPC框架,同时处理多模态分支和累积误差
- 提出了**共享的lambda-return** 机制,将RL的演员-评论家训练与规划器的轨迹评分对齐,实现端到端(end-to-end)的一致性
- **UCB门控的时变lambda** 是新颖的,通过集成评论家的不确定性自适应调整自举与前瞻的权衡,有效稳定深度想象
- 在**真实世界严重遮挡任务** 上实现零样本迁移(zero-shot transfer),证明了超出仿真环境的鲁棒性
- 在14个**DeepMind Control Suite** 视觉任务上达到了**最先进性能(SOTA)**,显著优于TD-MPC2和DreamerV3
- 为长期视觉模型预测控制提供了一种**鲁棒且实用** 的新范式,解决了多模态规划与累积模型误差两大核心难题
- 证明了基于模型强化学习(method-based RL)在真实世界视觉任务(如喷涂)中的可行性,**弥合了仿真到现实的差距**
- 提出的集成校准思想和GMM-MPPI框架可推广至其他基于潜在动力学的规划方法,推动领域研究