← 返回论文列表

ELVIS:面向长期视觉模型预测控制的集成校准潜在想象
ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC

作者: Yurui Du, Pinhao Song, Yutong Hu 等4人
arXiv: 2605.04709v1
分类: cs.LG, cs.RO, eess.SY
📝 论文摘要
基于模型的强化学习(RL)在视觉控制中的一个核心挑战是可靠的长期规划:使用学习到的潜在动态进行长展开时,会产生分支式的未来和多模态的动作价值分布。此外,由视觉遮挡放大的复合模型误差使得深度想象变得脆弱。我们提出ELVIS,一种潜在模型预测控制器(MPC),旨在使长期规划变得实用。ELVIS在Dreamer风格的循环状态空间模型(RSSM)中进行规划,并用高斯混合MPPI替代标准单峰模型预测路径积分(MPPI),该混合模型在长时域内维持多个连贯假设,避免分支展开下的模式平均。同时,ELVIS通过共享的不确定性感知的λ回报来稳定深度想象:一个潜在评论家集成定义了上置信界(UCB)分数,该分数控制时变λ,自适应地在自举与前瞻之间进行权衡,以限制规划中的复合误差。同样的回报既用于从想象展开中训练演员-评论家先验,也用于对GMM-MPPI内的候选轨迹进行评分,从而将RL目标与规划器的长期优化对齐。在十四项DeepMind控制套件视觉任务上,ELVIS相较于TD-MPC2和DreamerV3取得了最先进的性能。最后,ELVIS零样本迁移到一项存在严重遮挡的真实世界喷砂任务中,提升了表面质量指标,并展示了超越仿真的鲁棒性。

📊 核心分析

🎯 研究动机
- 基于模型的强化学习(model-based RL)在视觉控制中面临长期规划(long-horizon planning)的挑战:长期展开的潜在动力学会产生**分支未来(branching futures)** 和**多模态动作-价值分布(multi-modal action-value distributions)** - 视觉遮挡导致的**累积模型误差(compounding model errors)** 使得深度想象(deep imagination)变得脆弱,限制了实际应用 - 现有方法如标准**模型预测路径积分(MPPI)** 采用单模态假设,无法在分支轨迹下有效处理多模态不确定性
🔧 核心方法
- 使用**Dreamer风格** 的**循环状态空间模型(RSSM)** 进行潜在动力学建模,并在此基础上执行模型预测控制(MPC) - 提出**高斯混合模型MPPI(Gaussian-mixture MPPI, GMM-MPPI)** 替代标准单峰MPPI,在长期规划中维持多个连贯的假设,避免模式平均(mode averaging) - 引入**集成校准的共享不确定性感知lambda-return(ensemble-calibrated lambda-return)**:集成多个潜在评论家(critic)给出**上置信界(UCB)** 分数,门控时变lambda参数,自适应地平衡自举(bootstrapping)与前瞻(look-ahead),限制规划时的累积误差 - 相同的lambda-return同时用于训练**演员-评论家(actor-critic)** 先验以及评分GMM-MPPI内的候选轨迹,统一了强化学习目标与规划器的长期优化
💡 核心创新
- **首个** 在潜在空间中结合**高斯混合MPPI** 与**集成不确定性校准** 的长期视觉MPC框架,同时处理多模态分支和累积误差 - 提出了**共享的lambda-return** 机制,将RL的演员-评论家训练与规划器的轨迹评分对齐,实现端到端(end-to-end)的一致性 - **UCB门控的时变lambda** 是新颖的,通过集成评论家的不确定性自适应调整自举与前瞻的权衡,有效稳定深度想象 - 在**真实世界严重遮挡任务** 上实现零样本迁移(zero-shot transfer),证明了超出仿真环境的鲁棒性
🏆 总体贡献
- 在14个**DeepMind Control Suite** 视觉任务上达到了**最先进性能(SOTA)**,显著优于TD-MPC2和DreamerV3 - 为长期视觉模型预测控制提供了一种**鲁棒且实用** 的新范式,解决了多模态规划与累积模型误差两大核心难题 - 证明了基于模型强化学习(method-based RL)在真实世界视觉任务(如喷涂)中的可行性,**弥合了仿真到现实的差距** - 提出的集成校准思想和GMM-MPPI框架可推广至其他基于潜在动力学的规划方法,推动领域研究