ELVIS：面向长期视觉模型预测控制的集成校准潜在想象

📝 论文摘要

基于模型的强化学习（RL）在视觉控制中的一个核心挑战是可靠的长期规划：使用学习到的潜在动态进行长展开时，会产生分支式的未来和多模态的动作价值分布。此外，由视觉遮挡放大的复合模型误差使得深度想象变得脆弱。我们提出ELVIS，一种潜在模型预测控制器（MPC），旨在使长期规划变得实用。ELVIS在Dreamer风格的循环状态空间模型（RSSM）中进行规划，并用高斯混合MPPI替代标准单峰模型预测路径积分（MPPI），该混合模型在长时域内维持多个连贯假设，避免分支展开下的模式平均。同时，ELVIS通过共享的不确定性感知的λ回报来稳定深度想象：一个潜在评论家集成定义了上置信界（UCB）分数，该分数控制时变λ，自适应地在自举与前瞻之间进行权衡，以限制规划中的复合误差。同样的回报既用于从想象展开中训练演员-评论家先验，也用于对GMM-MPPI内的候选轨迹进行评分，从而将RL目标与规划器的长期优化对齐。在十四项DeepMind控制套件视觉任务上，ELVIS相较于TD-MPC2和DreamerV3取得了最先进的性能。最后，ELVIS零样本迁移到一项存在严重遮挡的真实世界喷砂任务中，提升了表面质量指标，并展示了超越仿真的鲁棒性。

🎯 研究动机

- 基于模型的强化学习(model-based RL)在视觉控制中面临长期规划(long-horizon planning)的挑战：长期展开的潜在动力学会产生**分支未来(branching futures)** 和**多模态动作-价值分布(multi-modal action-value distributions)** - 视觉遮挡导致的**累积模型误差(compounding model errors)** 使得深度想象(deep imagination)变得脆弱，限制了实际应用 - 现有方法如标准**模型预测路径积分(MPPI)** 采用单模态假设，无法在分支轨迹下有效处理多模态不确定性

🔧 核心方法

- 使用**Dreamer风格** 的**循环状态空间模型(RSSM)** 进行潜在动力学建模，并在此基础上执行模型预测控制(MPC) - 提出**高斯混合模型MPPI(Gaussian-mixture MPPI, GMM-MPPI)** 替代标准单峰MPPI，在长期规划中维持多个连贯的假设，避免模式平均(mode averaging) - 引入**集成校准的共享不确定性感知lambda-return(ensemble-calibrated lambda-return)**：集成多个潜在评论家(critic)给出**上置信界(UCB)** 分数，门控时变lambda参数，自适应地平衡自举(bootstrapping)与前瞻(look-ahead)，限制规划时的累积误差 - 相同的lambda-return同时用于训练**演员-评论家(actor-critic)** 先验以及评分GMM-MPPI内的候选轨迹，统一了强化学习目标与规划器的长期优化

💡 核心创新

- **首个** 在潜在空间中结合**高斯混合MPPI** 与**集成不确定性校准** 的长期视觉MPC框架，同时处理多模态分支和累积误差 - 提出了**共享的lambda-return** 机制，将RL的演员-评论家训练与规划器的轨迹评分对齐，实现端到端(end-to-end)的一致性 - **UCB门控的时变lambda** 是新颖的，通过集成评论家的不确定性自适应调整自举与前瞻的权衡，有效稳定深度想象 - 在**真实世界严重遮挡任务** 上实现零样本迁移(zero-shot transfer)，证明了超出仿真环境的鲁棒性

🏆 总体贡献

- 在14个**DeepMind Control Suite** 视觉任务上达到了**最先进性能(SOTA)**，显著优于TD-MPC2和DreamerV3 - 为长期视觉模型预测控制提供了一种**鲁棒且实用** 的新范式，解决了多模态规划与累积模型误差两大核心难题 - 证明了基于模型强化学习(method-based RL)在真实世界视觉任务（如喷涂）中的可行性，**弥合了仿真到现实的差距** - 提出的集成校准思想和GMM-MPPI框架可推广至其他基于潜在动力学的规划方法，推动领域研究

ELVIS：面向长期视觉模型预测控制的集成校准潜在想象
ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC

📊 核心分析

ELVIS：面向长期视觉模型预测控制的集成校准潜在想象 ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC

📊 核心分析

ELVIS：面向长期视觉模型预测控制的集成校准潜在想象
ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC