- 现有世界模型大多基于**图像生成(image generation)**,效率低且易产生幻觉
- **基于视觉特征的世界模型(visual feature-based world model)** 虽更高效,但现有直接回归方法导致预测模糊或崩溃
- **生成建模(generative modeling)** 在高维特征空间中仍然具有挑战性
- 本文旨在发现一种新的**潜在动作表示(latent action representation)**,以解决上述问题并构建高效、高质量的世界模型
- 提出**残差潜在动作(Residual Latent Action, RLA)**,从**DINO残差(DINO residuals)** 中轻松学习
- 构建**RLA世界模型(RLA World Model, RLA-WM)**,使用**流匹配(flow matching)** 预测RLA值
- 开发两种机器人学习技术:基于RLA的**世界动作模型(world action model)**,从无动作演示视频学习;以及首种完全在**离线视频** 学习的world model内训练的**视觉强化学习(visual RL)** 框架,使用视频对齐奖励,无需在线交互或手工奖励
- **首次发现** 并定义**RLA**,证明其具有可预测性、可泛化性,并编码**时间进展(temporal progression)**
- **流匹配预测RLA**,避免了直接回归导致的模糊和特征空间生成建模的困难
- **效率与性能兼得**:RLA-WM在仿真和真实数据集上超越现有特征和视频扩散世界模型,且速度比视频扩散快数个数量级
- **开创性机器人学习**:首次实现完全基于离线视频学习的world model内训练视觉RL,无需在线交互或手工设计奖励
- 提出**RLA-WM**,为高效、低幻觉的世界模型提供了新范式
- 在多个模拟和真实数据集上达到**SOTA(state-of-the-art)** 性能,显著优于现有方法
- 提供了两种实用的机器人学习技术,扩展了世界模型在**策略学习(policy learning)** 中的应用
- 开源项目页面和代码促进社区复现与后续研究