通过残差潜在动作学习基于视觉特征的世界模型

📝 论文摘要

世界模型通过观测和动作预测未来状态转换。现有工作主要聚焦于图像生成。基于视觉特征的世界模型则预测未来的视觉特征而非原始视频像素，提供了一种更高效且不易产生幻觉的替代方案。然而，当前基于特征的方法依赖直接回归，在复杂交互中会导致预测模糊或崩溃，而在高维特征空间中进行生成建模仍具挑战。本研究发现一种新型潜在动作表征——我们称之为*残差潜在动作*（RLA），可从DINO残差中轻松习得。研究还表明RLA具有可预测性、泛化性，并能编码时间进程。基于RLA，我们提出*RLA世界模型*（RLA-WM），通过流匹配预测RLA值。RLA-WM在仿真和真实世界数据集上均优于最先进的基于特征和视频扩散的世界模型，同时速度比视频扩散快数个数量级。此外，我们开发了两种利用RLA-WM改进策略学习的机器人学习技术：其一是基于RLA的最小化世界动作模型，可从无动作演示视频中学习；其二是首个完全在仅从离线视频习得的世界模型内部训练的视觉强化学习框架，使用与视频对齐的奖励，无需在线交互或人工设计的奖励。项目页面：https://mlzxy.github.io/rla-wm

🎯 研究动机

- 现有世界模型大多基于**图像生成(image generation)**，效率低且易产生幻觉 - **基于视觉特征的世界模型(visual feature-based world model)** 虽更高效，但现有直接回归方法导致预测模糊或崩溃 - **生成建模(generative modeling)** 在高维特征空间中仍然具有挑战性 - 本文旨在发现一种新的**潜在动作表示(latent action representation)**，以解决上述问题并构建高效、高质量的世界模型

🔧 核心方法

- 提出**残差潜在动作(Residual Latent Action, RLA)**，从**DINO残差(DINO residuals)** 中轻松学习 - 构建**RLA世界模型(RLA World Model, RLA-WM)**，使用**流匹配(flow matching)** 预测RLA值 - 开发两种机器人学习技术：基于RLA的**世界动作模型(world action model)**，从无动作演示视频学习；以及首种完全在**离线视频** 学习的world model内训练的**视觉强化学习(visual RL)** 框架，使用视频对齐奖励，无需在线交互或手工奖励

💡 核心创新

- **首次发现** 并定义**RLA**，证明其具有可预测性、可泛化性，并编码**时间进展(temporal progression)** - **流匹配预测RLA**，避免了直接回归导致的模糊和特征空间生成建模的困难 - **效率与性能兼得**：RLA-WM在仿真和真实数据集上超越现有特征和视频扩散世界模型，且速度比视频扩散快数个数量级 - **开创性机器人学习**：首次实现完全基于离线视频学习的world model内训练视觉RL，无需在线交互或手工设计奖励

🏆 总体贡献

- 提出**RLA-WM**，为高效、低幻觉的世界模型提供了新范式 - 在多个模拟和真实数据集上达到**SOTA(state-of-the-art)** 性能，显著优于现有方法 - 提供了两种实用的机器人学习技术，扩展了世界模型在**策略学习(policy learning)** 中的应用 - 开源项目页面和代码促进社区复现与后续研究

通过残差潜在动作学习基于视觉特征的世界模型
Learning Visual Feature-Based World Models via Residual Latent Action

📊 核心分析

通过残差潜在动作学习基于视觉特征的世界模型 Learning Visual Feature-Based World Models via Residual Latent Action

📊 核心分析

通过残差潜在动作学习基于视觉特征的世界模型
Learning Visual Feature-Based World Models via Residual Latent Action