重建还是语义？什么使潜在空间对机器人世界模型有用？

📝 论文摘要

基于世界模型的策略评估通过在动作条件视频扩散模型中展开候选动作，成为测试真实世界机器人控制的实用代理方法。随着这些模型日益采用潜在扩散建模（LDM），选择合适的潜在空间变得至关重要。虽然现有研究主要使用像VAE这类为像素重建训练的自动编码潜在空间，但近期工作表明，采用具有表示对齐语义潜在空间的预训练编码器可带来益处。我们通过比较六种重建编码器和语义编码器，在BridgeV2数据集上采用固定协议训练世界模型变体，系统评估了这些潜在空间在动作条件LDM中的表现，并展示了在高维表示空间中（无论是否进行维度压缩）有效训练世界模型的能力。随后我们提出三个评估机器人世界模型性能的维度：视觉保真度、规划与下游策略性能、以及潜在表示质量。结果表明，仅凭视觉保真度不足以选择世界模型。尽管VAE和Cosmos等重建编码器在像素级指标上表现优异，但语义编码器（如V-JEPA 2.1——总体策略性能最强、Web-DINO和SigLIP 2）在所有模型尺度下普遍在其他两个维度上表现出色。我们的研究主张将语义潜在空间作为面向策略相关机器人扩散世界模型的更强基础。

🎯 研究动机

- 现有**基于世界模型的策略评估(world model-based policy evaluation)** 常使用动作条件视频扩散模型来模拟真实机器人控制，其中**潜在扩散建模(latent diffusion modeling, LDM)** 的应用日益广泛，但如何选择最佳潜空间尚未明确 - 当前主流使用**自编码潜空间(autoencoding latent spaces)** 如**变分自编码器(VAE)**，主要针对像素重建训练，而最近研究表明**预训练语义编码器(pretrained semantic encoders)** 可能带来好处，但缺乏系统比较 - 研究背景：需要为机器人世界模型选择一个既能保证视觉质量又对下游策略有用的潜空间，但仅凭视觉保真度不足以判断优劣

🔧 核心方法

- 系统比较了**六种编码器** （包括重建型和语义型）用于**动作条件LDM**，在**BridgeV2数据集** 上以固定协议训练世界模型变体 - 提出**三个评估轴(three axes)**：**视觉保真度(visual fidelity)**、**规划与下游策略性能(planning and downstream policy performance)**、**潜表示质量(latent representation quality)** - 展示了在高维表示空间中（含或不含维度压缩）进行有效世界模型训练的方法

💡 核心创新

- **首次系统对比**：在同一协议下对重建（如VAE、Cosmos）和语义（如V-JEPA 2.1、Web-DINO、SigLIP 2）两类潜空间进行公平评估，而非仅依赖单一方面 - **提出三维评估框架**：打破仅用视觉保真度评价世界模型的惯例，引入策略相关性能（规划和下游策略）及潜空间自身质量，揭示语义潜空间在策略相关任务中的优势 - **核心发现**：虽然重建编码器在像素级得分高，但语义编码器（尤其**V-JEPA 2.1**）在策略相关指标上全面领先，并跨模型尺度保持优势

🏆 总体贡献

- 为机器人**基于扩散的世界模型(diffusion world models)** 提供了潜空间选择的实证指导：推荐使用**语义潜空间(semantic latent space)** 作为策略相关推理的基础 - 建立了多维评价基准（视觉+规划+策略+表示质量），推动世界模型评估从单一指标走向综合考量 - 实验覆盖多种模型尺度，证明结论的鲁棒性，并公开比较结果以指导后续研究

重建还是语义？什么使潜在空间对机器人世界模型有用？
Reconstruction or Semantics? What Makes a Latent Space Useful for Robotic World Models

📊 核心分析

重建还是语义？什么使潜在空间对机器人世界模型有用？ Reconstruction or Semantics? What Makes a Latent Space Useful for Robotic World Models

📊 核心分析

重建还是语义？什么使潜在空间对机器人世界模型有用？
Reconstruction or Semantics? What Makes a Latent Space Useful for Robotic World Models