- 现有**基于世界模型的策略评估(world model-based policy evaluation)** 常使用动作条件视频扩散模型来模拟真实机器人控制,其中**潜在扩散建模(latent diffusion modeling, LDM)** 的应用日益广泛,但如何选择最佳潜空间尚未明确
- 当前主流使用**自编码潜空间(autoencoding latent spaces)** 如**变分自编码器(VAE)**,主要针对像素重建训练,而最近研究表明**预训练语义编码器(pretrained semantic encoders)** 可能带来好处,但缺乏系统比较
- 研究背景:需要为机器人世界模型选择一个既能保证视觉质量又对下游策略有用的潜空间,但仅凭视觉保真度不足以判断优劣
- 系统比较了**六种编码器** (包括重建型和语义型)用于**动作条件LDM**,在**BridgeV2数据集** 上以固定协议训练世界模型变体
- 提出**三个评估轴(three axes)**:**视觉保真度(visual fidelity)**、**规划与下游策略性能(planning and downstream policy performance)**、**潜表示质量(latent representation quality)**
- 展示了在高维表示空间中(含或不含维度压缩)进行有效世界模型训练的方法
- **首次系统对比**:在同一协议下对重建(如VAE、Cosmos)和语义(如V-JEPA 2.1、Web-DINO、SigLIP 2)两类潜空间进行公平评估,而非仅依赖单一方面
- **提出三维评估框架**:打破仅用视觉保真度评价世界模型的惯例,引入策略相关性能(规划和下游策略)及潜空间自身质量,揭示语义潜空间在策略相关任务中的优势
- **核心发现**:虽然重建编码器在像素级得分高,但语义编码器(尤其**V-JEPA 2.1**)在策略相关指标上全面领先,并跨模型尺度保持优势
- 为机器人**基于扩散的世界模型(diffusion world models)** 提供了潜空间选择的实证指导:推荐使用**语义潜空间(semantic latent space)** 作为策略相关推理的基础
- 建立了多维评价基准(视觉+规划+策略+表示质量),推动世界模型评估从单一指标走向综合考量
- 实验覆盖多种模型尺度,证明结论的鲁棒性,并公开比较结果以指导后续研究