dWorldEval：通过离散扩散世界模型实现可扩展的机器人策略评估

📝 论文摘要

使用现有方法评估跨越数千个环境和数千个任务的机器人策略是不可行的。这促使我们需要一种新的方法论来实现可扩展的机器人策略评估。本文提出dWorldEval，它将离散扩散世界模型作为机器人策略的可扩展评估代理。具体而言，dWorldEval将所有模态——包括视觉、语言和机器人动作——映射到统一的标记空间，并通过基于Transformer的单一去噪网络对其进行建模。基于此架构，我们采用稀疏关键帧记忆来维持时空一致性。我们还引入了一个进度标记，用于指示任务完成程度。在推理时，模型联合预测未来观测和进度标记，当进度达到1时自动判定成功。大量实验表明，dWorldEval在LIBERO、RoboTwin以及多个真实机器人任务上显著优于先前方法（如WorldEval、Ctrl-World和WorldGym）。这为构建用于大规模机器人评估的世界模拟器开辟了新的架构范式。

🎯 研究动机

- 现有方法无法在数千环境和任务中可扩展地评估机器人策略 - 需要一种新的方法论来实现大规模机器人策略评估 - 物理测试成本高、耗时长，亟需高效的仿真评估代理

🔧 核心方法

- 提出**dWorldEval**，使用**离散扩散世界模型(discrete diffusion world model)**作为可扩展评估代理 - 将所有模态（视觉、语言、机器人动作）映射到**统一token空间(unified token space)**，通过基于**Transformer(transformer)**的去噪网络进行建模 - 采用**稀疏关键帧记忆(sparse keyframe memory)**维护时空一致性，并引入**进度令牌(progress token)**指示任务完成度 - 推理时联合预测未来观测和进度令牌，当进度达到1时自动判定成功

💡 核心创新

- **多模态统一建模**：首次将视觉、语言和动作全部映射到离散token空间，用单一Transformer去噪网络处理，简化了世界模型架构 - **进度令牌机制**：引入可学习的进度token，实现自动、连续的任务完成度估计，无需人工标注成功状态 - **稀疏关键帧记忆**：通过关键帧记忆保持时空一致性，降低计算开销的同时提升长程预测质量 - **自动成功判定**：基于进度token的联合预测，动态确定任务完成时刻，避免了手动设定终止条件

🏆 总体贡献

- 为机器人策略评估提供了一种**可扩展(scalable)**的新范式，能够高效模拟数千环境与任务 - 在**LIBERO**、**RoboTwin**及多个真实机器人任务上显著超越现有方法（如WorldEval、Ctrl-World、WorldGym） - 开辟了基于**离散扩散世界模拟器(discrete diffusion world simulator)**的架构新方向，推动大规模机器人评估的实用化

dWorldEval：通过离散扩散世界模型实现可扩展的机器人策略评估
dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

📊 核心分析

dWorldEval：通过离散扩散世界模型实现可扩展的机器人策略评估 dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

📊 核心分析

dWorldEval：通过离散扩散世界模型实现可扩展的机器人策略评估
dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model