- 现有方法无法在数千环境和任务中可扩展地评估机器人策略
- 需要一种新的方法论来实现大规模机器人策略评估
- 物理测试成本高、耗时长,亟需高效的仿真评估代理
- 提出**dWorldEval**,使用**离散扩散世界模型(discrete diffusion world model)**作为可扩展评估代理
- 将所有模态(视觉、语言、机器人动作)映射到**统一token空间(unified token space)**,通过基于**Transformer(transformer)**的去噪网络进行建模
- 采用**稀疏关键帧记忆(sparse keyframe memory)**维护时空一致性,并引入**进度令牌(progress token)**指示任务完成度
- 推理时联合预测未来观测和进度令牌,当进度达到1时自动判定成功
- **多模态统一建模**:首次将视觉、语言和动作全部映射到离散token空间,用单一Transformer去噪网络处理,简化了世界模型架构
- **进度令牌机制**:引入可学习的进度token,实现自动、连续的任务完成度估计,无需人工标注成功状态
- **稀疏关键帧记忆**:通过关键帧记忆保持时空一致性,降低计算开销的同时提升长程预测质量
- **自动成功判定**:基于进度token的联合预测,动态确定任务完成时刻,避免了手动设定终止条件
- 为机器人策略评估提供了一种**可扩展(scalable)**的新范式,能够高效模拟数千环境与任务
- 在**LIBERO**、**RoboTwin**及多个真实机器人任务上显著超越现有方法(如WorldEval、Ctrl-World、WorldGym)
- 开辟了基于**离散扩散世界模拟器(discrete diffusion world simulator)**的架构新方向,推动大规模机器人评估的实用化