- 现有视频世界模型在机器人策略评估中面临 **场景多样性有限**、**动作跟随不精确** 和 **跨形态泛化差** 三大挑战
- 需要一种能够精确跟随动作且在不同机器人形态(包括人类手)间泛化的视频世界模型,以实现虚拟评估替代真实评估
- 研究背景:真实机器人策略评估成本高、场景受限,迫切需要可靠的虚拟世界模型
- 构建 **大规模标准化数据管道**,对多种机器人数据集和自我中心人类数据集进行整理、过滤和去重,形成干净联合训练数据集
- 采用 **2D运动学骨架渲染(2D kinematic skeleton rendering)** 作为统一的条件表示,跨不同机械臂或人类手实现泛化
- 基于 **Cosmos-Predict2.5-2B** 模型进行微调,仅使用单个GH200 GPU,输出视频帧并精确跟随动作指令
- **统一条件表示**:首次将 **2D运动学骨架渲染** 作为跨形态条件,统一机器人臂与人类手,突破现有模型仅针对单一形态的限制
- **高效训练范式**:在单张GH200 GPU上微调2B模型,动作跟随、外观质量和运动一致性均显著优于需要更大模型或多GPU的基线
- **数据管道创新**:提出大规模标准化数据管道,融合机器人与人类数据集,大幅提升训练数据场景和形态多样性
- **虚拟评估可靠性验证**:在RoboArena中证明虚拟策略评估与真实评估具有显著相关性,为纯虚拟评估奠定基础
- 提出 **OSCAR**,一个精确的动作条件视频世界模型,实现跨不同机器人形态的泛化策略评估
- 构建并开源大规模跨形态数据管道,为解决机器人视频模型数据稀缺问题提供新途径
- 验证了虚拟评估与真实评估的强相关性,推动机器人策略评估从真实环境向虚拟生成世界的转变
- 在动作跟随、视觉质量和运动一致性上达到SOTA(state-of-the-art),且训练资源消耗远低于现有方法