OSCAR：面向机器人学的全具身骨架条件化世界动作模型

📝 论文摘要

我们提出了OSCAR，一个精确的动作条件视频世界模型，能够跨不同机器人实体进行泛化，并支持机器人策略评估。现有的视频世界模型在真实机器人评估中面临三大挑战：当前机器人训练数据集的场景多样性有限、动作跟随不精确，以及跨实体的泛化能力差，难以广泛采用。我们从两个角度应对这些挑战。其核心是一个大规模标准化数据管道，对广泛的机器人数据和以自我为中心的人类数据进行整理、筛选和去重，生成一个涵盖多样化任务、场景、动作和机器人实体的干净联合训练数据集。为了对视频模型施加条件，我们采用2D运动骨架渲染作为统一的条件表示，该表示能够泛化到不同的机器人臂甚至人类手。我们在单个GH200 GPU上微调Cosmos-Predict2.5-2B模型。与现有基线（这些基线要么模型规模大得多，要么需要更多GPU）相比，我们的模型在动作跟随、外观质量和运动一致性方面实现了显著改进。我们进一步将OSCAR部署到RoboArena中评估机器人策略。大量实验表明，OSCAR中的虚拟策略评估与真实世界评估之间存在显著相关性，为未来机器人策略可以在虚拟生成的世界中纯粹进行评估铺平了道路。

🎯 研究动机

- 现有视频世界模型在机器人策略评估中面临 **场景多样性有限**、**动作跟随不精确** 和 **跨形态泛化差** 三大挑战 - 需要一种能够精确跟随动作且在不同机器人形态（包括人类手）间泛化的视频世界模型，以实现虚拟评估替代真实评估 - 研究背景：真实机器人策略评估成本高、场景受限，迫切需要可靠的虚拟世界模型

🔧 核心方法

- 构建 **大规模标准化数据管道**，对多种机器人数据集和自我中心人类数据集进行整理、过滤和去重，形成干净联合训练数据集 - 采用 **2D运动学骨架渲染(2D kinematic skeleton rendering)** 作为统一的条件表示，跨不同机械臂或人类手实现泛化 - 基于 **Cosmos-Predict2.5-2B** 模型进行微调，仅使用单个GH200 GPU，输出视频帧并精确跟随动作指令

💡 核心创新

- **统一条件表示**：首次将 **2D运动学骨架渲染** 作为跨形态条件，统一机器人臂与人类手，突破现有模型仅针对单一形态的限制 - **高效训练范式**：在单张GH200 GPU上微调2B模型，动作跟随、外观质量和运动一致性均显著优于需要更大模型或多GPU的基线 - **数据管道创新**：提出大规模标准化数据管道，融合机器人与人类数据集，大幅提升训练数据场景和形态多样性 - **虚拟评估可靠性验证**：在RoboArena中证明虚拟策略评估与真实评估具有显著相关性，为纯虚拟评估奠定基础

🏆 总体贡献

- 提出 **OSCAR**，一个精确的动作条件视频世界模型，实现跨不同机器人形态的泛化策略评估 - 构建并开源大规模跨形态数据管道，为解决机器人视频模型数据稀缺问题提供新途径 - 验证了虚拟评估与真实评估的强相关性，推动机器人策略评估从真实环境向虚拟生成世界的转变 - 在动作跟随、视觉质量和运动一致性上达到SOTA(state-of-the-art)，且训练资源消耗远低于现有方法

OSCAR：面向机器人学的全具身骨架条件化世界动作模型
OSCAR: Omni-Embodiment Skeleton-Conditioned World Action Model for Robotics

📊 核心分析

OSCAR：面向机器人学的全具身骨架条件化世界动作模型 OSCAR: Omni-Embodiment Skeleton-Conditioned World Action Model for Robotics

📊 核心分析

OSCAR：面向机器人学的全具身骨架条件化世界动作模型
OSCAR: Omni-Embodiment Skeleton-Conditioned World Action Model for Robotics