该论文旨在解决人工智能(AI)系统中,用于训练和评估的、基于物理现实(physically-grounded)的数据严重匮乏的问题。现有数据集规模小(仅数百或数千个样本),且场景简单,限制了AI模型学习复杂物理交互和动态的能力。
论文构建了一个名为PhysInOne的大规模合成数据集。
- **数据生成**:通过程序化方式生成了153,810个动态3D场景,并渲染成总计200万个视频。
- **内容覆盖**:涵盖了力学、光学、流体动力学和磁学等领域的71种基本物理现象。
- **场景复杂性**:设计了包含多物体交互和复杂背景的场景。
- **标注信息**:提供了全面的真实值(ground-truth)标注,包括3D几何、语义、动态运动、物理属性和文本描述。
论文的核心创新在于创建了规模空前、标注全面且场景复杂的物理学习数据集。
- **规模与多样性**:数据量(200万视频)比现有工作高出数个数量级,并系统性地覆盖了广泛的物理现象。
- **场景复杂性**:首次在物理数据集中大规模引入多物体交互和复杂背景,更贴近真实世界。
- **标注完整性**:提供了前所未有的、多维度的真实值标注(如3D动态、物理属性),为模型训练和评估提供了丰富的监督信号。
- **基准套件**:将数据集定位为一个统一的评测套件(suite),用于评估生成、模拟和具身AI(embodied AI)等多种任务中的物理世界模型(physics-grounded world models)。
论文对该领域的整体贡献包括:
- **数据集资源**:发布了目前最大、最全面的物理学习数据集PhysInOne,为社区提供了关键的训练和评测资源。
- **新基准**:为基于物理现实的生成、模拟和预测任务建立了一个新的、更具挑战性的基准(benchmark)。
- **应用验证**:通过四个新兴应用(物理感知视频生成、长短时未来帧预测、物理属性估计、运动迁移)验证了数据集的效用,证明其能显著提升基础模型(foundation models)的物理合理性。
- **揭示局限**:利用该数据集进行的实验,暴露了当前模型在建模复杂物理动态和估计内在属性方面的关键差距,为未来研究指明了方向。