该论文旨在解决第一人称视角(egocentric)计算机视觉中,对操作过程中的人手和物体进行精确三维理解(3D understanding)的挑战。研究背景是现有的人手-物体交互(hand-object interaction)数据集主要在受控的室内工作室环境中采集,这限制了环境多样性,并导致基于这些数据训练的模型难以泛化到真实世界场景。
论文提出并构建了一个新颖的无标记(marker-less)多相机(multi-camera)采集系统。该系统包括:
- 一个轻量化的、背戴式(back-mounted)的多相机阵列。
- 该系统与用户佩戴的VR头显同步和标定。
- 为了生成人手和物体的三维真值(3D ground-truth)标注,开发了一个第一人称-第三人称(ego-exo)跟踪流程(tracking pipeline),并对其质量进行了严格评估。
- 最终发布了SHOW3D数据集,这是首个包含在多样化真实世界环境(包括户外场景)中人与物体交互三维标注的大规模数据集。
论文的核心创新点在于:
- **系统创新**:设计并实现了一个允许在近乎无约束的真实野外(in-the-wild)条件下进行移动采集,同时仍能生成精确三维标注的采集系统。这从根本上改变了环境真实性与标注精度之间的传统权衡(trade-off)。
- **数据创新**:创建了SHOW3D,这是首个大规模、包含真实世界多样化环境下人手与物体交互三维标注的数据集,填补了该领域的数据空白。
- **方法创新**:开发了结合第一人称和第三人称视角的ego-exo跟踪流程,用于在复杂无约束场景中生成高质量的三维真值。
论文对该领域的总体贡献包括:
- **技术贡献**:提出了一套实用的、可用于在真实世界条件下采集高质量人手-物体交互三维数据的系统和方法论。
- **数据贡献**:发布了具有开创性的SHOW3D数据集,为训练和评估更具泛化能力的模型提供了关键资源。
- **验证贡献**:通过在下游任务(downstream tasks)上的实验,验证了所提方法在平衡环境真实性与标注精度方面的有效性,推动了第一人称三维理解研究向更真实、更实用的方向发展。