该论文旨在解决关节物体(articulated objects)的运动和结构感知问题,这是机器人学、仿真和动画中3D场景理解的基础。现有基于学习的方法严重依赖高质量3D数据和人工标注的监督训练,限制了方法的可扩展性和多样性。
论文提出了PAWS方法,该方法直接从大规模野外(in-the-wild)第一人称(egocentric)视频中的手-物体交互(hand-object interactions)中提取物体关节信息。该方法在HD-EPIC和Arti4D等公开数据集上进行了评估。
论文的核心创新在于:
- **数据来源创新**:首次提出直接从大规模、非受控的野外第一人称视频中学习关节感知,摆脱了对昂贵、有限的人工标注3D数据的依赖。
- **学习范式创新**:利用手-物体交互作为自然监督信号,从真实世界的动态交互中学习关节运动规律,而非依赖静态的标注数据。
- **可扩展性**:该方法能够利用海量、多样化的第一人称视频数据,极大地提升了关节感知模型的泛化能力和数据多样性。
论文对该领域的总体贡献包括:
- 提出了PAWS这一新颖框架,为从大规模野外视频中学习关节感知开辟了新途径。
- 在多个公开数据集上验证了方法的有效性,性能显著优于基线方法。
- 证明了所提取的关节信息能够有效提升下游任务性能,包括微调3D关节预测模型和赋能机器人操作任务,展示了其实用价值。