← 返回论文列表

PAWS:基于大规模第一人称视角视频的野外关节感知研究
PAWS: Perception of Articulation in the Wild at Scale from Egocentric Videos

作者: Yihao Wang, Yang Miao, Wenshuai Zhao 等11人
arXiv: 2603.25539v1
分类: cs.CV
📝 论文摘要
关节感知旨在恢复铰接物体(如抽屉和橱柜)的运动与结构,是机器人学、仿真与动画领域中三维场景理解的基础。现有基于学习的方法严重依赖高质量三维数据与人工标注的监督训练,限制了方法的可扩展性与多样性。为突破这一局限,我们提出PAWS方法,能够直接从大规模真实场景第一人称视频的手-物交互中提取物体关节结构。我们在包括HD-EPIC和Arti4D在内的公开数据集上评估了该方法,相较于基线模型取得了显著提升。我们进一步证明,所提取的关节结构能够有效赋能下游任务,包括微调三维关节预测模型及实现机器人操作。项目网站详见:https://aaltoml.github.io/PAWS/。

📊 核心分析

🎯 研究动机
该论文旨在解决关节物体(articulated objects)的运动和结构感知问题,这是机器人学、仿真和动画中3D场景理解的基础。现有基于学习的方法严重依赖高质量3D数据和人工标注的监督训练,限制了方法的可扩展性和多样性。
🔧 核心方法
论文提出了PAWS方法,该方法直接从大规模野外(in-the-wild)第一人称(egocentric)视频中的手-物体交互(hand-object interactions)中提取物体关节信息。该方法在HD-EPIC和Arti4D等公开数据集上进行了评估。
💡 核心创新
论文的核心创新在于: - **数据来源创新**:首次提出直接从大规模、非受控的野外第一人称视频中学习关节感知,摆脱了对昂贵、有限的人工标注3D数据的依赖。 - **学习范式创新**:利用手-物体交互作为自然监督信号,从真实世界的动态交互中学习关节运动规律,而非依赖静态的标注数据。 - **可扩展性**:该方法能够利用海量、多样化的第一人称视频数据,极大地提升了关节感知模型的泛化能力和数据多样性。
🏆 总体贡献
论文对该领域的总体贡献包括: - 提出了PAWS这一新颖框架,为从大规模野外视频中学习关节感知开辟了新途径。 - 在多个公开数据集上验证了方法的有效性,性能显著优于基线方法。 - 证明了所提取的关节信息能够有效提升下游任务性能,包括微调3D关节预测模型和赋能机器人操作任务,展示了其实用价值。