← 返回论文列表

IndoorCrowd:基于自动化标注流程的多场景人体检测、分割与追踪数据集
IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline

作者: Sebastian-Ion Nae, Radu Moldoveanu, Alexandra Stefania Ghita 等4人
arXiv: 2604.02032v1
分类: cs.CV, cs.LG
📝 论文摘要
理解拥挤室内环境中的人类行为对于监控、智能建筑和人机交互至关重要,但现有数据集很少能大规模捕捉真实世界的室内复杂性。我们推出了IndoorCrowd——一个用于室内人体检测、实例分割和多目标跟踪的多场景数据集,采集自四个校园区域(ACS-EC、ACS-EG、IE-Central、R-Central)。该数据集包含31段视频(9,913帧,5fps帧率),并提供人工核验的实例级分割掩码。通过620帧的对照子集,我们使用科恩κ系数、平均精度、精确率、召回率和掩码交并比指标,以人工标注为基准评估了三种基础模型自动标注工具(SAM3、GroundingSAM和EfficientGroundingSAM)的性能。另包含2,552帧子集以MOTChallenge格式提供连续身份轨迹,支持多目标跟踪研究。我们采用YOLOv8n、YOLOv26n、RT-DETR-L结合ByteTrack、BoT-SORT和OC-SORT构建了检测、分割与跟踪基线。场景分析表明:人群密度、目标尺度和遮挡程度导致不同场景难度差异显著——其中ACS-EC场景的密集帧占比达79.3%,平均实例尺度仅60.8像素,成为最具挑战性的场景。项目页面详见https://sheepseb.github.io/IndoorCrowd/。

📊 核心分析

🎯 研究动机
该论文旨在解决室内拥挤场景下人类行为理解的数据瓶颈问题。研究背景是: - 现有数据集难以大规模捕捉真实室内环境的复杂性 - 在监控、智能建筑和人机交互等领域,缺乏高质量的室内多场景标注数据 - 需要同时支持检测(detection)、实例分割(instance segmentation)和多目标跟踪(multi-object tracking)任务
🔧 核心方法
论文采用以下技术方法: - 构建了IndoorCrowd多场景数据集,包含4个校园场景(ACS-EC, ACS-EG, IE-Central, R-Central) - 包含31个视频(9,913帧,5fps),提供人工验证的逐实例分割掩码(per-instance segmentation masks) - 建立620帧的控制子集,使用Cohen's κ、AP、精确率(precision)、召回率(recall)和掩码IoU(mask IoU)评估三个基础模型自动标注器(SAM3, GroundingSAM, EfficientGroundingSAM) - 提供2,552帧子集支持多目标跟踪,采用MOTChallenge格式的连续身份轨迹 - 使用YOLOv8n、YOLOv26n和RT-DETR-L结合ByteTrack、BoT-SORT和OC-SORT建立检测、分割和跟踪基线
💡 核心创新
论文的核心创新点包括: - 首个专门针对室内拥挤场景的多任务数据集,同时支持检测、实例分割和跟踪 - 设计了自动化标注流程(automated annotation pipeline)与人工验证相结合的质量控制机制 - 系统性评估了基础模型(foundation models)在室内场景的自动标注性能,为领域提供基准 - 揭示了场景特性(人群密度、目标尺度和遮挡)对任务难度的显著影响,其中ACS-EC场景(79.3%密集帧,平均实例尺度60.8像素)最具挑战性
🏆 总体贡献
论文对该领域的整体贡献是: - 提供了大规模、高质量的室内多场景基准数据集,填补了现有数据集的空白 - 建立了全面的性能基线,为后续研究提供可比较的基准 - 通过场景分析揭示了室内拥挤环境的关键挑战因素,指导未来算法设计 - 开源数据集和评估框架,促进室内人类行为理解研究的发展