IndoorCrowd：基于自动化标注流程的多场景人体检测、分割与追踪数据集

📝 论文摘要

理解拥挤室内环境中的人类行为对于监控、智能建筑和人机交互至关重要，但现有数据集很少能大规模捕捉真实世界的室内复杂性。我们推出了IndoorCrowd——一个用于室内人体检测、实例分割和多目标跟踪的多场景数据集，采集自四个校园区域（ACS-EC、ACS-EG、IE-Central、R-Central）。该数据集包含31段视频（9,913帧，5fps帧率），并提供人工核验的实例级分割掩码。通过620帧的对照子集，我们使用科恩κ系数、平均精度、精确率、召回率和掩码交并比指标，以人工标注为基准评估了三种基础模型自动标注工具（SAM3、GroundingSAM和EfficientGroundingSAM）的性能。另包含2,552帧子集以MOTChallenge格式提供连续身份轨迹，支持多目标跟踪研究。我们采用YOLOv8n、YOLOv26n、RT-DETR-L结合ByteTrack、BoT-SORT和OC-SORT构建了检测、分割与跟踪基线。场景分析表明：人群密度、目标尺度和遮挡程度导致不同场景难度差异显著——其中ACS-EC场景的密集帧占比达79.3%，平均实例尺度仅60.8像素，成为最具挑战性的场景。项目页面详见https://sheepseb.github.io/IndoorCrowd/。

🎯 研究动机

该论文旨在解决室内拥挤场景下人类行为理解的数据瓶颈问题。研究背景是： - 现有数据集难以大规模捕捉真实室内环境的复杂性 - 在监控、智能建筑和人机交互等领域，缺乏高质量的室内多场景标注数据 - 需要同时支持检测(detection)、实例分割(instance segmentation)和多目标跟踪(multi-object tracking)任务

🔧 核心方法

论文采用以下技术方法： - 构建了IndoorCrowd多场景数据集，包含4个校园场景(ACS-EC, ACS-EG, IE-Central, R-Central) - 包含31个视频(9,913帧，5fps)，提供人工验证的逐实例分割掩码(per-instance segmentation masks) - 建立620帧的控制子集，使用Cohen's κ、AP、精确率(precision)、召回率(recall)和掩码IoU(mask IoU)评估三个基础模型自动标注器(SAM3, GroundingSAM, EfficientGroundingSAM) - 提供2,552帧子集支持多目标跟踪，采用MOTChallenge格式的连续身份轨迹 - 使用YOLOv8n、YOLOv26n和RT-DETR-L结合ByteTrack、BoT-SORT和OC-SORT建立检测、分割和跟踪基线

💡 核心创新

论文的核心创新点包括： - 首个专门针对室内拥挤场景的多任务数据集，同时支持检测、实例分割和跟踪 - 设计了自动化标注流程(automated annotation pipeline)与人工验证相结合的质量控制机制 - 系统性评估了基础模型(foundation models)在室内场景的自动标注性能，为领域提供基准 - 揭示了场景特性(人群密度、目标尺度和遮挡)对任务难度的显著影响，其中ACS-EC场景(79.3%密集帧，平均实例尺度60.8像素)最具挑战性

🏆 总体贡献

论文对该领域的整体贡献是： - 提供了大规模、高质量的室内多场景基准数据集，填补了现有数据集的空白 - 建立了全面的性能基线，为后续研究提供可比较的基准 - 通过场景分析揭示了室内拥挤环境的关键挑战因素，指导未来算法设计 - 开源数据集和评估框架，促进室内人类行为理解研究的发展

IndoorCrowd：基于自动化标注流程的多场景人体检测、分割与追踪数据集
IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline

📊 核心分析

IndoorCrowd：基于自动化标注流程的多场景人体检测、分割与追踪数据集 IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline

📊 核心分析

IndoorCrowd：基于自动化标注流程的多场景人体检测、分割与追踪数据集
IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline