论文采用以下技术方法:
- 构建了IndoorCrowd多场景数据集,包含4个校园场景(ACS-EC, ACS-EG, IE-Central, R-Central)
- 包含31个视频(9,913帧,5fps),提供人工验证的逐实例分割掩码(per-instance segmentation masks)
- 建立620帧的控制子集,使用Cohen's κ、AP、精确率(precision)、召回率(recall)和掩码IoU(mask IoU)评估三个基础模型自动标注器(SAM3, GroundingSAM, EfficientGroundingSAM)
- 提供2,552帧子集支持多目标跟踪,采用MOTChallenge格式的连续身份轨迹
- 使用YOLOv8n、YOLOv26n和RT-DETR-L结合ByteTrack、BoT-SORT和OC-SORT建立检测、分割和跟踪基线