← 返回论文列表

SurFITR:监控图像伪造检测与定位数据集
SurFITR: A Dataset for Surveillance Image Forgery Detection and Localisation

作者: Qizhou Wang, Guansong Pang, Christopher Leckie
arXiv: 2604.07101v1
分类: cs.CV, cs.AI, cs.MM, eess.IV
📝 论文摘要
我们提出了监控伪造图像测试集(SurFITR),这是一个专为监控风格图像伪造检测与定位而构建的数据集,旨在应对近期开源图像生成模型快速发展引发的伪造视觉证据的担忧。现有伪造检测模型大多基于全图合成或物体中心图像中大范围篡改的数据集训练,难以泛化至监控场景。这是因为监控图像中的篡改通常具有局部性和隐蔽性,常出现在视角多变、目标物体较小或被遮挡、视觉质量较低的复杂场景中。为填补这一空白,SurFITR通过基于多模态大语言模型的生成流程,构建了具有法证价值的大规模图像集合,实现了跨多样监控场景的语义感知精细化编辑。该数据集包含超过13.7万张不同分辨率和编辑类型的篡改图像,由多种图像编辑模型生成。大量实验表明,现有检测器在SurFITR上性能显著下降,而使用SurFITR训练则能大幅提升模型在域内及跨域场景中的检测能力。SurFITR已在GitHub平台开源发布。

📊 核心分析

🎯 研究动机
该论文旨在解决现有图像伪造检测模型在监控(surveillance)场景下泛化能力不足的问题。研究背景是:随着开源图像生成模型的快速发展,伪造视觉证据的风险增加。现有模型通常在面向对象(object-centric)、全图合成或大区域篡改的数据集上训练,难以应对监控图像中局部、细微的篡改,以及多变视角、小目标、遮挡和低画质等挑战。
🔧 核心方法
论文提出了一个名为SurFITR(监控伪造图像测试集)的新数据集。其构建方法包括: - 采用一个由多模态大语言模型(multimodal LLM)驱动的流程来生成具有取证(forensic)价值的图像。 - 该流程支持语义感知(semantically aware)、细粒度(fine-grained)的编辑,覆盖多样化的监控场景。 - 数据集包含超过13.7万张经过篡改的图像,具有不同的分辨率和编辑类型,并使用多种图像编辑模型生成。
💡 核心创新
论文的核心创新点在于创建了首个专门针对监控场景图像伪造检测与定位(localisation)的大规模、高质量数据集SurFITR。其独特之处在于: - **场景针对性**:专门针对监控图像中篡改区域局部化(localised)、细微(subtle)的特点,弥补了现有数据集的空白(gap)。 - **生成方法先进**:利用多模态LLM驱动的流程,实现了语义感知的细粒度编辑,确保了篡改的合理性和多样性。 - **真实性高**:生成的图像涵盖了监控场景的典型挑战(如多变视角、小目标、遮挡、低画质),更具法证价值。
🏆 总体贡献
论文对该领域的总体贡献包括: - **数据集资源**:公开发布了SurFITR数据集,为监控图像伪造检测研究提供了关键的基准(benchmark)和训练资源。 - **性能验证**:通过大量实验证明,现有检测器在SurFITR上性能显著下降,而在SurFITR上训练则能大幅提升模型在域内(in-domain)和跨域(cross-domain)的性能。 - **推动领域发展**:该数据集有助于开发和评估更鲁棒(robust)的伪造检测模型,以应对新兴生成模型带来的安全威胁。