该论文旨在解决AI驱动的边缘感知系统中伪造媒体检测的核心挑战:在数据操纵和数据集偏移下的泛化能力问题。研究背景是,虽然使用线性探针的冻结视觉基础模型是强大的基线,但现有流水线通常使用默认的主干网络输出,而未在冻结特征接口处测试特征调节方法。
论文采用了一种受控的探针研究框架,具体方法包括:
- 使用DINOv3 ConvNeXt作为视觉主干网络,并保持其冻结状态
- 固定主干网络、分类头、数据和优化器,仅系统性地改变特征调节方法
- 以LayerNorm-Affine(LN-Affine,ConvNeXt的默认输出)作为自然基线
- 在FaceForensics++ c23数据集上评估五种不同的特征调节变体
- 测试场景包括:分布内测试、留一操纵法(LOMO)和跨数据集迁移(至Celeb-DF v2和DeepFakeDetection)
论文的核心创新点在于:
- 首次对DINOv3 ConvNeXt进行了受控的特征调节研究,揭示了在不进行任务特定微调的情况下,仅通过线性探针就能获得有竞争力的伪造媒体检测性能
- 发现特征调节本身是一个一阶设计变量,仅改变调节方法就能使LOMO平均AUC变化6.1个百分点,并逆转分布内与分布外性能的排名
- 证明了仅基于分布内准确率选择最优特征调节方法,无法作为鲁棒部署的可靠规则,挑战了现有实践
论文对该领域的总体贡献包括:
- 通过实证研究表明,自监督蒸馏的ViT-7B模型能够以边缘兼容的推理成本迁移到安全关键的视觉工作负载中
- 强调了特征调节在鲁棒伪造检测中的关键作用,并指出其选择应基于面向鲁棒性的验证,而非仅依赖分布内准确率
- 为边缘AI感知系统中的鲁棒媒体取证提供了新的设计原则和实验基准