← 返回论文列表

在边缘AI感知系统中重新思考特征条件化以实现鲁棒伪造媒体检测
Rethinking Feature Conditioning for Robust Forged Media Detection in Edge AI Sensing Systems

作者: Izaldein Al-Zyoud, Abdulmotaleb El Saddik
arXiv: 2603.26387v1
分类: eess.IV
📝 论文摘要
在AI驱动的边缘感知系统中,伪造媒体检测的泛化能力面临操纵与数据集偏移的核心挑战。采用线性探针的冻结视觉基础模型虽为强基线,但多数流程默认使用主干网络输出,未在冻结特征接口测试条件化机制。本研究首次对DINOv3 ConvNeXt进行受控探针实验,结果表明:无需任务特定微调,仅线性探针即可实现具有竞争力的伪造媒体检测性能,证明ViT-7B的自监督蒸馏能以边缘兼容的推理成本迁移至安全关键视觉任务。在固定主干网络、头部模块、数据与优化器的前提下,通过调整条件化机制发现:默认ConvNeXt头部输出LN-Affine作为自然基线,在FaceForensics++ c23数据集上,通过分布内测试、留一操纵外泛化(LOMO)及向Celeb-DF v2与DeepFakeDetection的跨数据集迁移,评估了五种条件化变体。ConvNeXt-Tiny中,仅改变条件化机制可使LOMO平均AUC波动6.1个百分点,并逆转分布内与分布外性能排序:LN-Affine在外部数据集表现最强,而LayerNorm在分布内最优。ConvNeXt-Base复现实验显示,分布外最优方案受评估协议影响,且仅依据分布内性能的选择准则无法满足稳健部署需求。研究表明:特征条件化是一阶设计变量,应通过面向鲁棒性的验证进行选择,而非仅依赖分布内精度。

📊 核心分析

🎯 研究动机
该论文旨在解决AI驱动的边缘感知系统中伪造媒体检测的核心挑战:在数据操纵和数据集偏移下的泛化能力问题。研究背景是,虽然使用线性探针的冻结视觉基础模型是强大的基线,但现有流水线通常使用默认的主干网络输出,而未在冻结特征接口处测试特征调节方法。
🔧 核心方法
论文采用了一种受控的探针研究框架,具体方法包括: - 使用DINOv3 ConvNeXt作为视觉主干网络,并保持其冻结状态 - 固定主干网络、分类头、数据和优化器,仅系统性地改变特征调节方法 - 以LayerNorm-Affine(LN-Affine,ConvNeXt的默认输出)作为自然基线 - 在FaceForensics++ c23数据集上评估五种不同的特征调节变体 - 测试场景包括:分布内测试、留一操纵法(LOMO)和跨数据集迁移(至Celeb-DF v2和DeepFakeDetection)
💡 核心创新
论文的核心创新点在于: - 首次对DINOv3 ConvNeXt进行了受控的特征调节研究,揭示了在不进行任务特定微调的情况下,仅通过线性探针就能获得有竞争力的伪造媒体检测性能 - 发现特征调节本身是一个一阶设计变量,仅改变调节方法就能使LOMO平均AUC变化6.1个百分点,并逆转分布内与分布外性能的排名 - 证明了仅基于分布内准确率选择最优特征调节方法,无法作为鲁棒部署的可靠规则,挑战了现有实践
🏆 总体贡献
论文对该领域的总体贡献包括: - 通过实证研究表明,自监督蒸馏的ViT-7B模型能够以边缘兼容的推理成本迁移到安全关键的视觉工作负载中 - 强调了特征调节在鲁棒伪造检测中的关键作用,并指出其选择应基于面向鲁棒性的验证,而非仅依赖分布内准确率 - 为边缘AI感知系统中的鲁棒媒体取证提供了新的设计原则和实验基准