在边缘AI感知系统中重新思考特征条件化以实现鲁棒伪造媒体检测

📝 论文摘要

在AI驱动的边缘感知系统中，伪造媒体检测的泛化能力面临操纵与数据集偏移的核心挑战。采用线性探针的冻结视觉基础模型虽为强基线，但多数流程默认使用主干网络输出，未在冻结特征接口测试条件化机制。本研究首次对DINOv3 ConvNeXt进行受控探针实验，结果表明：无需任务特定微调，仅线性探针即可实现具有竞争力的伪造媒体检测性能，证明ViT-7B的自监督蒸馏能以边缘兼容的推理成本迁移至安全关键视觉任务。在固定主干网络、头部模块、数据与优化器的前提下，通过调整条件化机制发现：默认ConvNeXt头部输出LN-Affine作为自然基线，在FaceForensics++ c23数据集上，通过分布内测试、留一操纵外泛化（LOMO）及向Celeb-DF v2与DeepFakeDetection的跨数据集迁移，评估了五种条件化变体。ConvNeXt-Tiny中，仅改变条件化机制可使LOMO平均AUC波动6.1个百分点，并逆转分布内与分布外性能排序：LN-Affine在外部数据集表现最强，而LayerNorm在分布内最优。ConvNeXt-Base复现实验显示，分布外最优方案受评估协议影响，且仅依据分布内性能的选择准则无法满足稳健部署需求。研究表明：特征条件化是一阶设计变量，应通过面向鲁棒性的验证进行选择，而非仅依赖分布内精度。

🎯 研究动机

该论文旨在解决AI驱动的边缘感知系统中伪造媒体检测的核心挑战：在数据操纵和数据集偏移下的泛化能力问题。研究背景是，虽然使用线性探针的冻结视觉基础模型是强大的基线，但现有流水线通常使用默认的主干网络输出，而未在冻结特征接口处测试特征调节方法。

🔧 核心方法

论文采用了一种受控的探针研究框架，具体方法包括： - 使用DINOv3 ConvNeXt作为视觉主干网络，并保持其冻结状态 - 固定主干网络、分类头、数据和优化器，仅系统性地改变特征调节方法 - 以LayerNorm-Affine（LN-Affine，ConvNeXt的默认输出）作为自然基线 - 在FaceForensics++ c23数据集上评估五种不同的特征调节变体 - 测试场景包括：分布内测试、留一操纵法（LOMO）和跨数据集迁移（至Celeb-DF v2和DeepFakeDetection）

💡 核心创新

论文的核心创新点在于： - 首次对DINOv3 ConvNeXt进行了受控的特征调节研究，揭示了在不进行任务特定微调的情况下，仅通过线性探针就能获得有竞争力的伪造媒体检测性能 - 发现特征调节本身是一个一阶设计变量，仅改变调节方法就能使LOMO平均AUC变化6.1个百分点，并逆转分布内与分布外性能的排名 - 证明了仅基于分布内准确率选择最优特征调节方法，无法作为鲁棒部署的可靠规则，挑战了现有实践

🏆 总体贡献

论文对该领域的总体贡献包括： - 通过实证研究表明，自监督蒸馏的ViT-7B模型能够以边缘兼容的推理成本迁移到安全关键的视觉工作负载中 - 强调了特征调节在鲁棒伪造检测中的关键作用，并指出其选择应基于面向鲁棒性的验证，而非仅依赖分布内准确率 - 为边缘AI感知系统中的鲁棒媒体取证提供了新的设计原则和实验基准

在边缘AI感知系统中重新思考特征条件化以实现鲁棒伪造媒体检测
Rethinking Feature Conditioning for Robust Forged Media Detection in Edge AI Sensing Systems

📊 核心分析

在边缘AI感知系统中重新思考特征条件化以实现鲁棒伪造媒体检测 Rethinking Feature Conditioning for Robust Forged Media Detection in Edge AI Sensing Systems

📊 核心分析

在边缘AI感知系统中重新思考特征条件化以实现鲁棒伪造媒体检测
Rethinking Feature Conditioning for Robust Forged Media Detection in Edge AI Sensing Systems