概述
论文地址:https://arxiv.org/pdf/2402.12927
源码地址:https://github.com/sohailahmedkhan/CLIPping-the-Deception
本研究探讨了如何使用 CLIP 这一图像和语言的多模态底层模型来检测伪造图像。这项研究的一个重要创新点是,它建立了一种利用多模态图像和语言信息进行伪造图像检测的方法,而伪造图像检测通常只基于图像数据。特别是,对使用 CLIP 进行伪造检测的各种过渡学习策略进行了比较和研究,从而在泛化性能方面达到了最先进的水平。
研究背景
假图像检测的重要性
近年来,随着对抗生成网络(GAN)和扩散模型等生成模型的显著发展,生成连人类都难以识别的虚假图像已成为可能。另一方面,这种高清晰度的虚假图像可能导致新闻报道的编造,从而带来潜在风险。例如,捏造政府官员的种族主义言论可能会引发国际问题。因此,建立一种检测虚假图像的通用方法是一个重要的社会问题。
假图像检测的技术难题
假图像检测的技术难点在于其生成模型的多样性。这就意味着,面对生成模型日益多样化和复杂化,必须建立一种方法,以稳健和通用的方式来判别假图像。然而,由于人工智能的基础技术–深度学习是一种内插式学习,难以估计位于训练数据集分布之外的区域,这就给假图像的检测带来了技术上的困难。本研究试图通过 CLIP 这一图像和语言的多模态底层模型的丰富表现力来解决这一难题,是假图像检测领域的一个新趋势。
相关研究
CLIP(对比语言-图像预培训)
CLIP 是图像和语言的多模态基础模型,在由图像及其相关文字说明组成的大型数据集上进行了预训练。CLIP 丰富的表现力在假图检测中也很有意义。事实上,CLIP 所获取的特征域空间的可视化显示,真实图像和伪造图像是完全分开的(图 1)。
图 1:使用 t-SNE 的几种模型,真实(红色)和伪造(绿色)图像在特征空间中的分布可视化。
建议的方法:四种过渡学习策略
在本研究中,我们对以下四种将 CLIP 应用于假货检测的过渡学习策略进行了整理、比较和讨论。
图 2. 四种假货检测过渡学习策略。右下角显示了使用每种策略时需要训练的参数数量。
提示调整
我们采用了一种名为 "语境优化"(CoOOp)的方法,以优化输入 CLIP 语言编码器的提示语为原则进行训练。输入提示本身就是训练目标。
适应者
这种方法是在图像编码器中添加一个轻量级线性层,并只针对该层进行训练,而不改变 CLIP 中语言和图像编码器的参数。
微调
CLIP 的所有参数都是在假货检测任务的背景下重新训练的。训练参数的总数是最多的。
线性探测
这种方法只使用 CLIP 中包含的图像编码器,因此可以使用线性层对每幅图像的特征输出进行真假回归。
实验结果
对于每种过渡学习策略,模型都只使用 ProGAN 生成的数据集进行训练,并使用 21 种不同的基于 GAN 的数据集、扩散模型和商业图像生成器测试泛化性能。表 1 列出了所准备的 21 个不同数据集的详细信息。
表 1. 21 个用于验证的不同数据集。
推广性能
作者使用各种数据集测试了训练模型的泛化性能。表 2 显示了每个数据集的准确率比较。与之前的研究相比,结果表明本研究的方法具有优势,它整合了来自图像和语言的多模态信息。特别是,我们还发现提示调整是 CLIP 过渡学习的最佳策略。这些结果表明,利用图像和语言的综合多模态信息进行假冒检测是非常有用的,而仅利用图像数据进行假冒检测则是假冒检测的新趋势。
另一方面,可以确认的是,包括以前的研究在内,在 Face Swap 数据集上的表现不如在其他数据集上准确。换句话说,在生成整个图像的情况下(如 GAN 和扩散模型),准确率可能较高;但在编辑或替换部分图像的情况下(如 Face Swap),准确率可能较低,因此需要进一步讨论。
表 2:使用每个数据集的准确率比较。最佳性能以粗体显示。
训练数据集规模的影响
作者还研究了训练数据集的大小对性能的影响,假设在现实世界中只有数量有限的图像可用。表 3 总结了模型在不同大小的训练数据集情况下的性能。从这些结果中,作者得出结论:当改变训练数据集的大小时,模型的性能没有明显差异。这意味着,本研究中考虑的策略也适用于数据数量有限的实际使用案例。
表 3.训练数据集大小对性能的影响。
作者还进一步讨论和评估了该模型的性能,方法是在一个训练数据集上对该模型进行训练,该数据集只包括每个图像类别中的 32 幅图像(16 幅真实图像/16 幅虚假图像),总共只有 640 幅图像。这一验证也显示了作者所提方法的实用性,其结果是提示调整比其他策略更显著。
表 4. 少量训练模型的性能。
对图像后处理性能的影响
考虑到现实世界中在线共享图像时,对图像进行后期处理是很常见的。人们也普遍认识到,后期处理会对假货检测性能产生重大影响。在此背景下,作者还讨论了对图像进行某些后处理时检测性能的变化。 作为实际的后处理,本文考虑了(1)JPEG 压缩和(2)高斯滤波。图 3 总结了模型对每种变换的鲁棒性。有趣的是,线性探测在此次验证中表现得最为稳健。
图 3:图像后处理对性能的影响。
总结
本研究全面测试了基于 CLIP 的假图检测在各种假图数据集上的鲁棒性。它还比较和研究了将 CLIP 应用于假货检测的四种不同的过渡学习方法,即微调、线性探测、提示调整和适配器网络策略。实验结果表明,CLIP 对多模态图像和语言信息的整合在假货检测中也很有效。这预示着未来假货检测技术的新趋势,以及针对其他类型假货图像(如人脸互换)的假货检测技术的进一步发展。