基于CLIP 建模用于假图像检测探索与应用

概述

论文地址：https://arxiv.org/pdf/2402.12927
源码地址：https://github.com/sohailahmedkhan/CLIPping-the-Deception

本研究探讨了如何使用 CLIP 这一图像和语言的多模态底层模型来检测伪造图像。这项研究的一个重要创新点是，它建立了一种利用多模态图像和语言信息进行伪造图像检测的方法，而伪造图像检测通常只基于图像数据。特别是，对使用 CLIP 进行伪造检测的各种过渡学习策略进行了比较和研究，从而在泛化性能方面达到了最先进的水平。

研究背景

假图像检测的重要性

近年来，随着对抗生成网络（GAN）和扩散模型等生成模型的显著发展，生成连人类都难以识别的虚假图像已成为可能。另一方面，这种高清晰度的虚假图像可能导致新闻报道的编造，从而带来潜在风险。例如，捏造政府官员的种族主义言论可能会引发国际问题。因此，建立一种检测虚假图像的通用方法是一个重要的社会问题。

假图像检测的技术难题

假图像检测的技术难点在于其生成模型的多样性。这就意味着，面对生成模型日益多样化和复杂化，必须建立一种方法，以稳健和通用的方式来判别假图像。然而，由于人工智能的基础技术–深度学习是一种内插式学习，难以估计位于训练数据集分布之外的区域，这就给假图像的检测带来了技术上的困难。本研究试图通过 CLIP 这一图像和语言的多模态底层模型的丰富表现力来解决这一难题，是假图像检测领域的一个新趋势。

建议的方法：四种过渡学习策略

在本研究中，我们对以下四种将 CLIP 应用于假货检测的过渡学习策略进行了整理、比较和讨论。

图 2. 四种假货检测过渡学习策略。右下角显示了使用每种策略时需要训练的参数数量。

提示调整

我们采用了一种名为 "语境优化"（CoOOp）的方法，以优化输入 CLIP 语言编码器的提示语为原则进行训练。输入提示本身就是训练目标。

适应者

这种方法是在图像编码器中添加一个轻量级线性层，并只针对该层进行训练，而不改变 CLIP 中语言和图像编码器的参数。

微调

CLIP 的所有参数都是在假货检测任务的背景下重新训练的。训练参数的总数是最多的。

线性探测

这种方法只使用 CLIP 中包含的图像编码器，因此可以使用线性层对每幅图像的特征输出进行真假回归。

实验结果

对于每种过渡学习策略，模型都只使用 ProGAN 生成的数据集进行训练，并使用 21 种不同的基于 GAN 的数据集、扩散模型和商业图像生成器测试泛化性能。表 1 列出了所准备的 21 个不同数据集的详细信息。

表 1. 21 个用于验证的不同数据集。

推广性能

作者使用各种数据集测试了训练模型的泛化性能。表 2 显示了每个数据集的准确率比较。与之前的研究相比，结果表明本研究的方法具有优势，它整合了来自图像和语言的多模态信息。特别是，我们还发现提示调整是 CLIP 过渡学习的最佳策略。这些结果表明，利用图像和语言的综合多模态信息进行假冒检测是非常有用的，而仅利用图像数据进行假冒检测则是假冒检测的新趋势。

另一方面，可以确认的是，包括以前的研究在内，在 Face Swap 数据集上的表现不如在其他数据集上准确。换句话说，在生成整个图像的情况下（如 GAN 和扩散模型），准确率可能较高；但在编辑或替换部分图像的情况下（如 Face Swap），准确率可能较低，因此需要进一步讨论。

表 2：使用每个数据集的准确率比较。最佳性能以粗体显示。

训练数据集规模的影响

作者还研究了训练数据集的大小对性能的影响，假设在现实世界中只有数量有限的图像可用。表 3 总结了模型在不同大小的训练数据集情况下的性能。从这些结果中，作者得出结论：当改变训练数据集的大小时，模型的性能没有明显差异。这意味着，本研究中考虑的策略也适用于数据数量有限的实际使用案例。

表 3.训练数据集大小对性能的影响。

作者还进一步讨论和评估了该模型的性能，方法是在一个训练数据集上对该模型进行训练，该数据集只包括每个图像类别中的 32 幅图像（16 幅真实图像/16 幅虚假图像），总共只有 640 幅图像。这一验证也显示了作者所提方法的实用性，其结果是提示调整比其他策略更显著。

表 4. 少量训练模型的性能。

对图像后处理性能的影响

考虑到现实世界中在线共享图像时，对图像进行后期处理是很常见的。人们也普遍认识到，后期处理会对假货检测性能产生重大影响。在此背景下，作者还讨论了对图像进行某些后处理时检测性能的变化。作为实际的后处理，本文考虑了（1）JPEG 压缩和（2）高斯滤波。图 3 总结了模型对每种变换的鲁棒性。有趣的是，线性探测在此次验证中表现得最为稳健。

图 3：图像后处理对性能的影响。

总结

本研究全面测试了基于 CLIP 的假图检测在各种假图数据集上的鲁棒性。它还比较和研究了将 CLIP 应用于假货检测的四种不同的过渡学习方法，即微调、线性探测、提示调整和适配器网络策略。实验结果表明，CLIP 对多模态图像和语言信息的整合在假货检测中也很有效。这预示着未来假货检测技术的新趋势，以及针对其他类型假货图像（如人脸互换）的假货检测技术的进一步发展。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/723602.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！