基于CLIP 建模用于假图像检测探索与应用

概述

论文地址:https://arxiv.org/pdf/2402.12927
源码地址:https://github.com/sohailahmedkhan/CLIPping-the-Deception

本研究探讨了如何使用 CLIP 这一图像和语言的多模态底层模型来检测伪造图像。这项研究的一个重要创新点是,它建立了一种利用多模态图像和语言信息进行伪造图像检测的方法,而伪造图像检测通常只基于图像数据。特别是,对使用 CLIP 进行伪造检测的各种过渡学习策略进行了比较和研究,从而在泛化性能方面达到了最先进的水平。

研究背景

假图像检测的重要性

近年来,随着对抗生成网络(GAN)和扩散模型等生成模型的显著发展,生成连人类都难以识别的虚假图像已成为可能。另一方面,这种高清晰度的虚假图像可能导致新闻报道的编造,从而带来潜在风险。例如,捏造政府官员的种族主义言论可能会引发国际问题。因此,建立一种检测虚假图像的通用方法是一个重要的社会问题。

假图像检测的技术难题

假图像检测的技术难点在于其生成模型的多样性。这就意味着,面对生成模型日益多样化和复杂化,必须建立一种方法,以稳健和通用的方式来判别假图像。然而,由于人工智能的基础技术–深度学习是一种内插式学习,难以估计位于训练数据集分布之外的区域,这就给假图像的检测带来了技术上的困难。本研究试图通过 CLIP 这一图像和语言的多模态底层模型的丰富表现力来解决这一难题,是假图像检测领域的一个新趋势。

相关研究

CLIP(对比语言-图像预培训)

CLIP 是图像和语言的多模态基础模型,在由图像及其相关文字说明组成的大型数据集上进行了预训练。CLIP 丰富的表现力在假图检测中也很有意义。事实上,CLIP 所获取的特征域空间的可视化显示,真实图像和伪造图像是完全分开的(图 1)。

图 1:使用 t-SNE 的几种模型,真实(红色)和伪造(绿色)图像在特征空间中的分布可视化。

建议的方法:四种过渡学习策略

在本研究中,我们对以下四种将 CLIP 应用于假货检测的过渡学习策略进行了整理、比较和讨论。

图 2. 四种假货检测过渡学习策略。右下角显示了使用每种策略时需要训练的参数数量。

提示调整

我们采用了一种名为 "语境优化"(CoOOp)的方法,以优化输入 CLIP 语言编码器的提示语为原则进行训练。输入提示本身就是训练目标。

适应者

这种方法是在图像编码器中添加一个轻量级线性层,并只针对该层进行训练,而不改变 CLIP 中语言和图像编码器的参数。

微调

CLIP 的所有参数都是在假货检测任务的背景下重新训练的。训练参数的总数是最多的。

线性探测

这种方法只使用 CLIP 中包含的图像编码器,因此可以使用线性层对每幅图像的特征输出进行真假回归。

实验结果

对于每种过渡学习策略,模型都只使用 ProGAN 生成的数据集进行训练,并使用 21 种不同的基于 GAN 的数据集、扩散模型和商业图像生成器测试泛化性能。表 1 列出了所准备的 21 个不同数据集的详细信息。

表 1. 21 个用于验证的不同数据集。

推广性能

作者使用各种数据集测试了训练模型的泛化性能。表 2 显示了每个数据集的准确率比较。与之前的研究相比,结果表明本研究的方法具有优势,它整合了来自图像和语言的多模态信息。特别是,我们还发现提示调整是 CLIP 过渡学习的最佳策略。这些结果表明,利用图像和语言的综合多模态信息进行假冒检测是非常有用的,而仅利用图像数据进行假冒检测则是假冒检测的新趋势。

另一方面,可以确认的是,包括以前的研究在内,在 Face Swap 数据集上的表现不如在其他数据集上准确。换句话说,在生成整个图像的情况下(如 GAN 和扩散模型),准确率可能较高;但在编辑或替换部分图像的情况下(如 Face Swap),准确率可能较低,因此需要进一步讨论。

表 2:使用每个数据集的准确率比较。最佳性能以粗体显示。

训练数据集规模的影响

作者还研究了训练数据集的大小对性能的影响,假设在现实世界中只有数量有限的图像可用。表 3 总结了模型在不同大小的训练数据集情况下的性能。从这些结果中,作者得出结论:当改变训练数据集的大小时,模型的性能没有明显差异。这意味着,本研究中考虑的策略也适用于数据数量有限的实际使用案例。

表 3.训练数据集大小对性能的影响。

作者还进一步讨论和评估了该模型的性能,方法是在一个训练数据集上对该模型进行训练,该数据集只包括每个图像类别中的 32 幅图像(16 幅真实图像/16 幅虚假图像),总共只有 640 幅图像。这一验证也显示了作者所提方法的实用性,其结果是提示调整比其他策略更显著。

表 4. 少量训练模型的性能。

对图像后处理性能的影响

考虑到现实世界中在线共享图像时,对图像进行后期处理是很常见的。人们也普遍认识到,后期处理会对假货检测性能产生重大影响。在此背景下,作者还讨论了对图像进行某些后处理时检测性能的变化。 作为实际的后处理,本文考虑了(1)JPEG 压缩和(2)高斯滤波。图 3 总结了模型对每种变换的鲁棒性。有趣的是,线性探测在此次验证中表现得最为稳健。

图 3:图像后处理对性能的影响。

总结

本研究全面测试了基于 CLIP 的假图检测在各种假图数据集上的鲁棒性。它还比较和研究了将 CLIP 应用于假货检测的四种不同的过渡学习方法,即微调、线性探测、提示调整和适配器网络策略。实验结果表明,CLIP 对多模态图像和语言信息的整合在假货检测中也很有效。这预示着未来假货检测技术的新趋势,以及针对其他类型假货图像(如人脸互换)的假货检测技术的进一步发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/723602.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux C编译器从零开发三

AST语法树 BNF抽象 expr equality equality relational ("" relational | "!" relational)* relational add ("<" add | "<" add | ">" add | ">" add)* add mul ("" …

2024年光电信息、光学工程与机器视觉国际学术会议(OIOEMV 2024)

2024年光电信息、光学工程与机器视觉国际学术会议(OIOEMV 2024) 2024 International Conference on Optoelectronic Information, Optical Engineering and Machine Vision 会议地点&#xff1a;厦门&#xff0c;中国 网址&#xff1a;www.oioemv.com 邮箱: oioemvsub-conf…

如何在前端项目中用字体图标替换图片,方便减小打包体积和统一切换颜色

1.进入阿里妈妈矢量图标图库 地址&#xff1a;阿里妈妈矢量图 2.搜索自己想要的图标 3.添加自己想要的图标 4.把刚才选的图标&#xff0c;添加到自己要下载的项目 5.把项目下载到本地 6.引入iconfont.css 在div上增加对应的类名就可以啦 下载的所有类名都在下面的demo_index…

校园学生选课系统

摘 要 如今&#xff0c;随着互联网技术的不断推进与发展&#xff0c;信息技术已经在各行各业得到了应用。当前&#xff0c;高等院校也应该紧跟时代步伐&#xff0c;紧紧地依靠技术的发展&#xff0c;在信息化技术的服务和应用的基础上&#xff0c;对高校教育环节中存在的问题进…

跟张良均老师学大数据人工智能|企业项目试岗实训开营

我国高校毕业生数量连年快速增长&#xff0c;从2021年的909万人到2022年的1076万人&#xff0c;再到2023年的1158万人&#xff0c;预计到2024年将达到1187万人&#xff0c;2024年高校毕业生数量再创新高。 当年高校毕业生人数不等于进入劳动力市场的高校毕业生人数&#x…

TSINGSEE青犀云边端技术如何助力视频监控实现高效管理与安全监控

随着信息技术的飞速发展&#xff0c;视频监控作为维护公共安全的重要手段&#xff0c;正逐渐融入人们的日常生活。在这个大数据、云计算、物联网等技术深度融合的时代&#xff0c;云边端技术作为一种新兴的技术架构&#xff0c;为视频监控带来了前所未有的变革与机遇。本文将以…

OSPF和RIP的路由引入(华为)

#交换设备 OSPF和RIP的路由引入 不同的网络会根据自身的实际情况来选用路由协议。比如有些网络规模很小&#xff0c;为了管理简单&#xff0c;部署了 RIP; 而有些网络很复杂&#xff0c;可以部署 OSPF。不同路由协议之间不能直接共享各自的路由信息&#xff0c;需要依靠配置路…

SSM小区车辆信息管理系统-计算机毕业设计源码06111

摘 要 科技进步的飞速发展引起人们日常生活的巨大变化&#xff0c;电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流&#xff0c;人类发展的历史正进入一个新时代。在现实运用中&#xff0c;应用软件的工作…

【广度优先搜索 深度优先搜索 图论】854. 相似度为 K 的字符串

本文涉及知识点 广度优先搜索 深度优先搜索 图论 图论知识汇总 LeetCode 854. 相似度为 K 的字符串 对于某些非负整数 k &#xff0c;如果交换 s1 中两个字母的位置恰好 k 次&#xff0c;能够使结果字符串等于 s2 &#xff0c;则认为字符串 s1 和 s2 的 相似度为 k 。 给你…

自学网络安全 or Web安全,一般人我还是劝你算了吧

由于我之前写了不少网络安全技术相关的文章&#xff0c;不少读者朋友知道我是从事网络安全相关的工作&#xff0c;于是经常有人私信问我&#xff1a; 我刚入门网络安全&#xff0c;该怎么学&#xff1f; 要学哪些东西&#xff1f; 有哪些方向&#xff1f; 怎么选&#xff1f;…

报表工具数据源的取数处理方式大对比

根据报表的需求&#xff0c;很多报表中的指标数据需要进行预处理&#xff0c;以满足快速抽取和展示的需要。对于帆软报表类似的产品&#xff0c;一般通过建立视图、合并数据表&#xff0c;形成直接应用于模板设计的数据集&#xff0c;报表直接和数据集进行交互、关联。当用户发…

解锁TikTok数据潜力——高效获取TikTok视频评论回复数据接口

一、引言 在社交媒体蓬勃发展的今天&#xff0c;TikTok已成为全球范围内备受欢迎的短视频平台。为了帮助企业、个人和开发者更好地利用TikTok数据&#xff0c;我们推出了一款全新的接口服务&#xff0c;专注于高效获取TikTok视频评论回复数据。 二、核心功能介绍 高效获取评论…

swagger下载文件名中文乱码、swagger导出文件名乱码、swagger文件导出名称乱码、解决swagger中文下载乱码bug

文章目录 一、场景描述&#xff1a;swagger导出文件名称乱码二、乱码原因三、解决方法3.1、方法一、在浏览器中输入地址下载3.2、方法二、swagger升级为2.10.0及以上 四、可能遇到的问题4.1、DocumentationPluginsManager.java:152 一、场景描述&#xff1a;swagger导出文件名称…

如何做好媒体邀约宣发

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 如何做好媒体邀约&#xff1a;7个步骤&#xff0c;3个注意点&#xff0c;1个提醒。 一&#xff0c;媒体邀约七步走 明确活动的目的&#xff1a;首先&#xff0c;明确媒体邀约宣发的目标…

小白跟做江科大32单片机之定时器输出比较

原理部分 背景 GPIO口是数字输出端口&#xff0c;只能输出1和0。但是通过PWM&#xff0c;可以使其控制LED呼吸灯亮灭的程度 1.通过CNT和CCR进行比较&#xff0c;可以输出一定频率和占空比的PWM波形 2.通用定时器有4个CCR&#xff0c;可同时输出4路PWM波形&#xff0c;但只有…

vue-json-viewer组件 copyable失效,页面并不现实copy按钮

<json-viewer :value"props.row.param_detail.query" :expand-depth"10" copyable> </json-viewer> 官方文档中&#xff0c;说明&#xff0c;只要在json-viewer中加入 copyable属性&#xff0c;即可实现copy功能&#xff0c;如下图&#xff1…

搭建个人官网时如何配置SMTP邮件自动发送

什么是 SMTP&#xff1f; SMTP( Simple Mail Transfer Protocol ) 是一种简单邮件传输协议&#xff0c;可以在互联网上通过SMTP来发送电子邮件&#xff0c;是建模在 FTP 文件传输服务上的一种邮件服务&#xff0c;主要用于传输系统之间的邮件信息并提供来信有关的通知。SMTP 服…

Mac用虚拟机玩游戏很卡 Mac电脑玩游戏怎么流畅运行 苹果电脑怎么畅玩Windows游戏

对于许多Mac电脑用户而言&#xff0c;他们经常面临一个令人头疼的问题&#xff1a;在虚拟机中玩游戏时卡顿严重&#xff0c;影响了游戏体验。下面我们将介绍Mac用虚拟机玩游戏很卡&#xff0c;Mac电脑玩游戏怎么流畅运行的相关内容。 一、Mac用虚拟机玩游戏很卡 下面我们来看…

iSlide软件下载_iSlide 2024最新版下载附件详细安装步骤

​大家都知道islide插件功能特色&#xff1a;设计排版&#xff0c;高效智能化实现PPT页面设计中的图形布局和复制排列工作&#xff0c;多种参数化设置满足个性化设计要求。我们都明白islide插件功能特色&#xff1a;色彩库&#xff0c;更多专业的色彩组合搭配方案&#xff0c;可…

MFC扩展库BCGControlBar Pro v35.0

LINK : fatal error LNK1104: 无法打开文件“BCGCBPRO2800U140.lib” BCGControlBar v25.0版本 环境VS2015&#xff0c;在运行程序时出现提示错误 &#xff1a;LINK : fatal error LNK1104: 无法打开文件“BCGCBPRO2800U140.lib” 1、需要编译一下BGCControlBar&#xff0c;在…