谁能更好地检测深度伪造?人还是机器?

本文将和您讨论深度伪造对社会构成的重大威胁,AI检测工具以及人类专家在不同方面的技术优势与劣势。

不知您是否听说过深度伪造(Deepfakes)这种欺诈应用?由它产生的各种虚假信息已威胁到了人类社会的方方面面。随着人工智能技术的进步,我们亟待提升识别虚假内容的能力。那么在实际检测假新闻可信度等用例时,到底是人类还是机器更胜任此类任务呢?

深度伪造的危害

不可否认,深度伪造的危险随着人工智能技术的快速发展,正在与日俱增,我们可以将其危害大体总结为如下方面:

  • 虚假信息:由深度伪造产生的视频和音频,可以广泛地传播假新闻等虚构信息。
  • 冒名顶替:通过冒充个体,深度伪造者可以损害他人的声誉,以及欺骗他们所认识的任何人。
  • 国家安全:深度伪造不但会炮制末日场景,而且能够编造敌对国领导人煽动冲突的视频或音频。
  • 内乱:冲突各方也可能利用欺骗性的镜头和音频,在特定的群体中煽动愤怒和内乱。
  • 网络安全:网络犯罪分子已经在使用人工智能语音克隆工具,向受害个体发送貌似熟人的、令人信服的信息。
  • 隐私侵犯:恶意使用深度伪造技术,会在未经个人同意的情况下,获取其肖像特征。
  • 真假难辨:正所谓:假作真时真亦假,我们甚至无法分辨准确的信息是否真实可信。

可见,面对越来越令人信服的深度伪造信息,我们需要强大的工具和流程来检测与识破。而旨在识别人工智能生成式内容的算法,完全可以作为检测工具运用于该领域,并作为人类判断力的有力补充。

算法能比人类更好地检测深度伪造吗?

目前,各国的技术巨头和研究团体,已经投入了大量资源,来研究和开发应对深度伪造所带来的严重威胁。2019年,Meta、微软和亚马逊等公司曾在针对深度伪造的检测挑战赛中,为那些最准确的检测模型提供了100万美元奖金。

在针对已公开的视频数据集进行测试后,其中表现最好的模型的准确率可达82.56%。然而,相同的模型在对由10,000个新成生成视频组成的“黑盒数据集”进行测试时,其中表现最好的模型准确率仅为65.18%。作为对比,一般来说,人类检测的准确率要么与AI深度检测工具持平,要么高于后者。

2021年发表在《美国国家科学院院刊,PNAS》上的一项研究发现:普通人类检测者的准确率会略高于业界领先的深度伪造检测工具。不过,该研究也发现:人类检测者和人工智能模型容易犯错的类型并不相同。

此外,悉尼大学的一项有趣的研究发现,我们人脑在无意识的情况下,会比有意识地去识别深度伪造要更加有效。

检测深度伪造中的视觉线索

作为一门新兴的科学,深度伪造检测的原理比较复杂,它们所需的分析方法也各不相同,具体主要取决于视频的性质。例如,2020年一段针对朝鲜领导人的恶搞深度伪造视频曾风靡全球。对此,最有效的检测方法是分析其嘴部动作(visemes)和语音(phonemes),进而找出不一致之处。

为了方便人类专家、普通用户、以及AI算法进行分析,麻省理工学院(MIT)定义了八条可以用来协助识别深度伪造视频的建议:

  1. 注意面部。高端的深度伪造几乎都是从面部改造开始的。
  2. 注意脸颊和前额。皮肤是否看起来太光滑或太褶皱?皮肤的老化程度是否与头发和眼睛的老化程度相似?深度伪造的人面可能会在某些方面显得不协调。
  3. 注意眼睛和眉毛。阴影是否出现在您期望看到的位置?毕竟深度伪造可能无法完全表现出自然场景的物理特性。
  4. 注意眼镜。是否有眩光点?眩光点是否太强?人物移动时,眩光点的角度是否会发生变化?同样,深度伪造可能无法完全表现自然照明的物理特性。
  5. 注意面部毛发是否真实。人物的面部毛发看起来真实吗?深度伪造可能会添加或去除胡子、鬓角、以及胡须等毛发,进而导致面部毛发的变化不那么自然。
  6. 注意面部的痣。脸上的痣看起来真实吗?
  7. 注意眨眼。眨眼次数是过少还是过频?
  8. 注意嘴唇的动作。那些基于嘴唇同步的深度伪造是否能够使得嘴唇的动作看起来自然?

其实,最新的人工智能深度防伪检测工具也无非是综合分析了上述因素,只不过不同产品的成功率各不相同罢了。当然,数据科学家们也在不断开发新的方法,例如:检测屏幕上发言者面部的血液自然流动。而这些新的方法显然是人类专家无法一眼识别,或者至少没有注意到的地方。

检测深度伪造中的音频线索

相对前面提到的视觉线索,深度伪造的音频检测完全是另一个领域的挑战。除了由视频提供的视觉线索,深度伪造检测在很大程度上也需要依赖于音频分析。当然,在某些情况下,元数据验证(Metadata Verification)等其他方法也能提供相关帮助。

伦敦大学学院于2023年发表的一项研究发现:人类专家检测出针对英语和普通话的深度伪造语音的准确率可以达到73%。与深层伪造的视频类似,人类专家往往能够凭借直觉,来检测在人工智能生成的语音中,那些不自然的语音模式,纵然他们可能根本无法清晰地说明,到底是哪些地方听起来不对劲。下面是我为您总结了最为常见音频迹象与线索:

  1. 口齿不清
  2. 缺乏顺畅的表达
  3. 背景或干扰噪音
  4. 声音或语言不一致
  5. 声音缺乏“饱和”感
  6. 过度脚本化的交付形式
  7. 看似没有瑕疵(包括:假动作、用词纠正、清嗓子等)

同样,各种算法也可以基于上述方面,有效地分析语音的深度伪造信号。USENIX的一份研究发现:人工智能声道的重建,是无法模拟自然语音模式的。该研究总结道:由人工智能语音生成器生成的音频只能与狭窄的声道(大致相当于一根饮用水吸管的大小)相匹配,却没有人类语音的自然动作。同时,霍斯特-戈尔茨研究所(Horst Görtz Institute)在早前的研究中,也分析了英语和日语中混杂的真假音频,并揭示了真假语音在高频率上的细微差别。

虽然人类专家和人工智能检测模型都可以察觉到声带和高频上的不一致,但是就高频差异而言,人工智能模型的准确度在理论上会越来越高。

人类和算法都会被深度伪造所迷惑,只是方式各不相同

有研究表明,根据测试参数的不同,人类和最新的人工智能检测工具的识别准确率,通常是在50%到90%之间。也就是说,人类和机器也可能会被深度伪造所欺骗,主要区别只是易受干扰的方式有所不同。例如,麻省理工学院(MIT)的研究发现,由于认知的不同,人类比人工智能模型更善于识别各国领导人和名人的深度伪造图像。该研究也发现,在处理有多人出现的镜头场景时,人工智能模型明显不及人类。究其根源,该研究认为,这可能是由于算法往往是在以单个发言人镜头为基础特征被训练出来的缘故。

相反,同一项研究还发现,人工智能模型在处理可能被故意用来欺骗人类观众的低质量镜头(如:模糊、颗粒状、环境暗淡等)时,其表现优于人类。同样,上文提到的最新的人工智能检测方法,也能够监测特定面部区域的血流状况。这可能是人类所不具备的分析能力。

小结

如您所见,随着人工智能深度伪造检测工具的不断迭代,深度伪造内容本身的质量也将不断提升。在某些极端的场景中,一旦人工智能的欺骗能力超过了我们现在所掌握的对其检测的能力,那么可能就只剩下人类的判断力,可以作为我们对抗深度伪造的唯一工具了。

如今,我们每个人都有责任了解虚假信息的迹象,以及该如何识别它们。除了保护自己免受AI诈骗和安全威胁之外,我们也有义务在网上讨论和分享自己对于虚假信息的洞察与发现。

译者介绍

陈峻(Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/262401.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

全新揭秘:Java WebSocket全双工通信的实践与运用

全新揭秘:Java WebSocket全双工通信的实践与运用 一、简介何为全双工通信全双工?WebSocket的使用场景 二、如何使用Java实现WebSocket1,引用websocket相关starter2,启用websocket3,服务端代码开发4,群发测试…

【数字图像处理】实验四 图像分割

一、实验内容: 1. 熟悉和掌握利用Matlab工具进行数字图像的读、写、显示等数字图像处理基本步骤。 2. 熟练掌握各种图像分割的基本原理及方法。 3. 能够从深刻理解图像分割,并能够思考拓展到一定的应用领域。 二、实验…

GraphPad Prism 10 for Mac v10.0.0.3 安装教程

GraphPad Prism GraphPad Prism是一款非常专业强大的科研医学生物数据处理绘图软件,它可以将科学图形、综合曲线拟合(非线性回归)、可理解的统计数据、数据组织结合在一起,除了最基本的数据统计分析外,还能自动生成统…

ARM GIC(四) gicv3架构基础

GICv3架构是GICv2架构的升级版,增加了很多东西。变化在于以下: 使用属性层次(affinity hierarchies),来对core进行标识,使gic支持更多的core 将cpu interface独立出来,用户可以将其设计在core…

安卓好用的python编辑器,安卓平台python编辑器

本篇文章给大家谈谈安卓上好用的python编辑软件有哪些,以及安卓上好用的python编辑软件推荐,希望对各位有所帮助,不要忘了收藏本站喔。 1. 简介 Thonny是基于python内置图形库tkinter开发出来的支持多平台(windows,Mac,Linux)的python IDE&am…

Windows10操作系统上安装VMware虚拟机和CentOS7

最初使用Windows与CentOS双系统,发现在系统之间切换非常不方便,于是决定改用windows系统加虚拟机的方式。 我百度搜索下载的VMware Workstation 12 pro,下载地址:https://www.zdfans.com/html/23471.html,网页提供了序…

【Hadoop】YARN简介(YARN产生的技术需求/YARN的基本架构)

YARN产生的技术需求YARN的基本架构ResourceManagerNodeManagerApplicationMasterContainer HDFS与YARN YARN产生的技术需求 YARN是Hadoop v2.0 引入的核心组件。YARN 从某种那个意义上来说应该算做是一个云操作系统,它负责集群的资源管理和任务调度,在 …

机器学习:手撕 AlphaGo(一)

图 1-1: AphaGo 结构概览 1. 前言 AlphaGo 是一个非常经典的模型,不论从影响力还是模型设计上。它的技术迭代演进路径:AlphaGo,AlphaGoZero,AlphaZero,MuZero 更是十分精彩。相信有很多同学因为听了 AlphaGo 的故事对…

伽马校正:FPGA

参考资料: Tone Mapping 与 Gamma Correction - 知乎 (zhihu.com) Book_VIP: 《基于MATLAB与FPGA的图像处理教程》此书是业内第一本基于MATLAB与FPGA的图像处理教程,第一本真正结合理论及算法加速方案,在Matlab验证,以及在FPGA上…

CSS(五) -- 动效实现(立体盒子旋转-四方体+正六边)

一. 四面立体旋转 正方形旋转 小程序中 wxss中 <!-- 背景 --><view class"dragon"><!--旋转物体位置--><view class"dragon-position"><!--旋转 加透视 有立体的感觉--><view class"d-parent"><view …

【JVM】一、认识JVM

文章目录 1、虚拟机2、Java虚拟机3、JVM的整体结构4、Java代码的执行流程5、JVM的分类6、JVM的生命周期 1、虚拟机 虚拟机&#xff0c;Virtual Machine&#xff0c;一台虚拟的计算机&#xff0c;用来执行虚拟计算机指令。分为&#xff1a; 系统虚拟机&#xff1a;如VMware&am…

Bash 脚本学习

文章目录 1、脚本编程基础2. 变量2.1 参数变量的引用2.2 环境变量 3 条件判断语句3.1 if 语句3.1.1 语法3.1.2 案例 3.2 case 语句3.2.1 语法3.2.2 案例 3.3 判断参数说明 4 循环语句4.1 for 循环4.1.1 语法4.1.2 案例 4.2 while循环4.2.1 语法4.2.2 案例4. 3 循环总结 5. 函数…

7.串口通信uart编写思路及自定义协议

前言&#xff1a; 串口是很重要的&#xff0c;有许多模块通信接口就是串口&#xff0c;例如gps模块&#xff0c;蓝牙模块&#xff0c;wifi模块还有一些精度比较高的陀螺仪模块等等&#xff0c;所以学会了串口之后&#xff0c;这些听起来很牛批的模块都能够用起来了。此外&#…

RTP/RTCP/RTSP/SIP/SDP/RTMP对比

RTP&#xff08;Real-time Transport Protocol&#xff09;是一种用于实时传输音频和视频数据的协议。它位于传输层和应用层之间&#xff0c;主要负责对媒体数据进行分包、传输和定时。 RTCP&#xff08;Real-Time Control Protocol&#xff09;是 RTP 的控制协议&#xff0c;…

持续集成交付CICD:基于ArgoCD 的GitOps 自动化完成前端项目应用发布与回滚

目录 一、实验 1. 环境 2. K8S master节点部署Argo CD 3.基于ArgoCD 实现GitOps &#xff08;同步部署文件&#xff09; 4.基于ArgoCD 实现GitOps &#xff08;同步HELM文件&#xff09; 二、问题 1. ArgoCD 连接K8S集群状态为 Unknown 2.ArgoCD 创建application失败 …

03-JVM对象创建与内存分配机制深度剖析

文章目录 对象的创建对象创建的主要流程一、类加载检查二、分配内存划分内存的方法解决并发问题的方法 三、初始化零值四、设置对象头五、执行<init>方法 对象半初始化对象大小与指针压缩什么是java对象的指针压缩&#xff1f;为什么要进行指针压缩&#xff1f; 对象内存…

快速学习 webpack

目录 1. webpack基本概念 webpack能做什么&#xff1f; 2. webpack的使用步骤 2.1_webpack 更新打包 3. webpack的配置 3.1_打包流程图 3.2_案例-webpack隔行变色 3.3_插件-自动生成html文件 3.4_加载器 - 处理css文件问题 3.5_加载器 - 处理css文件 3.6_加载器 - 处…

【深入解析spring cloud gateway】12 gateway参数调优与分析

本节主要对网关主要的一些参数做一些解释说明&#xff0c;并用压测工具测试一下网关的接口&#xff0c;通过压测来验证参数配置是否合理 一、连接池参数 参数示例 spring:application:name: gatewaycloud:gateway:# http连接设置httpclient:# 全局的响应超时时间&#xff0c…

驱动开发的完善 --- 芯片手册导读 + I/O口操控代码的编写

在我上上节的博文中&#xff08;linux驱动的学习 & 驱动开发初识-CSDN博客&#xff09;&#xff1a; 我通过一个基本的字符设备驱动框架来测试了驱动的运行&#xff0c;但是在“pin4_open”和“pin4_write”这两个驱动函数的函数体里只写了一句内核打印的代码&#xff0c;作…

微软官方出品:GPT大模型编排工具,支持C#、Python等多个语言版本

随着ChatGPT的火热&#xff0c;基于大模型开发应用已经成为新的风口。虽然目前的大型模型已经具备相当高的智能水平&#xff0c;但它们仍然无法完全实现业务流程的自动化&#xff0c;从而达到用户的目标。 微软官方开源的Semantic Kernel的AI编排工具&#xff0c;就可以很好的…