WAIC2023:图像内容安全黑科技助力可信AI发展

目录

  • 0 写在前面
  • 1 AI图像篡改检测
  • 2 生成式图像鉴别
    • 2.1 主干特征提取通道
    • 2.2 注意力模块
    • 2.3 纹理增强模块
  • 3 OCR对抗攻击
  • 4 助力可信AI向善发展
  • 总结

0 写在前面

2023世界人工智能大会(WAIC)已圆满结束,恰逢全球大模型和生成式人工智能蓬勃兴起之时,今年参会的人们更加关注AIGC技术在未来可以如何作用于人们的生活。

在这里插入图片描述

自AIGC技术兴盛以来,生成式造假也让人们倍感忧虑。

图像是信息的重要载体,也是信息保护的重点关注对象。图像编辑软件的发展和普及降低了虚假图像的制作门槛,大量基于虚假图片产生的诈骗案件、网络暴力事件在全球范围内造成了恶劣的影响。图像内容的安全与可信性也成为了公众关注的焦点,但图像领域的“可信AI”才刚刚起步。

在本次世界人工智能大会可信AI论坛上,合合信息展示了“三大技术,一项标准”,探索AI在图像内容安全领域可信化发展的多重可能

1 AI图像篡改检测

篡改文本检测(TTD,tampered text detection)作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本和篡改文本之间的纹理差异性,以确定文本图像中文字区域的真伪性。常见的应用场景有:谣言检测流水、合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。

篡改文本检测任务有两个主要挑战。

  • 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
  • 真实和篡改文本检测精度平衡困难。

P图是常见的图像篡改手段之一。去年的世界人工智能大会上,合合信息PS篡改检测技术首次亮相,像素级起底修改痕迹,覆盖身份证、护照等多种证照识别类目,吸引了社会各界关注。该技术基于深度学习的图像篡改检测技术及相关系统,通过学习图像被篡改后统计特征的变化,智能捕捉图像在篡改过程中留下的细微痕迹,并以热力图的形式展示图像区域篡改地点,相关技术已在银行、保险等领域落地应用

今年图像篡改检测“黑科技”持续优化升级,应用面也拓展至截图篡改检测。此前,图像篡改检测的技术研究对象主要集中于自然场景图像,然而,真正为人们的生活带来风险的通常是被篡改的资质证书、文档、截图等。

在这里插入图片描述

合合信息AI图像篡改检测技术可检测包括转账记录、交易记录、聊天记录等多种截图,无论是从原图中“抠下”关键要素后移动“粘贴”至另一处的“复制移动”图片篡改手段,还是“擦除”、“重打印”等方式,图像篡改检测技术均可“慧眼”识假

这类截图篡改检测比传统篡改检测更困难,原因在于,与自然图像相比,截图的背景没有纹路和底色,整个截图没有光照差异,难以通过拍照时产生的成像差异进行篡改痕迹判断,现有的视觉模型通常难以充分发掘原始图像和篡改图像的细粒度差异特征。

2 生成式图像鉴别

相较传统的文本检测任务,生成式篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致,训练过程中网络无法平衡两类的学习过程,导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此,如何准确地捕捉局部纹理差异性,同时平衡篡改和真实类别学习难度,是目前篡改文本检测研究的重要方向。

该任务的难点主要分为两点

  • 生成出来的图像场景繁多,不能穷举,不能通过细分来一一训练解决;
  • 有些生成图和真实图片的相似度过高,很贴近于人类的判断,对于机器而言,真伪判定只会更难

为此,合合信息提出了一种基于HRNet的编码器-解码器结构的图像真实性鉴别模型,结合图像本身的信息包括但不限于噪声、频谱等,能够在不用穷举图片的情况下,利用多维度特征来捕捉真实图片和生成式图片细粒度的视觉差异,达到高精度鉴别目的。模型结构如下图所示

在这里插入图片描述

2.1 主干特征提取通道

上述模型的第一个通道由若干主干提取网络层组成

主干提取网络(Backbone Network)在计算机视觉任务中扮演着关键的角色,通过一系列的卷积层、池化层和激活函数等操作,从原始图像中提取出各种特征,这些特征具有较好的局部感受野和平移不变性,能够捕捉到图像的结构和纹理信息,负责提取图像特征的主要组成部分。

在这里插入图片描述

主干网络的目标是将输入的图像转化为高级语义特征表示,通常是一系列的特征图。通过多层的卷积和非线性激活函数,主干网络可以学习到图像中的抽象特征表示。这些特征表示具有层次化的结构,能够逐渐提高语义表达能力,从低级的边缘、角点到高级的物体形状和语义信息,为后续的任务提供了更丰富和有意义的输入。同时,主干网络通常采用多层卷积和池化操作,可以在不同的层次上提取特征。这样的设计使得网络对于不同尺度的目标具有一定的感知能力,能够处理从小物体到大物体的尺度变化。在一些任务中,主干网络还可以进行特征融合操作,将来自不同层次的特征进行组合,以获取更全局和综合的特征表示。例如,通过连接或级联多个分辨率的特征图,可以获得更好的目标检测或语义分割结果。

2.2 注意力模块

注意力机制(Attention Mechanism)在计算机视觉任务中发挥着重要的作用。它是一种模拟人类视觉系统中注意力机制的方法,通过对输入的图像或特征进行加权,将注意力集中在具有重要信息的区域上,从而提高任务的性能和效果。

在这里插入图片描述

举例而言,在目标检测任务中,注意力机制能够帮助模型更关注感兴趣的目标区域,提高检测的准确性和鲁棒性。通过将注意力权重应用于特征图中的不同位置,可以突出目标的位置并抑制背景信息;在图像分类任务中,注意力机制可以提高模型对图像中重要区域的关注度,减少对无关区域的注意力分配。通过将注意力权重应用于特征图的不同通道,可以选择性地突出重要的图像特征,提高分类的准确性;在语义分割任务中,注意力机制可以帮助模型更好地理解图像的语义结构。通过对特征图的每个像素位置应用注意力权重,可以增强重要的语义区域并抑制非重要区域,从而提高分割的精度和细节。

而在本文介绍的图像生成任务中,注意力机制可以用于生成具有更好质量和多样性的图像。通过对生成器模型的输入特征进行加权,可以指导生成过程集中在重要的特征或区域上,生成更真实的图像结果进行对抗训练。

在这里插入图片描述

现在热门的Transformer也正是基于注意力机制构建

2.3 纹理增强模块

对于纹理缺失的截图图像鉴别而言,纹理增强模块扮演着重要的角色。它的作用是通过增强图像的纹理信息,提供更丰富、更清晰的视觉特征,从而改善图像分析和理解的效果。

纹理增强模块首先对输入图像进行预处理,包括去噪、平滑等操作,以减少噪声对后续处理的影响;接着利用各种纹理特征提取算法,如局部二值模式(Local Binary Patterns, LBP)方向梯度直方图(Histogram of Oriented Gradients, HOG)等,提取图像中的纹理信息。根据提取的纹理特征,使用图像增强算法对图像进行增强,如调整对比度、增加锐度等,使纹理信息更加清晰和鲜明。最后,根据具体任务的需求,可以对增强后的图像进行后处理,如去除无关的纹理信息、进一步提取图像特征等。

总之,纹理增强模块可以帮助算法在低对比度、模糊、噪声等不良环境下更好地工作,提升算法的鲁棒性和性能。

3 OCR对抗攻击

在印刷体的文字识别领域,开展最早,且技术上最成熟的是国外的西方文字识别技术。早在 1929 年,德国的科学家Taushek已经取得了一项光学字符识别(optical character recognition, OCR)专利。自上个世纪五十年代以来,欧美国家就开始研究关于西方各个国家的文字识别技术,以便对日常生活中产生的大量文字材料进行数字化处理。经过长时间的不断研究和完善,西文的OCR技术已经有一套完备的识别方案,并广泛地用在西文的各个领域中。

说到光学字符识别大家可能比较陌生,但或多或少都应该听说过OCR,通俗来讲,OCR技术采用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字。人们会出于生活、工作需要,拍摄自己的相关证件、文件并发送给第三方,这些图片上承载的个人信息可能被不法分子使用OCR技术识别提取并泄露。

在这里插入图片描述

那么什么是对抗攻击(Adversarial Attack)呢?这是近年来深度学习研究中出现的一个新问题,Szegedy等在图像分类问题上发现深度神经网络容易遭受到对抗样本的攻击,从而威胁到神经网络的安全性。对抗样本是指在图像上添加一些不影响人眼判断的干扰噪声,但能有效的迷惑深度模型,使其作出错误判断的样本。如下图左侧是一张大熊猫的图像,当添加一个噪声生成右侧的对抗样本。对于某个神经网络,能够正确的判定左图为大熊猫,却错误的判定右侧为长臂猿,而且相应的置信度为99.3%。而对于人眼来说,左右两张图像并没有明显的差异。

在这里插入图片描述

对抗样本产生的机理比较复杂,通常来说较大的模型参数对输入信号具有放大作用,某些微弱的信号被严重放大之后会对分类器产生干扰。使用正则化技术能够在一定程度上减弱对抗样本的攻击,但是效果非常有限。目前比较有效的防御手段是生成足够的对抗样本,然后将这些样本添加到训练集中进行二次训练,这样获得的模型则对大多数对抗样本具有较强的防御能力。

基于个人、企业业务的文件资料保密需求,合合信息进行了创新技术探索,研发了OCR对抗攻击技术来进行文档图片“加密”。该技术可在不影响肉眼观看与判断的情况下,对场景文本或者文档内文本进行扰动,对包含中文、英文、数字等关键信息的内容进行“攻击”,防止第三方通过OCR系统读取并保存图像中所有的文字内容,降低数据泄露的风险,以此达到保护信息的目的。

4 助力可信AI向善发展

图像安全的重要性与日俱增,标准规范的出台迫在眉睫。合合信息与中国信通院等权威机构一道,携手国内顶尖院校、研究机构及企业,共同探索AI技术在图像领域的可信化落地这一深远命题,助力科技向上的同时向善发展。

中国信通院牵头启动了《文档图像篡改检测标准》制定工作,合合信息、中国图象图形学学会、中国科学技术大学等科技创新企业及知名学术机构联合编制。

《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。作为牵头方,中国信通院表示,《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。

总结

近期,合合信息相关产品接连获得中国信通院在智能文档处理、OCR智能化领域的高分评级。智能文档处理系统评估结果显示,AI核心能力方面,合合信息产品在NLP领域的文本分类、知识图谱领域的实体识别、关系抽取及OCR领域的字符识别、文本行识别均获得5分评分。合合信息智能文档处理产品获得“5级”评定。据悉,“5级”为该模块最高评定等级。

OCR评估中,合合信息智能文字识别产品顺利通过全部7项基础类功能指标测试以及9项增强类功能指标测试,获得“增强级”评级。评估报告认为,公司智能文字识别产品展现出良好的性能和服务成熟度。以具有较大难度的证件类和票据类性能测试为例,面对旋转、阴影、反光、褶皱、形变、模糊、多语言、低像素、光照不均等复杂场景,合合信息智能文字识别产品均有较高的识别准确率,字符准确率分别为99.21%和99.59%,字段准确率分别为97.87%和98.42%。

测试结果还显示,合合信息智能文字识别产品支持超过50种复杂语言的识别,为全球化、多语言背景下的信息智能识别提供了技术支撑。现阶段,公司已获得超百项自主知识产权发明专利,为全球超过200个国家和地区的上亿用户提供智能文字识别产品及AI服务。未来,公司将持续关注图像领域新需求、新动态,用“过硬”的AI为行业发展注入安全感。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/43225.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Two Days wpf 分享 分页组件

迟来的wpf分享。 目录 一、序言 二、前期准备 三、前端界面 四、后台代码部分 1、先定义些变量后面使用 2、先是按钮事件代码。 首页按钮 上一页按钮 下一页按钮 末尾按钮 画每页显示等数据 每页显示多少条 判断是否为数字的事件 分页数字的点击触发事件 跳转到…

jmeter常用的提取器(正则表达式和JSON提取器)

jmeter常用的后置处理器有两种提取数据: 1、JSON提取器 获取后可以将变量token引用到其他所需要的地方 (正则表达式和JSON提取器):2023接口自动化测试框架必会两大神器:正则提取器和Jsonpath提取器_哔哩哔哩_bilibilihttps://www.bilibili.…

JVM运行时数据区——堆内的区域分布

1.堆内的区域分布 堆是运行时数据区最大的一块区域,主要用来存放对象,堆是所有线程公用的,在JVM启动时就被创建,堆的空间是可以调整的,是GC(垃圾回收)的重点区域。 堆的内存空间分区:新生代老年代 新生代…

Rust vs Go:常用语法对比(三)

题图来自When to use Rust and when to use Go[1] 41. Reverse a string 反转字符串 package mainimport "fmt"func Reverse(s string) string { runes : []rune(s) for i, j : 0, len(runes)-1; i < j; i, j i1, j-1 { runes[i], runes[j] runes[j], runes[i]…

【SQL应知应会】表分区(五)• MySQL版

欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习&#xff0c;有基础也有进阶&#xff0c;有MySQL也有Oracle 分区表 • MySQL版 前言一、分区表1.非分区表2.分区…

【论文】基于GANs的图像文字擦除 ——2010.EraseNet: End-to-End Text Removal in the Wild(已开源)

pytorch官方代码&#xff1a;https://github.com/lcy0604/EraseNet 论文&#xff1a;2010.EraseNet: End-to-End Text Removal in the Wild 网盘提取码&#xff1a;0719 一、图片文字去除效果 图10 SCUT-EnsText 真实数据集的去除 第一列原图带文字、第二列为去除后的标签&a…

RocketMQ分布式事务 -> 最终一致性实现

文章目录 前言事务消息场景代码示例订单服务事务日志表TransactionMQProducerOrderTransactionListener业务实现类调用总结 积分服务积分记录表消费者启动消费者监听器增加积分幂等性消费消费异常 前言 分布式事务的问题常在业务与面试中被提及, 近日摸鱼看到这篇文章, 阐述的…

认识主被动无人机遥感数据、预处理无人机遥感数据、定量估算农林植被关键性状、期刊论文插图精细制作与Appdesigner应用开发

目录 第一章、认识主被动无人机遥感数据 第二章、预处理无人机遥感数据 第三章、定量估算农林植被关键性状 第四章、期刊论文插图精细制作与Appdesigner应用开发 更多推荐 遥感技术作为一种空间大数据手段&#xff0c;能够从多时、多维、多地等角度&#xff0c;获取大量的…

Spring 能解决所有循环依赖吗?

以下内容基于 Spring6.0.4。 看了上篇文章的小伙伴&#xff0c;对于 Spring 解决循环依赖的思路应该有一个大致了解了&#xff0c;今天我们再来看一看&#xff0c;按照上篇文章介绍的思路&#xff0c;有哪些循环依赖 Spring 处理不了。 严格来说&#xff0c;其实也不是解决不了…

PoseiSwap 即将开启 POSE 单币质押,治理体系将全面运行

PoseiSwap 是目前行业首个将支持 RWA 资产交易的 DEX&#xff0c;其构建在 Nautilus Chain 上&#xff0c;并通过模块化的形式单独构建了 zk-Rollup 应用层&#xff0c;具备并行化运行、隐私特性&#xff0c;并从 Cosmos、Celestia、Eclipse 等 Layer0 设施中获得高度可组合性、…

MySQL 中NULL和空值的区别

MySQL 中NULL和空值的区别&#xff1f; 简介NULL也就是在字段中存储NULL值&#xff0c;空值也就是字段中存储空字符(’’)。区别 1、空值不占空间&#xff0c;NULL值占空间。当字段不为NULL时&#xff0c;也可以插入空值。 2、当使用 IS NOT NULL 或者 IS NULL 时&#xff0…

JDK、JRE、JVM三者之间的关系

总结 JDK包含JRE&#xff0c;JRE包含JVM。 JDK (Java Development Kit)----Java开发工具包&#xff0c;用于Java程序的开发。 JRE (Java Runtime Environment)----Java运行时环境&#xff0c;只能运行.class文件&#xff0c;不能编译。 JVM (Java Virtual Machine)----Java虚拟…

21matlab数据分析牛顿插值(matlab程序)

1.简述 一、牛顿插值法原理 1.牛顿插值多项式   定义牛顿插值多项式为&#xff1a; N n ( x ) a 0 a 1 ( x − x 0 ) a 2 ( x − x 0 ) ( x − x 1 ) ⋯ a n ( x − x 0 ) ( x − x 1 ) ⋯ ( x − x n − 1 ) N_n\left(x\right)a_0a_1\left(x-x_0\right)a_2\left(x-x_0\…

AI时代带来的图片造假危机,该如何解决

一、前言 当今&#xff0c;图片造假问题非常泛滥&#xff0c;已经成为现代社会中一个严峻的问题。随着AI技术不断的发展&#xff0c;人们可以轻松地通过图像编辑和AI智能生成来篡改和伪造图片&#xff0c;使其看起来真实而难以辨别&#xff0c;之前就看到过一对硕士夫妻为了骗…

子网划分路由网卡安全组

1."IPv4 CIDR" "IPv4 CIDR" 是与互联网协议地址&#xff08;IP address&#xff09;和网络的子网划分有关的概念。 - "IPv4" 代表 "Internet Protocol version 4"&#xff0c;也就是第四版互联网协议&#xff0c;这是互联网上最广泛使…

谷歌插件(Chrome扩展) “Service Worker (无效)” 解决方法

问题描述&#xff1a; 写 background 文件的时候报错了&#xff0c;说 Service Worker 设置的 background 无效。 解决&#xff08;检查&#xff09;方法&#xff1a; 检查配置文件&#xff08;manifest.json&#xff09; 中的 manifest_version 是否为 3。 background 中的…

办公软件ppt的制作

毕业找工作太难了&#xff0c;赶紧多学点什么东西吧&#xff0c;今天开始办公软件ppt的制作学习。 本文以WPS作为默认办公软件&#xff0c;问为什么不是PowerPoint&#xff0c;问就是没钱买不起&#xff0c;绝对不是不会破解的原因。 一.认识软件 在快捷工具栏中顾名思义就是一…

6.4.2 互联网路由探测与发现基本原理

6.4.2 互联网路由探测与发现基本原理 一、路由探测与发现背后的协议工作过程 我们主要使用三种方法来实现路由探测与发现 基于IP的记录路由选项功能&#xff08;RR&#xff09;和ICMP功能的路由探测&#xff0c;典型的例子就是带有参数“r”的ping命令&#xff0c;即ping -r …

postgresql源码学习(58)—— 删除or重命名WAL日志?这是一个问题

最近因为WAL日志重命名踩到大坑&#xff0c;一直很纠结WAL日志在什么情况下会被删除&#xff0c;什么情况下会被重命名&#xff0c;钻研一下这个部分。 一、 准备工作 1. 主要函数调用栈 首先无用WAL日志的清理发生检查点执行时&#xff0c;检查点执行核心函数为CreateCheckPo…

华为OD机试真题 Java 实现【经典屏保】【2023 B卷 100分】,附详细解题思路

目录 专栏导读一、题目描述二、输入描述三、输出描述四、补充说明四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、再输入4、再输出 华为OD机试 2023B卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&…