合合信息:探索视觉内容安全新前沿

2024年12月13日-15日,中国图象图形学学会在杭州召开。大会期间,来自合合信息的图像算法研发总监郭丰俊进行了主题为“视觉内容安全技术的前沿进展与应用”的演讲,介绍了视觉内容安全问题,并总结了现今的技术发展,对我很有启发。

近年来视觉技术的大幅发展,为我们工作生活带来便利的同时,也产生了一系列安全问题。由于AI技术导致伪造更容易,黑灰产引起许多社会问题以及企业或政府的刚性需求,视觉安全需求急剧增加。目前视觉内容安全技术分为主动鉴别和被动鉴别两种。主动鉴别可以鉴别无横机篡改和溯源,主要应用于产权保护、伪造检测和伪造溯源。而被动鉴别则可以不借助数字水印进行工作,支持更多的图像类型,主要应用于卡证防伪、文档票据伪造检测、AIGC图判别和伪造人脸检测。、

目前市面上的视觉安全产品也有很多,比如英特尔实验室的FakeCatcher、微软的Azure AI Face X-Ray、亚马逊的Amazon Rekognition,它们都在特定领域获得了一定的影响力。虽然技术有巨大突破,但视觉安全算法仍然存在一些挑战。比如跨域泛化问题,它会让知识成本和维护成本大幅提高。又比如纯色背景图篡改且无明显视觉异常的检测,它比普通图像更难以检测。再比如图象质量退化的场合,它会造成篡改痕迹不可逆损失。还有检出精度与误检率矛盾,如何保证高检出,极低误判率是设计模型中的一大难点。

合合信息也推出了自研的AI安全产品,它支持常见卡证、票据等伪造检测,也支持AIGC人脸伪造鉴别,并且能定位篡改区域。

合合内容安全系统不仅在通用类PS检测模型技术想当成熟,已在证券、保险、银行、零售等多个行业落地,而且在人脸鉴伪上也有很好的效果。

在ICDAR23-DTT比赛和全球AI攻防挑战赛——AI核身之金融场景凭证篡改检测上获得第一名好成绩。

不仅如此,合合信息还深度参与到产业发展之中。2024年10月,合合信息发起和参与编制的《文本图像篡改检测系统技术要求》发布,它标准围绕伪造图像鉴别、生成式图像判别等议题,凝聚行业共识,为行业提供有效指引。

目前内容安全系统还存在许多的需求方向,比如图像篡改检测,主要指利用PS加工图像或AI生成图片,包括身份证照造假、业务合同造假、资质证明造假、财务票据造假、其他材料造假等场景。以及人脸伪造检测,主要指利用照片活化、AI换脸或局部替换伪造人脸,包括身份认证、远程银行、在线开户、资金划拨、贷款申请和信用卡申请等场景。还有声纹伪造,主要指利用语音合成、语音转换、对抗攻击或重放攻击伪造声音,包括电话银行欺诈、APP资金划拨和伪造身份骗贷等场景。合合信息也一直在跟进这些需求,并积极将相关技术落地。

CVPR 23上,有文章利用频率感知头来弥补视觉特征不显著时的问题,并采用多视图迭代解码器MID来利用不同尺度的特征信息,基于ViT+DCT实现了篡改检测,可以检测部分无痕篡改。

AAAI 25上有论文利用Texture Jitter 提升细粒度感知,同时轻微抖动图像纹理,增广训练数据,引导引擎检测纹理的异常而不是具体的篡改表现。并且提出学习和分析特征之间的差异,而不仅是输入内容的特征的框架,提高对未见过篡改的检测性能。这个模型能够提升open-set中泛化能力,即训练集未见过种类样本,测试性能不显著下降。

尽管模型的性能有了很大的提升,但它依然面临诸多挑战。首先它易受攻击,比如缩放,传输过程可能会导致模型性能下降。其次它的泛化能力待提高,在特定场景和数据集上表现优异,但面对未知的伪造手段或多样化的应用场景时无法保持较高的检测精度。再者,由于伪造手段变化很快快,模型的维护成本很高。最后,数据获取与标注成本十分高昂,高质量的标注可能涉及隐私保护,进一步增加了获取难度。所以合合信息选择了基于大模型技术的探索方向。一方面可利用多模态信息提高准确率。并且,大模型适用于处理未见过新类别,性能下降少,提供了很好的泛化能力。其次,使多场景、类别共用一个系统能够降低使用门槛。同时,可通过交互注入知识,优化结果,便于知识注入。

基于这种理念诞生的ForgeryGPT模型,通过将伪造图像真假二分类及篡改区域的定位交给小模型处理。当小模型确定篡改位置后,将结果提示给大模型,再利用大模型自然语言解释异常区域。这种混合模型获得了更好的性能和更广泛的适应性。

在视觉内容安全日益受到重视的未来,含文字的视觉内容仍然有不少问题待解决,值得研究。同时视觉内容安全防护还应进行整体规划,做到从业务各环节考虑和协同,使方案更高效,更经济。整个行业内要去制定一套标准,以促进内容安全系统的更好落地。而厂家可以考虑主动、被动融合,增加内容系统有效性。在这之中,大模型等新技术的应用具有很大的潜力。合合信息会继续优化产品,为全球企业和个人用户提供创新的数字化、智能化服务。目前合合信息通用篡改检测平台和人脸伪造检测平台已登录TextIn开放平台并开放体验,感兴趣的小伙伴不妨亲自试用一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/941733.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

阿里云cdn稳定吗?

阿里云CDN(内容分发网络)是阿里云提供的一项全球加速服务,它的稳定性通常被认为是非常高的,尤其在国内市场。九河云给大家总结了阿里云CDN的稳定性情况: 1. 全球节点覆盖广泛 阿里云CDN在全球范围内拥有数百个加速节…

本地部署webrtc应用怎么把http协议改成https协议?

环境: WSL2 Ubuntu22.04 webrtc视频聊天应用 问题描述: 本地部署webrtc应用怎么把http协议改成https协议? http协议在安卓手机浏览器上用不了麦克风本,来地应用webrtc 本来是http协议,在安卓手机上浏览器不支持使…

Qt creator ,语言家功能缺失解决方法

1、找到工具->外部->配置 2、添加目录,双击命名语言家 3、在语言家目录下,添加工具 双击重命名lupdate,即更新翻译 %{CurrentDocument:Project:QT_INSTALL_BINS}\lupdate%{CurrentDocument:Project:FilePath}%{CurrentDocument:Projec…

用于UISystem的工具集

简介:上篇文章用于管理Unity中UGUI的工具系统UISystem-CSDN博客讲了UISystem,为了更加方便使用,我给他写了一个编辑器工具,下面展示代码和使用说明,具体详情不难看一下就看懂了。 一、代码部分 using QFramework; us…

onlyoffice连接器 二次开发 合同等制式模板化技术开发方案【三】

一、期望效果 目前曹瑞版本onlyoffice已经实现:书签模式 和 控件模式,用以支持该方案。 【图1】字段绑定 【图2】模板发起 【图3】接入表单 思路讲解: 业务系统开发中通常希望能够通过绑定form字段给word,从而达到双向同步效果&am…

WPF+MVVM案例实战与特效(四十五)- 打造优雅交互:ListBox 的高级定制与行为触发(侧边菜单交互面板)

文章目录 1、引言2、案例效果3、案例实现1、依赖安装2、文件创建3、代码实现1、依赖引用与上下文2、个性化视觉效果:自定义 ItemContainerStyle3、页面样式与布局完整代码4、ViewModel 逻辑实现5、子界面代码:3、实现效果4、源代码获取5、总结1、引言 在WPF应用程序开发中,…

【优选算法】复写零

链接:1089. 复写零 - 力扣(LeetCode) 算法原理: 解法:双指针算法 根据“异地”操作,然后优化成双指针下的“就地”操作 1.先找到最后一个“复写”的数 1.先判断 cur 位置的值 2.决定 dest 向后移动一步或…

moviepy将图片序列制作成视频并加载字幕 - python 实现

DataBall 助力快速掌握数据集的信息和使用方式,会员享有 百种数据集,持续增加中。 需要更多数据资源和技术解决方案,知识星球: “DataBall - X 数据球(free)” -------------------------------------------------------------…

ubuntu20.04安装imwheel实现鼠标滚轮调速

ubuntu20.04安装imwheel实现鼠标滚轮调速 Ubuntu 系统自带的设置中仅具备调节鼠标速度的功能,而无调节鼠标滚轮速度的功能。其默认的鼠标滚轮速度较为缓慢,在查看文档时影响尚可接受,但在快速浏览网页时,滚轮速度过慢会给用户带来…

ubuntu开机进入initramfs状态

虚拟机卡死成功起后进入了initramfs状态,可能是跟文件系统有问题或者检索不到根文件系统,或者是配置错误,系统磁盘等硬件问题导致 开机后进入如下图的界面, 文中有一条提示 要手动fsck 命令修复 /dev/sda1 命令如下 fsck /de…

STL格式转换为OBJ格式

STL格式与OBJ格式简介 STL格式 STL(Stereo Lithography)文件是一种用于3D打印和计算机辅助制造(CAM)的文件格式。它最初由3D Systems公司开发,主要用于立体光刻技术。STL文件通常分为二进制和ASCII两种格式&#xff…

git命令恢复/还原某个文件、删除远程仓库中的文件

有时刚创建的远程仓库,可能无意中把一些没用的文件上传到仓库,本文介绍一下怎么删除这些文件。 一、git命令恢复某个文件 第一步:拉取最新代码 git pull 第二步: 查看git 修改的文件状态 git status 第三步:查看…

Chapter 3-1. Detecting Congestion in Fibre Channel Fabrics

Chapter 3. Detecting Congestion in Fibre Channel Fabrics This chapter covers the following topics: 本章包括以下主题: Congestion detection workflow. Congestion detection metrics. Congestion detection metrics and commands on Cisco MDS switches. Automatic A…

音视频入门基础:MPEG2-TS专题(20)——ES流简介

《T-REC-H.222.0-202106-S!!PDF-E.pdf》第27页对ES进行了定义。ES流是PES packets(PES包)中编码的视频、编码的音频或其他编码的比特流。一个ES流(elementary stream)在具有且只有一个stream_id的PES packets序列中携带&#xff1…

python+opencv+棋盘格实现相机标定及相对位姿估计

pythonopencv棋盘格实现相机标定及相对位姿估计 引言1,使用相机采集含棋盘格图像14张2,进行相机标定(1)测试软件1标定结果(内参及畸变系数)(2)测试软件2标定结果(内参及畸…

【笔记】学校教的SSH:远程连接到另一个电脑 并对其进行操作

前言:我开了两台虚拟机做这个实验 一台是主机A ubuntu 一台是主机B centos7 (一)这里是在ubuntu进行的操作 1.安装ssh sudo apt install ssh 2.确认ssh激活了 systemctl status ssh 然后如图 这里是在主机B操作 就是如此简单 远程连接…

(九)腾讯cloudstudio(ubuntu)+akiaaa大神 Stable Diffusion整合包 AI绘画教程

一、说明 在网上转了一圈,发现确实akiaaa大神的整合包不错,看看这界面就比我前面的流弊多了,后面我们就要把这个界面一步一步干出来 二、环境准备 这里和前面的一样 (七)腾讯cloudstudioStable-Diffusion-webui AI绘…

6UCPCI板卡设计方案:8-基于双TMS320C6678 + XC7K420T的6U CPCI Express高速数据处理平台

基于双TMS320C6678 XC7K420T的6U CPCI Express高速数据处理平台 1、板卡概述 板卡由我公司自主研发,基于6UCPCI架构,处理板包含双片TI DSP TMS320C6678芯片;一片Xilinx公司FPGA XC7K420T-1FFG1156 芯片;六个千兆网口&#xff…

【专题】2024年悦己生活消费洞察报告汇总PDF洞察(附原数据表)

原文链接: https://tecdat.cn/?p38654 在当今时代背景下,社会发展日新月异,人们的生活方式与消费观念正经历深刻变革。MoonFox 月狐数据的《2024 年悦己生活消费洞察报告》聚焦于这一充满活力与变化的消费领域。随着就业、婚姻等社会压力的…

路由器的原理

✍作者:柒烨带你飞 💪格言:生活的情况越艰难,我越感到自己更坚强;我这个人走得很慢,但我从不后退。 📜系列专栏:网路安全入门系列 目录 路由器的原理一,路由器基础及相关…