智能图像处理技术:开启未来视觉时代

在这里插入图片描述

    • 写在前面
    • 技术论坛
      • ■ 智能文档图像处理技术
      • ■ 大模型时代的文档识别与理解
      • ■ 篡改文本图像的生成与检测
    • 圆桌讨论
    • 未来愿景


写在前面

文档 是人们在日常生活、工作中产生的信息的重要载体,各领域从业者几乎每天都要与金融票据、商业规划、财务报表、会议记录、合同、简历、采购订单等文档或者图像“打交道”。所以让计算机具备阅读、理解和解释这些文档图像的能力,在智能金融、智能办公、电子商务等许多领域具有广阔的应用价值。但现阶段文档图像的处理过程中面临着诸多挑战:文档类型的多样产生了繁杂的版式与结构;受拍摄器材、背景环境影响,图像时常存在噪声和质量问题等。

技术论坛

为了促进文档图像分析与处理领域的技术交流及发展,中国图象图形学学会文档图像分析与识别专业委员会与合合信息共同打造了《文档图像智能分析与处理》高峰论坛。在本次论坛中,合合信息特别邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及 OCR 领域等前沿技术展开“头脑风暴”,寻找文档图像处理领域的未来进阶方向。

在这里插入图片描述

■ 智能文档图像处理技术

在合合信息科技丁凯博士所报告的《智能文档处理技术在工业界的应用与挑战》一题中,主要针对 智能文档图像处理 进行了探讨,而且站在合合信息的角度提出了一些技术难题的解决办法。

在文档图像的分析与预处理方面,首先对文档区域进行 ROI 提取,然后去除手指等干扰,再到形变(弯曲/倾斜透视)矫正、阴影/摩尔纹去除、图像增强等技术,实现将一张质量非常差的图片进行恢复和提升,可大幅提升文档智能扫描、文档识别分析、图转 Word/Excel 等业务性能。

这里的弯曲矫正早期的方法是基于文本行线拟合和坐标变换的方法进行的,从一个文本文档上下各找一条文本行线,将这两条线作为基线,然后通过全局变化、误差调整实现文档图像的矫正。但是这样的方式对于比较稀疏或者不均匀文档效果就很一般了,比较好的一个改进方法是基于偏移场学习的方法,先计算出每一个像素的偏移场,然后对每一个像素进行空间变换,这样就会比较好的对文档图像进行矫正。

请添加图片描述
摩尔纹去除的主要原理是先从文档背景中提取一个模块,将文档图像中的摩尔纹等干扰项进行提取,然后通过干扰去除模块对摩尔纹进行去除,最后将原图和去除干扰项的图进行融合,这样则会获得一张比较好的摩尔纹去除图。

请添加图片描述
以下是文档图像预处理的整体效果。

请添加图片描述
在文档图像篡改检测方面,传统的检测方式是基于 文件标记 进行检测,比如说该图片是否被 PS 处理过,但实际上即使经过 PS 处理,痕迹也是很容易被第三方抹除掉的。合合信息则是创新性的抓住图像篡改在像素层面的特征,将 频谱特征图像特征 融合,最后通过 Position Embedding 检测篡改的位置信息。该处理方式效果显著。

针对文档图像处理和文档图像安全及落地应用方面,可以看到合合信息已经取得显著成就。我认为基于此还有一些可能的技术趋势,比如通过机器学习和自然语言处理技术,自动分类和标记文档图像,从而提高文档图像处理的准确性和效率;通过深度学习技术,自动从图像中提取关键信息,例如标题、摘要等,从而提高文档图像的信息提取效率;通过图像识别技术,自动检测文档图像中的不同信息,例如文字、标语、签名等,从而提高文档图像的识别准确率;通过语义分析技术,可以对文档图像进行语义分析和提取,从而实现自动分类和标记,例如可以根据图像中的文字内容自动分类和标记;

不仅如此,当下爆火的人工智能也完全可以与文档图像处理结合,比如自动识别和分类、文档理解、文档图像处理和安全自动化等。

■ 大模型时代的文档识别与理解

当下大模型如火如荼,比如 ChatGPT 的发布就引起了一阵热潮。在这样一个大模型时代,无论是哪个领域的研究都不可能回避大模型,包括文档识别与理解。但是在技术结合的过程当中大模型也难免会有一些不足,比如它在文档阅读的过程当中识别精度可能不高等,这些都需要去大规模的验证。而它的不足对于研究员和企业来说则是一种机遇,,是一种应用需求的增多,我们可以充分利用大模型的特征表示能力和语言能力,以及开发不同任务的专用模型和学习算法等。

在大模型的基础上,文档分析与识别的未来研究方向可以以 设计自动化应用无人化 为目标,拓展文档中多元素、多内容、多语言、多场景、多类型,提升研究广度,增强文档语义理解能力、可解释性、可信度等研究深度。主要研究内容可以从版面分割、文本识别、表格识别、信息提取等方面拓展,涵盖文档电子化、人机交互、场景理解、信息检索/抽取、问答、推理决策等多个领域。

■ 篡改文本图像的生成与检测

目前图像篡改生成与检测的研究主要集中在自然图像,针对文本图像的相关研究较少。

篡改文本图像生成的主要任务是对场景图像中的指定文本进行编辑,在保留原始字体风格和背景纹理的同时使目标文本尽可能清晰,如隐私信息保护、拍照翻译等,如何做到在原来文档图像基础上修改内容且不留痕迹是主要研究内容。

早期的主流方法是 端到端场景文本擦除,通过条件对抗生成网络构建文本擦除器,该方法模型简单且提出了基本的文本擦除解决思路,但是在复杂文本图像的擦除上效果一般。到后来引入了 文本感知分支,用于提升网络对文本区域的捕捉能力,该方式引入多级擦除策略,擦除效果明显提升,但是网络结构较复杂,参数量厚重。再到后来使用基于 StyleGANg 的篡改生成框架,可同时生成原文本和目标文本模仿目标风格的图像,该方法能够在真实数据集上训练,但是网络结构依旧复杂,需依赖大量训练数据。

在这里插入图片描述
针对这些问题,中科大的谢教授提出的方法是 基于迭代局部擦除的场景文本擦除方法,显性解耦定位和背景重建分支,通过基于局部编辑的擦除操作防止对背景纹理的改动。构建平衡的多级擦除结构,共享多级之间的 Block 权重,并只监督最后一层输出,这样的方式在不使用对抗损失的情况下,擦除效果更好且网络结构更加简单。

圆桌讨论

在论坛的最后一个阶段是圆桌讨论,由各位与会的专家对 OCR 等技术进行深入探讨。

在这里插入图片描述
问题一:大模型技术对 OCR、文档图像分析和理解带来哪些机遇和挑战?

:gpt 仍需要大量数据量检测。
:从技术路线来说,专业化大规模的预训练模型是可行。
:结合 OCR、海量数据、理解能力很强,OCR 结果对模型有很大支持作用。
:很好的机会点是将现有的 ocr 引擎、算法去和一些大模型做结合。
:gpt 等大模型从技术路线等方面对我们很有启发,拥抱技术的革新;很多算法在一个数据集表现很好,换一个就不行,如果通过零样本、小样本等进行技术创新是值得探索的点。思考 ocr 领域的智能涌现是什么很重要。
:现有的 gpt 与现有的先进的 ocr 还是有差距的,在较难的关键信息抽取方面可能差距到五六十个点。利用大模型做 ocr 相关研究,关注技术的边界,是值得关注的。

问题二:是否需要构建 OCR 垂直领域的大模型?预计模型参数规模要有多大?什么数量级的训练数据?技术路径可能是什么?

:模型的能力都是有局限的,未来较好的文档预训练模型应该是多层级的、参数扩大到十亿几十个亿。
:十个亿左右的参数在图像文本领域应该足够,一个大的趋势是集成和多任务的学习。
:大模型应该是有垂直领域区分的,如教育、医药等,会取得更好效果。
:数据方面,数据的数量不是最关键的,最关键的是数据的多样性。
:大模型的参数量被广泛讨论,对比 gpt3 与 gpt4 就可以看出。数据量和样本多样性十分重要,十亿左右的参数量足够的。我用一千万的合成数据,不如十万的真实数据,这是 ocr 研究中的重要课题,在大模型框架下可能成为一个方向。

问题三:语言的大模型和视觉大模型的能力互补有怎样的关系,ocr 和 nlp 是什么关系,如果 ocr 是前处理,是不是 ocr 就会被削弱,如果 ocr 是目标,那大模型就会成为辅助?

:我倾向于 nlp,真正做到一个通用的人工智能,语言识别就是最核心的。如果技术发展到一定程度,人会使用工具,比如各类传感器,但是核心还是以语言逻辑思考为主,有了工具+语言,造出的人工智能跟人的差距就很小,打通感知与认知会成为人工智能的最终形态。
:各类模型应该是并行并存的关系,如多模态的大模型 gpt,对标人也是如此,人看东西也是图像文字同时识别发挥作用的。

问题四:无监督预训练技术是构建大模型的基础性技术之一,如果要做 ocr 相关的大模型,其采用的无监督预训练技术路线可能有哪些?

:openai 说智能涌现就是一个算法遇到了巨大的数据量,在 gpt 出来前,大家都在关注 bert,个人猜测 gpt 还是将所有的数据输入后训练模型。
:还是通用的 ai 更被人关注使用。

对于本次大会深度延展的成果和未来发展方向,我们可以看出,人工智能、虚拟现实、增强现实等前沿技术已经成为当前图形图像产业的热点领域。

未来愿景

CCIG 2023 已圆满结束,这是一次非常成功的计算机图形学会议。作为一名 IT 技术博主,我本人对图像图形领域也有着极大的兴趣。所以本次论坛我全程进行了线上的参与,也产生了自己的一些想法。

技术创新是推动计算机视觉和人工智能发展的关键。在本次大会上,许多与会者展示了令人惊叹的新技术,例如由文本到图像的跨语言翻译、人工智能驱动的艺术创作等。

多学科合作是解决计算机视觉和人工智能问题的重要途径。在本次大会上,许多与会者分享了他们如何将不同领域的知识应用于计算机视觉和人工智能领域,以解决复杂问题。这表明跨学科合作是解决复杂问题的重要途径,需要各个领域的专家学者共同努力。

个人经验对计算机视觉和人工智能发展同样重要。许多优秀的研究成果都是由研究人员通过实践经验得出的,这表明个人经验对于计算机视觉和人工智能领域的研究同样重要,需要通过实践经验,才能更好地理解问题,并提出更好的解决方案。

需要更多的教育和培训。有很多年轻的研究人员参加本次会议,这表明计算机视觉和人工智能领域需要更多的教育和培训。只有通过教育和培训,才能培养更多的优秀研究人员,推动技术的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/21705.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

react类组件生命周期基础总结

组件的生命周期是指组件从被创建到挂载到页面中运行起来,再到组件不用时卸载的过程,只有类组件才有生命周期(类组件 实例化 函数组件 不需要实例化) 生命周期新版本和旧版本的对比图如下: 生命周期(constr…

GPT专业应用:撰写工作简报

●图片由Lexica 生成,输入:Workers working overtime 工作简报,作为一种了解情况、沟通信息的有效手段,能使上级机关和领导及时了解、掌握所属部门的政治学习、军事训练、行政管理等方面的最新情况;同时,能…

非暴力沟通模型

非暴力沟通模型 非暴力沟通的创始人是马歇尔.卢森堡,师从人本主义心理学之父卡尔.罗杰斯。《非暴力沟通》一书入选香港大学推荐的50本必读书籍之列。 模型介绍 非暴力沟通(英文名称:NonviolentCommunication,简称NVC)…

运行时栈帧结构与方法调用

1 运行时栈帧结构 Java虚拟机以方法作为最基本执行单元,“栈帧”则是用于支持虚拟机进行方法调用和方法执行背后的数据结构。栈帧存储了方法的局部变量表、操作数栈、动态连接和方法返回地址等信息。 1.1 局部变量表 局部变量表的容量以变量槽为最小单位。 Java…

JSDoc 拥抱 Javascript

JSDoc 在 vs code 已经内置了. 可以在 js 文件的开头添加 // ts-check 即可. 在注释中标注来实现一些 ts 的功能. JSDoc 支持以下注解. Types typeparam (or arg or argument)returns (or return)typedefcallbacktemplate Classes Property Modifiers public, private, p…

Windows Server 2016 中文版、英文版下载 (updated May 2023)

Windows Server 2016 中文版、英文版下载 (updated May 2023) Windows Server 2016 Version 1607,2023 年 5 月更新 请访问原文链接:https://sysin.org/blog/windows-server-2016/,查看最新版。原创作品,转载请保留出处。 作者…

ChatGPT + MindShow 制作PPT

🍏🍐🍊🍑🍒🍓🫐🥑🍋🍉🥝 ChatGPT MindShow 制作PPT 文章目录 🍐具体操作🐳结语 🍐具体操作 ChatGP…

2023—Unity打包Pico4(3)全流程(Pico插件)

一、项目选择了2021.3.0版本的URP,把项目Build成Android 二、打开Project Setting→ 安装最下面的XR Plugin Management 安装完成后的界面,此时还没有Pico选项出现 三、我们需要在该网站下载Pico的SDK包 picoxr/VRTK-Support (github.com) 解压该文件到…

python + windQuant:挑选公司

给定一些k线选股指标,如何挑选符合条件的公司,以python windquant为例? 【申明:本例只用来作为python学习交流之用,切勿以此作为投资的选股条件】 0、用以下条件挑选公司: 仅作示例用: 【1】…

qiankun + Vite + React + Vue + Angular 快速构建前端微服务

文章目录 一、主应用 vite二、微应用 react三、微应用 vue四、微应用 angular五、项目地址 一、主应用 vite npm npm create vitelatestyarn yarn create vite选择是否继续 Need to install the following packages:create-vite3.2.1 Ok to proceed? (y) y项目名称 Project…

nodejs进阶(3)—路由处理

1. url.parse(url)解析 该方法将一个URL字符串转换成对象并返回。 url.parse(urlStr, [parseQueryString], [slashesDenoteHost]) 接收参数: urlStr url字符串 parseQueryString 为true时将使用查询模…

四月成功上岸阿里,年后准备了两个月,要个21k应该不过分吧~

先说下我基本情况,本科不是计算机专业,现在是学通信,然后做图像处理,可能面试官看我不是科班出身没有问太多计算机相关的问题,因为第一次找工作,阿里的游戏专场又是最早开始的,就投递了&#xf…

github copilot chat申请,安装,及常见问题解决

申请 首先申请,并开通copilot, 地址为:https://github.com/features/copilot,copilot 一个月10美金,第一个月免费,支持国内的信用卡。 开通copilot之后,可以申请 copilot chat 的预览版功能,网…

DistilPose: Tokenized Pose Regression with Heatmap Distillation

论文名字:DistilPose:使用热图蒸馏的令牌化姿势回归 论文地址:2303.02455.pdf (arxiv.org)https://arxiv.org/pdf/2303.02455.pdf项目地址:yshMars/DistilPose: Implementation for: DistilPose: Tokenized Pose Regression with…

五、c++学习(加餐1:汇编基础学习)

经过前面几节课的学习,我们在一些地方都会使用汇编来分析,我们学习汇编,只是学习一些基础,主要是在我们需要深入分析语法的时候,使用汇编分析,这样会让我们更熟悉c编译器和语法。 从这节课开始&#xff0c…

SQL删除重复的记录(只保留一条)-窗口函数row_number()

文章目录 一、关于mysql表中数据重复二、聚合函数min(id)not in二、窗口函数row_number()四、补充:常见的窗口函数 一、关于mysql表中数据重复 关于删除mysql表中重复数据问题,本文中给到两种办法:聚合函数、窗口函数row_number()的方法。 (注…

UML类图画法及其关系

UML类图画法及其关系 本文主要是介绍 UML类图画法及其关系,方便今后温习!!! 一、类之间的关系汇总 泛化(Generalization)实现(Realization)关联(Association&#xff…

算法时间复杂度

参考视频&#xff1a;https://www.bilibili.com/video/BV14j411f7DJ 目录 1.常数阶O(1) 2.对数阶O(IogN) 3.线性阶O(n) 4.线性对数阶O(nlogN) 5.平方阶O(n^2) 6.立方阶O(n^3) 7.K次方阶O(n^k) 8.指数阶(2^n) 9.阶乘O(n!) 两层for循环 for (int i 1; i <…

Linux基本指令实现4及热键指令详解

目录 Linux热键补充&#xff1a; 1.bc指令&#xff1a; Tab键的智能补充&#xff1a; ctrlc键&#xff1a; uname指令&#xff1a; lscpu指令&#xff1a; lsmem指令&#xff1a; df -h指令&#xff1a; 关机指令&#xff1a; 扩展指令&#xff1a; Linux热键补充&#…