CCIG学术论坛|文档解析技术加速大模型训练与应用

目录

  • 前言
  • 一、大模型训练和应用过程的关键环节面临的问题
    • 1、数据
    • 2、算力
    • 3、语料
    • 4、训练时间
    • 5、模型规模与复杂度
    • 6、部署和推理效率
    • 7、安全和隐私
  • 二、高精准、高效率的文档解析
  • 三、文档解析技术难点
  • 四、TextIn文档解析
    • 1、算法Pipeline
    • 2、文档图像预处理算法效果
    • 3、版面分析算法框架
    • 4、版面分析算法—物理版面分析与逻辑版面分析
    • 5、版面分析算法 – 文档布局分析
    • 6、版面分析算法 – 最近研究方向
    • 7、逻辑版面分析算法
    • 8、TextIn文档解析效果
  • 最后

CCIG学术论坛|文档解析技术加速大模型训练与应用

前言

大模型技术近年来已经成为推动人工智能技术革新的一个重要基础性技术,并对不同的科学研究和产业应用领域产生广泛的影响。中国图象图形(CCIG)学术论坛旨在推动计算机视觉、自然语言处理、基础科学研究及行业应用的跨界融合与技术发展,围绕大模型的最新技术进展、前沿应用及未来发展趋势进行深入探讨与交流。

2024 年5月24日-26日,在陕西省西安市成功召开了中国图象图形大会。会中,合合信息智能创新事业部研发总监常扬老师在会中着重介绍了文档解析过程中遇到的技术难点,比如文档元素识别(表格、段落、公式、标题)、上百页PDF转化速度问题、版面正确解析(双栏、三栏、文表混合)、阅读顺序还原以避免混乱语序等问题,为此合合信息研发出具备多文档元素识别、版面分析、高性能的TextIn文档解析技术,让我们一起来了解一下吧!

一、大模型训练和应用过程的关键环节面临的问题

大模型的训练和应用过程中需要面对诸多问题,比如数据、算力、语料、训练时间、模型规模和复杂度、部署合推理效率以及安全隐私等方面的问题,需要综合考虑这些因素并采取相应的措施来解决这些问题。

1、数据

获取大规模数据集可能是一项挑战,尤其是对于特定领域或任务的数据。这可能需要从多个来源收集数据,并确保数据的多样性和代表性。大规模数据往往包含噪音、错误或不一致的信息,因此需要进行数据清洗和预处理,以保证数据质量。存储大规模数据可能需要大量的存储空间和有效的数据管理系统来存储和访问数据。

2、算力

训练大型模型需要大量的计算资源,包括高性能的CPU、GPU或者TPU等。这些资源可能会产生高昂的成本,特别是在云服务上租用。为了加快训练速度,通常需要实施并行计算和分布式训练,以有效利用多个计算节点的计算能力。

3、语料

大规模模型的训练通常需要大量标注数据,这可能需要大量的人力资源和时间成本。同时,确保标注数据的质量和准确性也是一个挑战。语料中的样本可能不够全面或不够平衡,导致模型在某些方面缺乏泛化能力。因此,需要考虑如何处理数据样本偏差,以提高模型的性能。大模型需要大量高质量的数据来进行训练,而数据质量不佳或数量不足可能导致模型性能下降。此外,数据的偏斜也可能影响模型的泛化能力。

常扬老师在会中提到高质量的语料预计在2026年会被耗尽,然而现在的语料又遇到了下面的一些问题:

  • 训练Token耗尽。一旦耗尽了可用的Token或资源配额,你将无法继续进行训练,导致中断或延迟。
  • 训练语料质量要求高。大型语言模型对训练语料的质量要求很高。如果训练数据质量不佳,例如包含错误、不一致或偏差的数据,可能会导致模型学习到不准确或有偏见的知识。然而互联网的语料即将用完,所以希望大模型可以更加智能就需要更有高质量的语料
  • LLM文档问答应用中文档解析不精准。在使用大型语言模型进行文档问答应用时,可能会遇到文档解析不精准的问题,无法正确理解或提取文档中的信息,导致回答不准确或不完整。像chatpdf、chatdoc这种文档类的问答实际上是大模型最早落地的应用,但是目前也发现,这些应用在进行文档解析时不够准确,存在比较多的问题 。

4、训练时间

大模型的训练通常需要较长的时间,从几天到数周甚至数月不等,这增加了开发周期和资源成本。

5、模型规模与复杂度

随着模型规模和复杂度的增加,模型的训练和部署变得更加困难。例如,大模型可能需要更复杂的优化算法和技术来进行训练,并且可能需要更多的内存来存储模型参数。

6、部署和推理效率

部署和推理效率:部署大模型可能面临推理效率低下的问题,特别是在资源有限的设备上,例如移动设备或边缘设备。因此,需要针对部署环境进行优化和压缩模型。

7、安全和隐私

大模型可能会存储大量敏感信息,因此需要采取一些安全和隐私保护措施来保护模型和数据的安全性。

二、高精准、高效率的文档解析

在大模型训练场景中,我们在使用完互联网和数据集的语料之后,会关注人类知识汇集的书籍、论文这些高质量的数据。这些数据无论是对它文档元素的识别,还是图表、公式、标题、版面的正确解析,都需要足够快的转化速度,同时又需要保证阅读顺序正确, 无论它是怎样的排版,都要以正确的顺序输送到大模型,然而此时就需要高精准、高效率的文档解析能力。可以从上面得知我们的诉求:

  • 文档元素识别,表格、段落、公式、标题
  • 版面正确解析,双栏、三栏、文表混合
  • 转化速度快,上百页PDF
  • 阅读顺序还原,避免混乱语序

常杨老师针对上面的诉求,列举了几个例子。比如这里上传一个pdf文档,然后询问ChatGPT4.0一个问题:根据文件内容,在本书的致谢环节,主要提到了哪4类感谢对象,可以看到GPT回答的跟PDF内容不一致,答案定位错误。
在这里插入图片描述

再上传一个pdf文件,询问ChatGPT4.0:根据所给文件,精氨酸在40度的水中,溶解度是多少,由下图可以看出,GPT回答的为100g/L,pdf文件中显示的是31.9,可见是对无线表的解析错误。
在这里插入图片描述

接下来继续上传一个pdf文档,继续向GPT提问:文中提到的OSA是什么意思,还是回答错误,其实就是字符编码解析的问题。
在这里插入图片描述

由上可见,在大模型应用的场景是非常需要上面提到的四大核心诉求的文档解析技术,所以希望能够研究出一个具备多文档元素解析、版面分析、高性能文档解析技术的产品是非常重要的。

三、文档解析技术难点

文档解析是一个很复杂的程序,会遇到很多问题,比如:

  1. 多样化的文档格式:文档可能以各种不同的格式存在,如PDF、Word、HTML、Markdown等,每种格式都有其特定的结构和语法,因此需要开发针对不同格式的解析引擎。
  2. 复杂的结构和布局:文档中的内容可能具有复杂的结构和布局,包括标题、段落、列表、表格、图像等,解析器需要能够正确地识别和提取这些结构化信息。
  3. 文本识别和光学字符识别(OCR):对于扫描或图像中的文档,需要进行文本识别或OCR来提取其中的文字内容,但这可能受到文档质量、字体、倾斜、噪声等因素的影响,导致识别准确率下降。
  4. 语言和编码的多样性:文档可能使用不同的自然语言和字符编码,需要解析器具备多语言支持和字符编码转换能力,以确保正确地解析和处理各种语言的文本。
  5. 文本语义理解:除了简单地提取文本内容外,还需要进行语义理解,理解文本中的上下文、语义关系和含义,这对于一些复杂的文档解析任务(如自然语言理解、信息抽取等)尤为重要。
  6. 性能和效率:对于大规模文档的解析,需要考虑解析器的性能和效率,尤其是在处理大量文档或大型文档时,需要确保解析速度和内存占用的合理性。

解决这些难点需要结合机器学习、自然语言处理、计算机视觉等技术,并不断优化和改进解析算法和模型。常杨老师列举了一些在文档解析时的技术难点。比如下图里左侧的会有印章遮盖、页眉会有不同的表现形式、复杂的版式(包括双栏、三栏、甚至跨页)。
在这里插入图片描述

多栏和多栏插入表格都会影响阅读顺序,下图中的序号是正确的阅读顺序,如果我们将错误的阅读顺序输送到大模型之中,那么训练质量就会大大降低。下图中右侧上面是多栏,中间是无线表,下面又是多栏,可见文档元素结构十分复杂,在文档解析时,这些复杂的结构增加了文档解析的技术难点。具体如下图所示:
在这里插入图片描述

无线表的识别又包括了合并单元格识别、单行公式与行内公式识别、表格里的公式识别,如下图所示:
在这里插入图片描述
在这里插入图片描述

四、TextIn文档解析

基于上述文档解析的核心诉求以及技术难点,合合信息突破技术障碍,研发出能够处理无线表、跨页表格、页眉、页脚、公式、图像、印章、流程图、目录树等文档内容的产品—TextIn文档解析,对于电子档和扫描档会先进行图片预处理和文字识别,随后将电子档、扫描档的电子信息进行物理的版面分析和逻辑版面分析。

1、算法Pipeline

在使用TextIn进行文档解析时,算法会进行三个部分的处理。

(1)将各种版式类型的电子档和扫描档先进行多页的拆分,然后我们会对其进行不同的判断。电子档进行电子档解析,而扫描档会进行图像的质量提升以及通用文档的识别引擎,最终整合为通用文档的文字信息,其实也就是比较熟知OCR所要做的内容。

(2)对通用文档文字信息进行物理性分析,比如对它的某个段落、表格、页眉页脚元素的分析 也会会对其进行逻辑分析,比如目录数分析,最终会整合成通用文档的层级信息。

(3)会根据最终我们应用的需要,转换成不同的形式。比如大模型应用需要将结果转换成markdown,再次编辑的需要转成word以及一些api/json的需要。

整个流水线如下图所示:
在这里插入图片描述

2、文档图像预处理算法效果

下图中左侧是一张有手印、有背景的弯曲的图,算法处理时会首先对其文档区域进行提取,然后手指去除、去摩尔纹、形变矫正、图像增强整个过程都是来自动化进行。
在这里插入图片描述

3、版面分析算法框架

文档解析之后提取文字属于OCR的过程,这里着重讲解一下版面分析是如何处理的,拿到通用文档文字信息之后会进行物理版面分析、逻辑版面分析。物理的版面分析会对页眉、页角、表格、图像、文字进行处理,逻辑版面分析能够分析出整个目录结构,
在这里插入图片描述

4、版面分析算法—物理版面分析与逻辑版面分析

物理版面分析:侧重于视觉特征。主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等。

物理版面分析 – 文档布局:选用目标检测,任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式。

逻辑版面分析:侧重于语义特征。主要任务是把不同的文字块根据语义建模,比如通过语义的层次关系形成一个树状结构。

检测模型的发展:FasterRCNN/YOLO->(transformer)DETR/DINO在产业落地时,综合考虑任务难度和推理速度,我们选用:单阶段的检测模型,更多关注数据和模型小规模调优
在这里插入图片描述

5、版面分析算法 – 文档布局分析

通过检测获得各个布局要素之后,我们可以建立文档的布局关系。例如,一个双栏的节(section)通常包括两个栏(column)。
在这里插入图片描述
下表为各层级的概念。

层级概念
page层级页 (page)
section层级节(section)、栏(column)
paragraph层级段落(paragraph)、列表(list)、表格(table)、图片(image)
run层级切片(run)

6、版面分析算法 – 最近研究方向

在研究版面分析的过程中发现,真实世界的文档有着极为丰富的布局类型,没法单纯地用单栏,双栏、三栏等类别去定义。例如左边列举的,目录,报纸,试卷等。所以判别式的技术路线,可以处理好大部分的文档,还无法真正对真实世界中各式各样的文档进行良好的版面分析。近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,都会给版面分析带来新的研究思路。

7、逻辑版面分析算法

逻辑版面分析的主要逻辑是预测每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题,如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点。其中算法核心为:通过Transformer架构,预测旁系类型与父子类型

8、TextIn文档解析效果

下图为TextIn文档解析效果,左侧是一个上面是单栏、下面为双栏的pdf文档,右侧为TextIn解析之后的文档效果。

在这里插入图片描述

下图左侧为一个不规则的一个双栏,左边大概占据2/3,右边大概占据1/3,并且右边是表格。可以看到分析结果十分明显,并且分析结果表格里的内容跟原文章无差异。

在这里插入图片描述

下图左侧为上面双栏、中间两个无线表、下面两个双栏,如果在大模型训练中,我们只需要获取表格中的数据,是完全可以精准获取的。
在这里插入图片描述

在上文中我们直接让ChatGPT4.0针对上传的pdf文件回答问题,GPT是回答错误的,那么这里将pdf进行文档分析之后txt形式,然后上传让GPT回答,可以看到此时,GPT回答的答案是正确的,跟原始的pdf文件里的数据一模一样。
在这里插入图片描述

接下来对其他两次问答也做一个比较,可见在使用TextIn文档解析之后,GPT回答的准确性提高到了100%.
在这里插入图片描述
在这里插入图片描述

最后

文档解析技术在大型模型应用中扮演着重要角色,它有助于模型更全面地理解用户输入、提取关键信息和结构化数据,使模型更加深入地分析输入内容,从而提高应用的准确性。此外,文档解析技术还能优化模型的训练和应用性能,通过有效地处理文档信息,加快模型训练速度,提高模型的泛化能力。这种技术应用为大型模型的快速发展和广泛应用提供了有力支持,使其能够更好地适应各种复杂任务和应用场景,为用户提供更高效、更智能的服务。

TextIn文档解析由合合信息旗下开发的一款智能文字识别产品,旨在为开发者提供更多可能性,能够处理多栏、无线表、跨页表格、页眉、页脚、公式、图像、印章、流程图等复杂内容,充分赋能大语言模型的文档问答和数据清洗。合合信息深耕智能文字识别以及商业大数据领域,结合模式识别、图像处理、神经网络、深度学习、NLP打造智能文字识别服务平台,深受全球用户的喜爱。未来期待可以看到合合信息更多的创新和应用,用技术方案服务更多的人群。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/670927.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

海南省三支一扶报名照上传失败?别忘了这

一、海南三支一扶报名照上传失败的2个原因 1.未按要求使用浏览器:请使用IE浏览器(IE8以上版本)、Chrome(谷歌浏览器)或 Firefox(火狐)浏览器 来使用本系统,360浏览器等其他浏览器请使用极速模式…

python-最接近target的值

【问题描述】:给定一个数组,在数组中找到两个数,使它们的和最接近目标值的值但不超过目标值,然后返回它们的和。 【问题示例】:输入target15,array[1,3,5,11,7],输出14,31114。 完整代码如下: …

使用 Navicat 工具查看 SQLite 数据库中的 PNG 图片

Navicat 是一款功能强大的数据库管理工具,支持多种数据库类型,包括 SQLite。它提供了一个直观的用户界面,可以轻松查看、编辑和管理数据库数据。 SQLite 是一种轻量级的嵌入式数据库,常用于移动应用程序和小型项目。它支持存储各…

Pytest框架中的Setup和Teardown功能

在 pytest 测试框架中,setup 和 teardown是用于在每个测试函数之前和之后执行设置和清理的动作,而pytest 实际上并没有内置的 setup 和 teardown 函数,而是使用了一些装饰器或钩子函数来实现类似的功能。 学习目录 钩子函数(Hook…

JavaWeb笔记整理+图解——Listener监听器

欢迎大家来到这一篇章——Listener监听器 监听器和过滤器都是JavaWeb服务器三大组件(Servlet、监听器、过滤器)之一,他们对于Web开发起到了不可缺少的作用。 ps:想要补充Java知识的同学们可以移步我已经完结的JavaSE笔记&#x…

CTF本地靶场搭建——基于阿里云ACR实现动态flag题型的创建

接上文,这篇主要是结合阿里云ACR来实现动态flag题型的创建。 这里顺便也介绍一下阿里云的ACR服务。 阿里云容器镜像服务(简称 ACR)是面向容器镜像、Helm Chart 等符合 OCI 标准的云原生制品安全托管及高效分发平台。 ACR 支持全球同步加速、…

WPF Binding对象、数据校验、数据转换

在WinForm中,我们要想对控件赋值,需要在后台代码中拿到控件对象进行操作,这种赋值形式,从根本上是无法实现界面与逻辑分离的。 在WPF中,微软引入了Binding对象,通过Binding,我们可以直接将控件与…

MySQL 导出导入的101个坑

最近接到一个业务自行运维的MySQL库迁移至标准化环境的需求,库不大,迁移方式也很简单,由开发用myqldump导出数据、DBA导入,但迁移过程坎坷十足,记录一下遇到的各项报错及后续迁移注意事项。 一、 概要 空间问题源与目…

使用最小花费爬楼梯 | 动态规划

1.使用最小花费爬楼梯 题目连接:746. 使用最小花费爬楼梯 给你一个整数数组 cost ,其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用,即可选择向上爬一个或者两个台阶。 你可以选择从下标为 0 或下标为 1 的台阶开…

数据结构---时间复杂度与空间复杂度

文章目录 1. 知识背景2. 什么是时间复杂度?3. 空间复杂度4 .大O渐进表示法:对于一些算法的时间复杂度存在最好,最坏,平均的情况: 5. 常见的时间复杂度举例总结:6. 空间复杂度的举例与总结:总结&…

【HarmonyOS】List组件多层对象嵌套ForEach渲染更新的处理

【HarmonyOS】List组件多层对象嵌套ForEach渲染更新的处理 问题背景: 在鸿蒙中UI更新渲染的机制,与传统的Android IOS应用开发相比。开发会简单许多,开发效率提升显著。 一般传统应用开发的流程处理分为三步:1.画UI,…

三丰云评测:免费虚拟主机和免费云服务器体验

今天我来为大家分享一下我的三丰云评测体验。三丰云是一家提供免费虚拟主机和免费云服务器的服务商,为了方便大家了解他们的服务,我特地注册了他们的免费虚拟主机和免费云服务器进行试用。在实际体验中,我发现三丰云的服务表现非常出色。首先…

攻防世界---web---Web_php_unserialize

1、题目描述 2、 3、分析代码 class Demo { private $file fl4g.php; }:定义了一个名为Demo的类,该类有一个私有属性$file,默认值为fl4g.php。 $a serialize(new Demo);:创建了一个Demo类的实例,并对其进行序列化&a…

C++设计模式-状态模式

运行在VS2022,x86,Debug下。 28. 状态模式 状态模式让一个对象的行为随着内部状态的改变而改变,而该对象也像换了类一样。应用:如在游戏开发中,游戏有不同场景,如主菜单、开始、战斗等。可以使用状态模式&…

Debian系统磁盘挂载

服务器推荐:雨云 优惠码:zsj 用优惠码注册账户并绑定微信后可获取首月5折优惠券; 后续新购主机也可在积分商城中换取新购优惠券; 公测阶段的超大带宽服务器,由于是国内主机因此需要备案域名。 公测阶段价格尚未确定&am…

【Modelground】个人AI产品MVP迭代平台(2)——网站从0-1部署教程

文章目录 1.选购一台云服务器2. 购买域名3. 通过nginx部署静态网站4. 通过gitee在云服务器拉取代码5. ICP备案总结 1.选购一台云服务器 目前阿里云在促销,一台2核2GB内存3Mbps宽带的云服务器,一年只需要99元,学生更便宜,我认为这…

没有知网资源如何快速下载知网论文

今天有位同学求助一篇知网论文,“球磨-点击化学反应:无溶剂绿色反应方式”,其实下载知网论文是一件非常简单的事情,下面小编就把如何在家轻松查找下载知网论文的方法给大家演示一遍。 一、首先你需要获取知网使用权限&#xff0c…

【R语言入门】 在Anaconda Navigator平台使用R语言编程

R语言入门 - 在Anaconda Navigator平台使用R语言编程 R Essentials - Using R Programming Language on Anaconda Navigator Platform By JacksonML 02/06/2024 1. 安装Anaconda Navigator 为了持续研究数据科学,笔者一开始就在电脑上安装了Jupyter Notebook&am…

ad18学习笔记21:焊盘设置Paste Mask Expansion(锡膏层延伸)

在pcb上放置焊盘的时候,可以对焊盘进行设置,可以用默认的规则,可以用自定义的规则,网上很少看到自定义的规则怎么用。 参考了官方的说明文档,我只是稍微补充了一下 paste mask与solder mask有哪些区别_paste mask与s…

【MySQL数据库】索引与事务

🔥个人主页: 中草药 🔥专栏:【MySQL】探秘:数据库世界的瑞士军刀 目录 🗳️一.索引 📮1.工作原理 📬2.类型 📭3.作用 📪4.优缺点 📫5.使用…