智能文档处理:解析文档场景下多模态大模型的应用与研究前沿

在这里插入图片描述

解析文档场景下多模态大模型的应用与研究前沿

  • 一、TextIn 文档解析技术
    • 1. 现有大模型文档解析问题
    • 2. 文档解析技术背景
    • 3. TextIn 文档解析技术架构
    • 4. 版面分析关键技术 Layout-engine
  • 二、TextIn 文本向量化技术
  • 三、TextIn.com Text Intelligence

一、TextIn 文档解析技术

在这里插入图片描述

  hello,大家好我是恒川,今天我来给大家安利一个非常好用的网站TextIn,它的第一个核心技术是这个文档解析,现存的文档解析存在一些问题,比如表格、无线表无法解析以及阅读顺序的解析错乱的问题,包括扫描版文档以及文档编码的问题等。下面我给大家举几个例子。

1. 现有大模型文档解析问题

在这里插入图片描述
  我们将ChatGPT里面输入了一个PDF,这个PDF显示精氨酸在40度的温度下,它的溶解度是31.9,但ChatGPT并没有将这个PDF进行准确的解析,所以他的回答是错误的。

  我们再举一个例子。
在这里插入图片描述
  在这个文档的致谢的过程中,我们来问他文中的致谢提到了哪四类感谢对象,实际上他的感谢对象也是错误的,那这个的原因都是在于本身这个文档的解析,阅读顺序错误导致的一些问题,那像这样的一个编码问题依然是存在这个大模型的,无论是训练还是应用的过程之中。

2. 文档解析技术背景

在这里插入图片描述
  在我们的日常生活中,那我们有什么样的一个诉求呢?在探索多模态大模型在不同应用领域的应用中,如文档智能分析、智能搜索、阅读顺序还原准确、支持论文和多种排版文档等。
  接下来我要通过具体案例来展示这些模型在实际应用中的效果和潜力。PDF word在扫描文件时,我们希望在训练和应用的部分可以将这个整体的一个阅读顺序进行还原,包括他的表格、段落、公式和标题相关的一些元素识别准确。以及识别的速度和多样的排版的支持,那我们来看一下在多模态大模型的预训练中,我们需要处理哪些文档?

文档示例
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  比如这个书籍,或像论文以及产品说明书。

文档解析Pipeline
在这里插入图片描述
  这是一整套的文档解析。分为三个部分,那第一个部分呢,就是将一个多页的文档进行了拆分,并且将其中的电子文档扫描到经过不同的解析引擎,最终形成的一个文档基础的一个特征。第二部分,要将基础文档表中的表格、眉页、目录、文字、图形等等,来做文档的一个绑定分析。以及跨越合并和它几点关系之间的处理,最终的目的是将一个多元异构的不同格式的文档输出成一个有顺序的文档(称之为大模型),那最后一部分就是文档的重建会输出成一个markdown,那简单来说就是他们将一个多种格式,多种版面的PDF最终输出成了一个大模型,能够理解为一个顺序的markdown形式。

  接下来给大家举些例子,就是它的技术难点在哪里?
在这里插入图片描述
  第一个部分是可以看到有元素的印章的遮盖和遮盖文字本身的一个呈现(如上图),那包括页面也有不同的形式以及双栏,三栏和跨页相关的内容。

在这里插入图片描述

  还有一些文档,它的阅读顺序是需要一个准确的排序的,比如像左边(如上图)的这张图,它的顺序先是上面的全栏,在三栏下的每一个是上下的顺序的阅读。那我们来看右边多栏和插入表格的影响,它的顺序是要先将上半部分的双栏进行一和二的阅读,再进行三和四无线表的阅读,最终五和六的双栏。

在这里插入图片描述

  在表格的部分,其实在有线表已经解决不错的情况下,在无线表格的一个解决,包括无线表中我们的三线表合并单元格的一个情况,那这个部分在论文或在报告中都是经常会出现的。
在这里插入图片描述

  也包括在公式的整体识别和表格内的这个公式的一个识别。

3. TextIn 文档解析技术架构

  那整体我们的技术架构是怎么样的?

在这里插入图片描述
  为了解决这些问题,将一个基于数据和基于测评的一个基建,在上方的算法层,是将一个文档的多页拆成单页。同时,将其中的每一个独立的元素进行文档解析,检测以及图像文字的识别。完成了元素的基础表中识别之后,会进行整个文档的一个解析,它包含这个文档类型的判断,包括表当中的一个整合以及整个的版面相关的一个还原,最终还原成了一个完整的阅读顺序。

4. 版面分析关键技术 Layout-engine

  其中的关键技术,我在这里展示两个部分,第一部分是将一个电子档和扫描档经过不同的物理和逻辑版面的分析,最终拿到所有的这个元素,比如有段落、有公式、有图像以及有相关的页眉、页脚、目录,然后再整合成一个可以被大模型顺利阅读的顺序,这一块内容(如下图)右边就是一个典型的一个输出,里面每个内容都有它的类型。

在这里插入图片描述

  那第二部分呢,其实是大家现在大模型训练中一个重要的部分,它是一个目录树的梳理,因为目录树是一个文档中它结构化的第一层,也是最重要的一层,他们设计了一个文档处理引擎来准确的区分它的子标题、子段落以及主标题和表格的标题。
的方向

  那我们可以看见这样技术的一个展示(如下图),像这样的一个双栏,它是可以比较准确从左边到右边的一个顺序输出。

在这里插入图片描述

  我们将这样的一个横栏,再加两双栏进行了一个准确的输出(如下图)。
在这里插入图片描述

  那第三部分我们可以看非对称的双栏,大概左边占三分之二,右边是占三分之一,而且有图有表,也是进行了一套左边的三分之二的顺序输出,然后进行右边的一个输出,可以看到表格是在这个下方的区域(如下图)。

在这里插入图片描述

  双栏和表格也是比较顺畅的进行了一个准确的输出(如下图)。

在这里插入图片描述
  也包括无线表格(如下图)以及单元格的合并(如下图)。

在这里插入图片描述
在这里插入图片描述

  最终的输出形式是在markdown形式之下,所以整个的大模型也是可以来进行一个训练和应用。

  那我们可以看到层级目录已经进行了准确的一个识别(如下图)。

在这里插入图片描述

在这里插入图片描述
  从这里我们可以看到(如上图),我在开头举的几个例子,ChatGPT-4在直接解析PDF回答的过程中是回答失败的。但我们将这个PDF转化成markdown的一个内容,并且以TextIn上传到这个ChatGPT-4后,它便回答的非常清楚,就31.9的这个溶解度。
  那第二个问题也准确将整个致谢做了一个回答(如下图)。
在这里插入图片描述

  第三部分就是将整个编码错误的PDF也进行了准确的识别和输出。
在这里插入图片描述

二、TextIn 文本向量化技术

在这里插入图片描述

  这是TextIn的第二个核心技术,它主要是文本向量化的工作,也是我们在文本应用的部分,这个地方他们做了一个TextIn acge_text_embedding的一个模型(如下图),这块就不详细讲了,如果大家感兴趣,可以在huggingface去看,里面有技术的介绍,以及如何直接引用这个库。

在这里插入图片描述

三、TextIn.com Text Intelligence

在这里插入图片描述

  合合信息目前也做了一个站点,TextIn是一个缩写,就是这个部分,欢迎访问 TextIn.com,加速多模态大模型研究与应用。
  大家也可以去免费的体验,如果大家有更多更高量的一个需求。我们可以扫下边的这个二维码,可以给到大家更多的这个版面分析相关的一个讨论,TextIn希望在大模型的训练应用的过程中,能够帮助到大家,将更高信息量、更高质量的一些文档相关信息可以用在我们的这个大模型的训练和应用之中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/628791.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

十二.吊打面试官系列-JVM优化-深入JVM内存模型

JVM内存模型 1.JVM的组成 整个JVM组成由 :运行时数据区 , 类加载子系统 , 执行引擎 , 本地方法库 几部分组成 上面是Java7的内存模型,Java8以后做了一些调整,把方法区变成了元空间,元空间不在…

Blender雕刻建模流程

1.构形 先构造一个大致相像的外形 可使用的方法包含 -多边形:表面细分,布尔 -曲线:曲线倒角 -融球(使用较少) -曲面(使用较少) 构形之后的准备 -应用缩放 -应用修改器 -曲线转网格 1.1…

【BOSS直聘爬取系统功能介绍】

完整代码关注公众号 : 爬取网站:BOSS直聘:https://www.zhipin.com/ 难点 1. boss直聘不论什么岗位都只会展示10页数据,就算在网页里加到了11,内容也会和10一样。 2.多次访问会有验证码需要登录,这部分需…

3SRB2516-ASEMI适配大功率充电桩3SRB2516

编辑:ll 3SRB2516-ASEMI适配大功率充电桩3SRB2516 型号:3SRB2516 品牌:ASEMI 封装:SGBJ-5 正向电流(Id):25A 反向耐压(VRRM):1600V 正向浪涌电流&…

【3dmax笔记】028:倒角的使用方法

一、倒角描述 在3dmax中创建倒角效果可以通过多种方法实现,以下是几种常见的方法: 使用倒角修改器。首先创建一个图形(如矩形和圆),然后对齐它们,将它们转化为可编辑样条线,并附加在一起,选择要倒角的边缘,然后使用倒角修改器来调整高度、轮廓等参数。使用倒角剖面修…

听劝!普通人千万别随意入门网络安全

一、什么是网络安全 网络安全是一种综合性的概念,涵盖了保护计算机系统、网络基础设施和数据免受未经授权的访问、攻击、损害或盗窃的一系列措施和技术。经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”…

校园防欺凌平台

校园霸凌事件很难被发现,发现者又可能迫于威胁而不敢告发,被霸凌者又因各种原因而选择忍耐,所以,如果能够在发生校园霸凌的时候,做出及时的预警,也许能够拯救挽回无数个家庭。本平台结合防欺凌设备&#xf…

【js刷题:数据结构链表之设计链表】

设计链表 一、题目二、题解 一、题目 二、题解 // 定义节点类,每个节点都有一个值和一个指向下一个节点的引用 class LinkNode{constructor(val,next){ // 构造函数,接收节点值和下一个节点的引用this.valval // 节点的值this.nextnext // 指…

查看Linux服务器的硬盘占用情况

查看Linux服务器的硬盘占用情况 一、查看各分区的使用情况和磁盘挂载1、查看磁盘分区使用和磁盘挂载2、结果解释(1)列名解释(2)各系统解释 二、查看一个目录及其所有子目录中文件的总占用大小1、查看指定目录的总大小2、列出目录下…

山东齐鲁文化名人颜廷利:汉语自媒体里面的真正文字智慧

在这个数字技术日新月异的时代,大数据和人工智能等技术的兴起已经深刻地改变了信息的传播方式。特别是随着自媒体的兴起,传统的物质形态的报刊杂志已迅速转变为无形的知识与智慧的流动,这种转变不仅改变了信息的传递手段,更释放出…

GIT基础02 多机器协作等命令

前言 首先我们知道git给我们提供了分支管理的功能 我们一般使用master分支作为线上环境,master分支一般是一个稳定的分支 我们通常是会创建一个其他分支进行开发,这样不会影响线上的机器运行 如果没有git提供这样的分支功能,就无法做到这一套了 指令学习 假设软件出现问题咋办…

SWAT模型高阶应用暨SWAT模型无资料地区建模、不确定分析及气候、土地利用变化对水资源与面源污染影响分析

原文链接:SWAT模型高阶应用暨SWAT模型无资料地区建模、不确定分析及气候、土地利用变化对水资源与面源污染影响分析https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247604401&idx4&snd2d39846dce07bee765c820de1cf92f3&chksmfa821956cdf5904…

长期的图片活码怎么做?在线制作图片活码的方法

现在通过扫描二维码来查看内容的方式,在日常生活中越来越常见,其中扫码看图就是很常用的一种方式。在很多的公共场所或者宣传单页上,扫码后即可查看相关的图片信息,从而获取我们需要的内容,那么在电脑上将图片生成二维…

Pencils Protocol Season 2 收官在即,Season 3 携系列重磅权益来袭

此前Scroll生态LaunchPad &聚合收益平台Pencils Protocol(原Penpad),推出了首个资产即其生态代币PDD的Launch,Season 2活动主要是用户通过质押ETH代币、组件战队等方式,来获得Point奖励,并以该Point为依…

高低温试验箱工厂分享:设备如何保养更节约成本

高低温试验箱在现代产业中起到重要的作用,能够帮助企业进行产品质量和性能的测试,而且这种设备也是一种常见的用于模拟各种极端温度环境的设备。所以这种在特殊环境下使用的设备,维护和保养是关键,正确的保养和维护可以延长设备的…

Spring初学入门(跟学笔记)

一、Spring概述 Spring是一款主流的Java EE轻量级开源框架。 Spring的核心模块:IoC(控制反转,指把创建对象过程交给Spring管理 )、AOP(面向切面编程,在不修改源代码的基础上增强代码功能) 二、…

LeetCode刷题笔记第1800题:最大升序子数组和

LeetCode刷题笔记第1800题:最大升序子数组和 题目: 想法: 遍历数组的同时记录当前最大升序子数组和,最终返回最大升序子数组和 class Solution:def maxAscendingSum(self, nums: List[int]) -> int:result 0i 0n len(num…

istio资源字段参考文档

virtual service: Istio / Virtual ServiceConfiguration affecting label/content routing, sni routing, etc.https://istio.io/latest/docs/reference/config/networking/virtual-service/

网站开发初学者指南:2024年最新解读

在信息交流迅速的时代,网页承载着大量的信息,无论你知道还是不知道,所以你知道什么是网站开发吗?学习网站开发需要什么基本技能?本文将从网站开发阶段、网站开发技能、网站开发类型等角度进行分析,帮助您更…

Vue.js 详细介绍

文章目录 一、Vue.js 简介1.1 什么是 Vue.js?1.2 Vue.js 的特点 二、快速上手 Vue.js2.1 安装 Vue.js使用 CDN使用 npm 或 yarn 2.2 创建一个 Vue 实例2.3 Vue.js 项目结构 三、Vue.js 核心概念3.1 数据绑定3.2 指令(Directives)3.3 组件&…