合合信息:TextIn文档解析技术与高精度文本向量化模型再加速

文章目录

  • 前言
  • 现有大模型文档解析问题
    • 表格无法解析
    • 无法按照阅读顺序解析
    • 文档编码错误
  • 诉求
  • 文档解析技术
    • 技术难点
    • 技术架构
    • 关键技术
    • 回根溯源
  • 文本向量化模型
  • 结语

前言

随着人工智能技术的持续演进,大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通常需要庞大的知识库来支持其生成和理解自然语言的能力。文档解析技术可以帮助从各种来源(如学术论文、技术文档、新闻报道等)中提取和整合信息,构建出全面且准确的知识库。这些知识库是模型进行语言理解和生成的基础。

那么什么是文档解析技术呢?文档解析技术是指对文档进行深入分解、分析和理解的过程,目的是从中提取和整合有用的信息。这个过程通常涉及对文档的标题、段落、段落关系以及文档中的其他关键元素进行详细的分析。通过文档解析,我们可以更好地理解文档的结构、内容和主题,从而更有效地利用这些信息。

现有大模型文档解析问题

既然文档解析这么重要,那他的发展应该引起大家足够的重视,我们先来看一下目前市场上的现有大模型在文档解析领域都出现了哪些问题呢?

表格无法解析

在这里插入图片描述

如上图所示,我们将一篇文档输入给ChatGPT4,并让它根据文件来回答一下“精氨酸在40度的水中,溶解度是多少”。右图明确指出该答案是“31.9”,而ChatGPT4却给出了错误答案,这就意味着ChatGPT4并没有对提供的文档进行准确地解析。

无法按照阅读顺序解析

无法按照阅读顺序解析通常指的是在文档解析或内容呈现过程中,系统无法按照人类阅读的自然顺序(如从左到右、从上到下)来正确解析或展示文档内容。来看个例子

在这里插入图片描述

我们依旧给ChatGPT4提供了一篇文章,并让它根据文档内容回答一下本书致谢环节提到的致谢对象,它给出的结果依旧不理想。

文档编码错误

如下图所示,ChatGPT4在解析文档的过程中出现了文档编码错误,这表明在大模型训练或者应用过程中仍然存在文档编码问题。

在这里插入图片描述

诉求

当然出现以上问题都是我们所不能忍受的,毕竟我们不仅仅需要大模型帮我们提高工作的效率,更重要的是我们需要让他对准确度负责,因为准确性是使用他的前提。如果连准确度都不能做保证的话,那一切都将没有任何意义。

在这里插入图片描述

我认为我们对高效获取高质量数据的要求是希望在大模型训练和应用的部分,可以将PDF、Word、扫描件的阅读顺序还原准确、识别速度快、支持论文等多种排版文档、元素识别准确,尤其是表格、段落、公式、标题等多个方面。

说到这儿,我就不得不提一下合合信息推出的TextIn 平台了,如下图所示,TextIn不仅包含文档解析技术,还包括文本向量化模型技术。接下来阿Q将对他们依次进行介绍。

在这里插入图片描述

文档解析技术

在了解TextIn文档解析技术之前我们先来说一下他的大模型在训练和应用过程中都对哪些文档进行了分析吧!据我所知,他的大模型训练所使用的文档种类比较丰富,比如:合同、书籍、论文、产品说明书、公文函、财报等。

技术难点

要想将以上多种文档进行准确无误的识别并且解析,在大模型的训练和应用过程中需要克服和解决各种各样的技术难点:

  • 版面检测:元素遮盖重叠、元素本身有多样性、复杂版式(双栏、跨页、三栏);
  • 阅读顺序还原困难:多栏的影响、多栏和插入表格的影响;
  • 表格还原:无线表格识别、合并单元格识别;
  • 公式识别:单行公式与行内公式、表格内公式;

技术架构

为了克服以上提到的种种技术难点,合合信息设计出了以下TextIn文档解析技术架构。

在这里插入图片描述
该技术架构底层是基于测评工具链和数据工具链的基建层,算法层分为文档解析引擎、检测引擎和图像识别引擎,算法层主要用来完成一个文档将多页拆分成单页,同时将其中的每一个元素进行检测和图像识别。
至于应用层的话,可以分为以下三步走:

  • 第一步:将多页文档进行拆分,并且将其中的电子档和扫描档经过不同的解析引擎进行解析,并最终形成了文档表征的基础特征。
  • 第二步:将基础的文档的表征,比如表格、页眉、页脚、目录、文字、图形等做版面分析、跨页合并、图层分离、处理多节点关系,最终的目的是将一个多元的不同格式的文档输出为大模型可以理解的顺序的文档
  • 第三步:文档的重建,输出成一个markdown文件。

在这里插入图片描述

接入层的话为应用的最终形态,用于对外提供API、SDK、私有化镜像以及web端的产品。

关键技术

Layout-engine版面分析框架:将电子档和扫描档经过不同的物理和逻辑版面分析,拿到文档中所有的元素:段落、公式、目录、页眉、页脚等,在整合成可以被大模型顺利阅读的有顺序性的内容。

Catelog-engine文档树提取技术

  1. 通过输入整份文档的段落内容,以序列化形式传入模型。
  2. 文档树引擎提取当前段落的embedding值,预测每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题等。如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点。
  3. 最后基于每个段落的情况,构造该文档的文档树,并按 JSON 结构输出。

在这里插入图片描述

回根溯源

有了以上技术的加持之后,我们再来对ChatGPT4来进行下测验,此时我们不再上传PDF格式的文件,而是将被TextIn技术处理后得到的markdown文件整理成txt文件进行上传,通过下图我们可以看出ChatGPT4已经可以完全回答正确了。

在这里插入图片描述

至于其他两个问题,咱们直接上图,不做太多解释,就是这么自信。

在这里插入图片描述

在这里插入图片描述

文本向量化模型

近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在行业中产生应用价值。

在这里插入图片描述

结语

合合信息是一家深耕人工智能与大数据领域的科技企业,凭借独特的智能文字识别与商业大数据核心技术,为全球的个人用户(C端)和各行各业的企业客户(B端)提供前沿的数字化、智能化解决方案。

TextIn是合合信息推出的智能文档处理产品,旨在为全球用户提供智能图像处理、文字表格识别、文档内容提取产品。希望所有对技术充满热情的朋友们,前往TextIn的官方网站来亲身体验图像处理的智能化、文字与表格识别的精准度,以及文档内容的高效提取。更多精彩功能等待您的探索,快来开启您的智能化体验之旅吧!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/627766.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

NSS【web】刷题

[SWPUCTF 2021 新生赛]jicao 类型&#xff1a;PHP、代码审计、RCE 主要知识点&#xff1a;json_decode()函数 json_decode()&#xff1a;对JSON字符串解码&#xff0c;转换为php变量 用法&#xff1a; <?php $json {"ctf":"web","question"…

电子公章怎么弄到合同上

将电子公章添加到合同上的步骤大致如下&#xff1a; 选择一家合法的数字证书服务机构&#xff0c;申请数字证书。数字证书是用来证明数字签名和电子公章的合法性和有效性的。在申请数字证书时&#xff0c;需要提供相关的身份证明材料&#xff0c;经过审核后&#xff0c;就可以…

Spring的监听器使用(实用,直接拿去修改可用)

一&#xff0c;前言 这里我们以ApplicationListener为例&#xff0c;简单说明一下监听器如何使用。 本人基本只输出实用&#xff0c;即用的代码&#xff0c;希望能帮助到各位&#xff0c;如果想研究底层逻辑&#xff0c;大家可自行根据代码去类源码查看。 监听器的使用主要分…

机器视觉中的打光技巧、选择光源的流程

目录 基本原则选择照明的考虑因素明场照明和暗场照明全明场照明&#xff08;漫射照明&#xff09;技术 特定光源1. 环形光源2. 条形光源3. 同轴光源3.1 何时使用同轴照明&#xff1f;3.2 何时不使用同轴照明&#xff1f; 4. 背光源5. 远心照明6. 点光源7. 穹顶光源8. 线光源9. …

卷积神经网络CNN的运行过程、常见术语与问题

目录 一、CNN运行过程 1、卷积&#xff08;Convolution&#xff09; 2、激活函数&#xff08;activation function&#xff09; 3、池化&#xff08;pooling&#xff09; 3.1 池化操作 3.2 池化过程 3.3 池化后结果 4、Flatten 5、全连接层 Flatten层的操作 全连接层…

OKR到底该如何使用?

说到OKR,很多人会说之前都是用KPI&#xff0c;我们经常听到身边的人说&#xff1a;我这个月的KPI还没完成~这项列入你的KPI~KPI没有完成就没有奖金......那么OKR和KPI到底有什么区别呢&#xff1f;首先我们来了解下两者的概念和功能到底是什么&#xff1f; 什么是KPI? KPI是…

sqlserver账号没有“备份权限”,怎么将数据导出

前几天在工作中遇到一个问题&#xff0c;客户的数据在远程服务器上&#xff0c;客户给我分配的账号没有导出权限&#xff0c;但我想将数据从远程服务器上导到我的本地电脑上做开发。 常规的方法有以下三种&#xff1a; 1&#xff1a;任务->备份 这种方式需要有相关权限&a…

四信5G全连接工厂一站式解决方案上线,打造可持续发展工业未来

政策背景 2022年9月&#xff0c;为进一步加快“5G工业互联网”新技术新场景新模式向工业生产各领域各环节深度拓展&#xff0c;工信部印发《5G全连接工厂建设指南》&#xff0c;明确提出&#xff0c;推动万家企业开展5G全连接工厂建设&#xff0c;建成1000个分类分级、特色鲜明…

buff禁售武器箱和胶囊的原因,及游戏搬砖人该如何应对

大家好&#xff0c;我是童话&#xff0c;相信大家都看到这个消息了&#xff0c;buff平台在14号中午11点左右&#xff0c;已经全面禁止了武器箱和胶囊&#xff0c;纪念包等的上架和售卖。在饰品市场直接搜索武器箱或者胶囊&#xff0c;是完全搜索不出来任何东西的哈。 面对这一消…

阻抗控制理解之逆动态控制律

具有六个自由度的二阶机械系统&#xff0c;其特征是给定的质量、阻尼和刚度&#xff0c;称为机械阻抗。 用于运动控制的加速度解决方法&#xff0c;它旨在通过逆动力学控制律在加速度水平上解耦和线性化非线性机器人动力学。在与环境存在交互作用的情况下&#xff0c;控制律 考…

人武部三维电子沙盘系统

深圳易图讯科技有限公司(www.3dgis.top)系统采用自主可控高性能可视化三维GIS引擎&#xff0c;支持多用户客户端通过网络请求访问服务器地图和JFQ专题数据&#xff0c;提供地理信息数据、专题数据的并发访问和高效调度加载&#xff0c;依托前端设备采集的重点图像、视频等信息资…

数字功放-改善液晶显示屏音频性能,重塑音频体验

随着液晶电视、液晶显示器以及等离子电视屏幕的尺寸不断增大&#xff0c;音频性能要求相应提高&#xff1b;数字功放芯片作为音频解决方案&#xff1b;不仅为音频设备带来更高的效率和更低的功耗&#xff0c;同时在显示屏上进一步提高了平板显示器的音质&#xff0c;使之具有了…

机器学习 - 集成学习算法介绍

集成学习的定义 集成学习&#xff08;Ensemble Learning&#xff09;是一种通过组合多个模型来提升预测性能的技术。简单来说&#xff0c;它就像是在开会时听取多人的意见&#xff0c;而不是只依赖一个人的观点&#xff0c;从而做出更准确的决策。 提示&#xff1a;若无特别标…

C++auto关键字、范围for循环

一、auto关键字 1.1auto简介 在早期C/C中auto的含义是&#xff1a;使用auto修饰的变量&#xff0c;是具有自动存储器的局部变量。 C11中&#xff0c;标准委员会赋予了auto全新的含义即&#xff1a;auto不再是一个存储类型指示符&#xff0c;而是作为一个新的类型指示符来指示编…

用Swagger(工具Knife4j )代替postman来进行构建、测试和调试 API

什么是Swagger&#xff1f; Swagger 是一个用于设计、构建和文档化 RESTful Web 服务的开源框架。它允许开发者设计 API&#xff0c;然后生成对应的 API 文档&#xff0c;提供给团队成员或者第三方开发者查阅。Swagger 的核心是 OpenAPI 规范&#xff08;之前称为 Swagger 规范…

SpringBoot:缓存

点击查看SpringBoot缓存demo&#xff1a;LearnSpringBoot09Cache-Redis 技术摘要 注解版的 mybatisCacheConfigCacheableCachePut&#xff1a;既调用方法&#xff0c;又更新缓存数据&#xff1b;同步更新缓存CacheEvict&#xff1a;缓存清除Caching&#xff1a;定义复杂的缓存…

达梦(DM) SQL数据及字符串操作

达梦DM SQL数据及字符串操作 数据操作字符串操作 这里继续讲解DM数据库的操作&#xff0c;主要涉及插入、更新、删除操作。 数据操作 插入数据&#xff0c;不指定具体列的话就需要插入除自增列外的其他列&#xff0c;当然自增列也可以直接指定插入 INSERT INTO SYS_USER VALU…

5---Linux小程序“进度条”及缓冲区的概念(逻辑梳理,轻松理解)

一、缓冲区的解析&#xff1a; 1.1论点的引入&#xff1a; 在Linux中有一个接口sleep&#xff0c;可以使得C/C程序休眠一段指定的时间。他需要依赖的头文件是<unistd.h>&#xff0c;注意这个接口为Linux私有。 usleep接口类似sleep接口&#xff0c;但是单位为微秒。下面…

Linux 通过关键字查找文件

按文件名查找 find 路径 -name “文件名” 查找当前目录下的所有mk文件 find . -name "*.mk"按关键字查找 find 路径 -name “文件名” | xargs grep -n “关键字” 参数&#xff1a; xargs 是给命令传递参数的一个过滤器&#xff0c;也是组合多个命令的一个工具 -n…

基于springboot实现的在线动漫信息平台

开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09; 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Maven…