合合信息大模型加速器重磅上线,释放智能文档全新可能

目录

  • 0 写在前面
  • 1 高速文档解析引擎:拓宽大模型认知边界
  • 2 文本嵌入模型acge:克服大模型感知缺陷
  • 3 行业赋能:以百川智能为例
  • 总结

0 写在前面

随着人工智能技术的飞速发展,大模型以强大的数字处理能力和深度学习能力,不断与各领域交叉融合,逐步成为产业创新的关键抓手。2024世界人工智能大会(WAIC)恰逢全球大模型蓬勃发展之时,今年参会的人们更加关注大模型技术在未来可以如何作用于人们的生活。

在这里插入图片描述

然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。阿里研究院5月发布的《大模型训练数据白皮书》显示

互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占1.3%。

高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。本次世界人工智能大会期间,合合信息为中文大模型打造的“加速器”重磅上线,为工业界大模型语料和幻觉问题提供了全新的解决方案。

在这里插入图片描述
下面就让我们一起看看吧~

1 高速文档解析引擎:拓宽大模型认知边界

语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。中文高质量语料相对缺乏是国内外大模型面临的共同问题。目前已有的中文语料库不仅规模较小,且其电子化和网络化程度明显不足。

在这种情况下,电子书、报告、论文、报纸等高质量语料对大语言模型训练就产生了重要意义。首先,这些海量的语言数据源提供了丰富多样的文本内容——涵盖了各种领域的知识、专业术语、实际应用场景等,可以使得大语言模型在训练过程中接触到更广泛、多样化的语言表达,提高其语言理解和生成能力;其次,这些语料通常被精心编写、编辑和组织,具有较高的语言质量和结构性。这些文档中的标注、标题、章节、段落等信息可以为大语言模型提供更可靠的上下文提示和语言规则,帮助模型更好地理解和生成文本。因此,通过这类未完全开发的语料进行训练,大语言模型能够学习到不同的语境和用法,更好地理解和应对各种现实世界的语言任务和挑战。

当前,大模型算力算法能力显著提升,进一步发展取决于数据和场景,应构建高质量的数据集。一方面,大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。然而,要推动数据供需双方建立合作并非易事,研究者需要明白:大模型语料处理中的“拦路虎”到底是什么?

答案是:表格、公式、图表等复杂元素的处理,这大大制约了大模型的训练语料处理及大模型文档问答的应用能力。例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。此外,还有图像质量不一、文档获取繁琐等等。

本次人工智能大会上,合合信息带来的大模型加速器——高速文档解析引擎,为大语言模型受限于高质量语料版面解析的窘境提供了全新的解决方案,我们先来看一个案例:

案例一:如图所示为大模型使用文档解析引擎之前(左框)和之后(右框)的效果对比。对比显示,文档解析引擎分析了论文中关于电动车充电载荷的定量数据和图表,并能对用户“从电动车历史数据来看,哪辆车充电时长最短”的问题作出准确的回答。

在这里插入图片描述

为了应对复杂的图表文档解析任务,合合信息采集了折线图、饼图、柱状图、曲线图等十余种常见图表作为识别样本,使引擎能够提取图表中的关键信息,如数据趋势、比例、变化趋势等,帮助用户快速理解图表所传达的信息。这种能力不仅提高了文档处理的效率,还减少了人工处理过程中的错误和偏差,提升了数据分析的准确性和可靠性,为研究、决策和信息获取提供了强有力的支持。

在这里插入图片描述

文档解析引擎除了准,还需要快。大家不妨思考一下,如果文档解析引擎处理速度不够快,会发生什么?最直接地,大模型的整个训练流程的效率受影响,训练过程中的大量时间花费在等待文档解析上,而非实际的模型训练和优化上;在云计算环境下,可能需要更多的计算实例或更长时间的运行,从而增加成本;在在线学习或增量学习的情况下,解析引擎速度慢也会导致数据的流动延迟;在一些需要持续学习的场景下,大模型在动态数据环境中的适应能力也会受限。作为现阶段市面上同类文档解析引擎中处理速度最快的产品之一,合合信息文档解析引擎最快1.5秒就能解析百页长文档中的非结构化数据,是名副其实的大模型加速器

在这里插入图片描述

文档中还包含大量的逻辑信息、文档逻辑结构与复杂阅读顺序。文档解析引擎的能力直接关系到大模型能否理解其内容,并从中获取关键信息。这对于大模型的训练、调试,以及与真实世界数据的无缝集成和应用有着非常重要的作用。

下面的案例展示了引擎对专业图表的还原能力,即可以将研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表拆解为大模型能“读懂”的markdown格式

案例二:文档解析引擎将全国居民消费价格涨跌幅图表解析为带有具体数值的表格

在这里插入图片描述

2 文本嵌入模型acge:克服大模型感知缺陷

虽然大语言模型在认知方面展示出巨大的潜力,但它在处理智能文档任务时,仍然具有很多的缺陷。其中制约大模型发展的一个关键点在于“幻觉”现象的产生,所谓幻觉,指的是模型错误地关联了文本信息和图像细节之间的关系,导致产生了错误的推断和判断,或根据文本信息生成与图像不符合的内容,在补全图像时添加错误或不相关的细节。

例如下面的例子直观地解释了什么是大模型幻觉。在准确率要求非常高的场景下幻觉是不可接受的,比如医疗领域、金融领域等

案例三:已有的知识是丹尼尔·瓦切克和汉娜·曼德利科娃都是职业网球运动员。我们问大模型一个很简单的问题:丹尼尔·瓦切克和哈娜·曼德利科娃在哪项运动中获得了职业地位?结果大模型错误地回答了从未出现过的信息:板球。

在这里插入图片描述

RAG(Retrieval Augmented Generation)为解决幻觉问题提供了一个很有前景的解决方案。RAG的主要作用类似搜索引擎,找到用户提问最相关的知识或者是相关的对话历史,并结合原始提问(查询),创造信息丰富的prompt,指导模型生成准确输出。其本质上应用了情境学习的原理。基于文本嵌入技术(Embedding),可以搭建RAG应用,为语言模型真正理解文本、克服幻觉提供了基础。

在这里插入图片描述

前段时间,合合信息发布的文本向量化模型acge_text_embedding(简称acge模型),获得被公认为是目前业界最全面、最权威的中文语义向量评测基准C-MTEB榜单第一的成绩,在文本分类、文本聚类等任务上表现优异,打通了文本嵌入模型领域的底层原理。

在这里插入图片描述

acge位居C-MTEB榜首

acge模型,通过多层次的表示学习和信息融合机制,改进了语义表示和上下文感知能力。在问答任务中,这种能力可以帮助模型更好地理解问题和文本,提供更精准的答案,从而真正理解人的意图特性。

案例四:下面的文档排版引擎包含字符嵌入(Character embedding)文本行嵌入(Textline embedding)段落嵌入(Paragraph embedding)关系嵌入(Relation embedding)四部分嵌入向量

在这里插入图片描述

acge模型在神经网络广泛存在的灾难性遗忘问题上也做出了贡献。灾难性遗忘指的是随着新任务的增加,先前学习的处理之前任务的能力不应(显著)随时间降低。类比人类的学习过程:人类在不断学习新概念的过程中可能会逐渐忘记一些已学习的概念,但是新信息的学习不会使得人们大量遗忘旧概念,例如人体的体感皮层可以在运动学习期间吸收新信息,而不会破坏先前获得的运动技能的稳定性;当回忆旧概念的时候,人类可以直接调取已学习的知识。

案例五:在缺陷分类方面,当有新类别的缺陷数据出现时,模型为了拟合新类别的缺陷数据,在旧类别缺陷数据的分类准确率就会大幅度下降,发生灾难性遗忘
在这里插入图片描述

灾难性遗忘最早出现在连接主义网络中,在一定条件下,学习一组新模式的过程中突然彻底地抹去了网络对其已学知识的了解,这种现象称为灾难性干扰,造成这一现象的根本原因就是网络共享一组权重。为了克服灾难性遗忘,学习系统应防止学习的新知识显著干扰甚至覆盖已有的知识。但是,在不针对这一问题改进训练过程的情况下,网络在学习过程随着新概念的学习,必将遭受旧概念的灾难性遗忘。这一问题的存在使得现在常用的人工神经网络等模型无法在常规训练方法下持续不断地学习不同任务的知识,而只能用于处理单一任务。

事实上,灾难性遗忘体现了神经网络的可塑性-稳定性矛盾:可塑性指的是模型学习新任务的能力,而稳定性则是指在更新时保留旧任务知识的能力。完全稳定的模型,可以很好的保留旧任务的知识,但没办法很好的学习新任务,而性能完全可塑的模型,可以即时学习好新任务,但无法很好的保留旧任务的知识。过度关注新任务的性能,必然会使得过去任务的性能下降,反之亦然。因此,如何设计一个能够同时对新输入敏感但不受新输入的干扰,是解决灾难性遗忘问题的关键。

通过引入持续学习训练方式,合合信息acge模型克服了神经网络存在灾难性遗忘的问题,对维护大模型长期记忆并保持其学习能力有着重要意义,推动大模型在多个任务和领域中持续学习和适应。同时,减少反复训练模型的需要,节省大量的计算资源和时间

3 行业赋能:以百川智能为例

在金融报表、行业报告等高知识密度的文档中,版面包含的信息量巨大,总结来说包含两个关键点:

  • 物理版面(Physical Layout):即文档在视觉上可见的外观和布局,包括页面的大小、页面边距、页眉页脚、文本框的位置和大小等与文档视觉呈现相关的元素。物理版面的分析有助于对文档进行可视化处理、重构和呈现;
  • 逻辑版面(Logical Layout),即文档的结构和组织方式,独立于具体的视觉呈现。它关注的是文档中各个元素之间的关系和层次结构,例如标题、段落、列表、表格等。逻辑版面的分析可以帮助系统理解文档的内容和结构,从而进行文本解析、数据提取和语义分析等任务。

针对版面分析问题,虽然在近年来在学术界涌现出一批能够取得较好效果的方法,但是仍然在业界难以进行产品化和商业化,实时性模型结构的设计方案缺失、文档的具体内容边界模糊等挑战性难题层出不穷。

在这里插入图片描述

挑战与机遇并存。对文档的智能处理的前景非常广阔,应用场景也会不断拓展。举例来说

  • 电子博物馆:将大量历史文献、照片等材料进行数字化处理,并进行元数据标注和索引,从而创建电子博物馆,方便文化遗产的保护和传承。合合信息在这方面已有应用:合合信息焕新古文化传承之路,AI为古彝文识别赋能
  • 法律文书处理:通过自动识别和提取法律文书中的各种信息,例如案号、法院名称、当事人姓名、判决结果等,从而方便进行法律文书的管理和查询;
  • 财务报表处理:通过自动识别和提取财务报表中的各种信息,例如收入、支出、资产、负债等,从而方便进行财务报表的分析和管理

在这里插入图片描述

本次世界人工智能大会现场,合合信息与百川智能携手,推动复杂专业领域与大模型接轨,促进大模型从“可用”朝着“好用”的水平发展,使大模型能够真正变成赋能千行百业的生产力。

总结

当前,大模型正从通用场景快速拓展到各行业的细分领域,为传统产业插上人工智能的翅膀。从文娱到医疗,从制造到金融,我们已经看到越来越多定制化的行业大模型应运而生,赋能各行业的数字化智能化转型。合合信息带来的大模型加速器方案,为高质量语料数据流通与治理、大模型专业化定制化落地服务等提供了核心驱动力。欢迎各位感兴趣的朋友到textin.com或小程序了解更多关于智能文字识别产品和技术的信息,体验智能图像处理、文字表格识别、文档内容提取等产品。

让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的持续深耕,用技术方案惠及更多的人!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/789093.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

免费插件集-illustrator插件-Ai插件-测量简单路径面积和周长

文章目录 1.介绍2.安装3.通过窗口>扩展>知了插件4.功能解释5.总结 1.介绍 本文介绍一款免费插件,加强illustrator使用人员工作效率,进行测量路径面积和周长处理。首先从下载网址下载这款插件 https://download.csdn.net/download/m0_67316550/878…

【光伏仿真系统】光伏设计的基本步骤

随着全球对可再生能源需求的不断增长,光伏发电作为一种清洁、可再生的能源形式,正日益受到重视。光伏设计是确保光伏系统高效、安全、经济运行的关键环节,它涉及从选址评估到系统安装与维护的全过程。本文将详细介绍光伏设计的基本步骤&#…

Python数据处理之高效校验各种空值技巧详解

概要 在编程中,处理空值是一个常见且重要的任务。空值可能会导致程序异常,因此在进行数据处理时,必须确保数据的有效性。Python 提供了多种方法来处理不同数据对象的空值校验。本文将详细介绍如何对Python中的各种数据对象进行空值校验,并包含相应的示例代码,帮助全面掌握…

Kubernetes k8s Pod容器 探针 健康探测

目录 Pod容器健康探测 为什么要对容器做探测? 启动探测startupprobe 存活性探测livenessProbe 就绪性探测readinessProbe ReadinessProbe LivenessProbe startupProbe配合使用示例一般程序中需要设置三种探针结合使用,并且也要结合实际情况&#xff…

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验18 边界网关协议BGP

一、实验目的 1.验证边界网关协议BGP的作用; 2.学习在思科路由器上该协议的使用方法。 二、实验要求 1.使用Cisco Packet Tracer仿真平台; 2.观看B站湖科大教书匠仿真实验视频,完成对应实验。 三、实验内容 1.构建网络拓扑; …

SpringBoot开发实用篇(三)

一:任务 1:SpringBoot整合Quartz 导入SpringBoot整合quartz的坐标定义具体要执行的任务,继承QuartzJobBean定义工作明细和触发器,并绑定对应关系 2:SpringBoot整合task 开启定时任务功能设置定时执行的任务&#x…

222|一周小精进:关于需求、产品和技术壁垒/Momentum, Consolidation, and Breakout(7.8

<希望能够坚持下来.JPG> 一、上接 《一胜九败&#xff1a;优衣库全球热卖的秘密》15000字浓缩精华评注&#xff01;所以&#xff0c;单独研究了一下“摇粒绒”。 1、从优衣库的摇粒绒开始 摇粒绒又称羊丽绒&#xff0c;是针织面料的一种&#xff0c;由大圆机编织而成&…

迅为RK3588开发板RKNPU2项目实战2SORT目标追踪

1.介绍和视频演示2.在模拟器实现图片的目标追踪3.连板推理和嵌入式部署4.视频目标追踪的实现(python)5.C实现目标追踪性能强--iTOP-3588开发板采用瑞芯微RK3588处理器&#xff0c;是全新一代ALoT高端应用芯片&#xff0c;采用8nm LP制程&#xff0c;搭载八核64位CPU&#xff0c…

如何更改WordPress网站的字体(适用于所有主题)

如何更改WordPress的字体的具体方法&#xff0c;需要取决于您使用的是新的区块主题还是比较旧的经典主题&#xff0c;这一点可能会让人感到困惑&#xff0c;本文中我们将详细介绍二者的区别以及如何分别在这两种主题中修改字体的的方法。 区别&#xff1a; 现代区块主题具有内…

相机光学(三十)——N5-N7-N8中性灰

GTI可提供N5/N7/N8中性灰涂料&#xff0c;用于不同的看色环境&#xff0c;N5/N7/N8代表深中浅不同的灰色程度&#xff0c;在成像、工业、印刷行业中&#xff0c;分别对周围观察环境有一定的要求&#xff0c;也出台了相应的标准文件&#xff0c;客户可以根据实际使用环境进行选择…

Transformer常见问题

1.位置编码有哪些&#xff1f; a. 正弦和余弦位置编码&#xff08;Sinusoidal Positional Encoding&#xff09; 原理&#xff1a;使用固定的正弦和余弦函数来生成位置编码。 b.学习位置编码&#xff08;Learnable Positional Encoding&#xff09; 原理&#xff1a;将位置编…

快速入门,springboot知识点汇总

学习 springboot 应该像学习一门编程语言一样&#xff0c;首先要熟练掌握常用的知识&#xff0c;而对于不常用的内容可以简单了解一下。先对整个框架和语言有一个大致的轮廓&#xff0c;然后再逐步补充细节。 前序: Spring Boot 通过简化配置和提供开箱即用的特性&#xff0c…

汇凯金业:天然橡胶的用途和作用

天然橡胶是一种由橡胶树(Hevea brasiliensis)的乳汁加工而成的弹性体&#xff0c;具有弹性好、强度高、耐磨性好、耐寒性好、电绝缘性好、易于加工等优点&#xff0c;是世界上重要的战略物资和不可缺少的工业原料。 天然橡胶的用途十分广泛&#xff0c;主要应用于以下领域&…

java Web实现用户登录功能

文章目录 一、纯JSP方式实现用户登录功能&#xff08;一&#xff09;实现思路1、创建Web项目2、创建登录页面3、创建登录处理页面4、创建登录成功页面5、创建登录失败页面6、编辑项目首页 &#xff08;三&#xff09;测试结果 二、JSPServlet方式实现用户登录功能&#xff08;一…

04_Shell字符串变量

04_Shell字符串 一、字符串拼接&#xff08;推荐双引号&#xff09; 无引号拼接解析变量时不能有空格 单引号拼接无法解析变量 双引号方式可正常解析变量 推荐 二、字符串的长度获取 #!/bin/bash#使用 ${#变量名} 可获取字符串变量长度 var"test" echo "${#va…

[PM]流程与结构设计

流程图 流程就是为了达到特定目标, 进行的一系列有逻辑性的操作步骤, 由两个及已上的步骤, 完成一个完整的行为过程, 即可称为流程, 流程图就是对这个过程的图形化展示 分类 业务流程图 概念: 描述业务流程的一种图, 通过特定符号和连线表示具体某个业务的处理步骤和过程作…

【R语言+Gephi】利用R语言和Gephi实现共发生网络的可视化

【R语言Gephi】利用R语言和Gephi实现共发生网络的可视化 注&#xff1a;本文仅作为自己的学习记录以备以后复习查阅 一 概述 Gephi是一款开源免费的多平台网络分析软件&#xff0c;在Windows、Linux和Mac os上均可以运行&#xff0c;像他们官网所说的&#xff0c;他们致力于…

AWS 云安全性:检测 SSH 暴力攻击

由于开源、低成本、可靠性和灵活性等优势&#xff0c;云基础设施主要由基于linux的机器主导&#xff0c;然而&#xff0c;它们也不能幸免于黑客的攻击&#xff0c;从而影响云的安全性。攻击Linux机器最流行的方法之一是通过SSH通道。 什么是 SSH 安全外壳协议&#xff08;Sec…

二叉树超详细解析

二叉树 目录 二叉树一级目录二级目录三级目录 1.树的介绍1.1树的定义1.2树的基本术语1.3相关性质 2.二叉树介绍2.1定义2.2 性质 3.二叉树的种类3.1 满二叉树3.2完全二叉树3.3 二叉查找树特点&#xff1a;二叉查找树的节点包含的基本信息&#xff1a; 3.4 平衡二叉树 4.二叉树的…

极狐Gitlab安装部署

GitLab 是一个基于 Git 的开源 DevOps 平台&#xff0c;提供代码仓库管理、CI/CD&#xff08;持续集成和持续交付&#xff09;、项目管理、监控和安全等功能。它集成了多种工具&#xff0c;帮助开发团队在一个平台上进行代码开发、测试、部署和运维。以下是 GitLab 的主要功能和…