VALSE 2024合合信息 | 文档解析与向量化技术加速多模态大模型训练与应用

第十四届视觉与学习青年学者研讨会(VALSE 2024)近期在重庆悦来国际会议中心圆满举行,由中国人工智能学会(CAAI)、中国图象图形学会(CSIG)、中国民族贸易促进会主办,重庆邮电大学承办。与会专家学者围绕计算机视觉、图像处理、模式识别与机器学习研究领域等国内外前沿热点进行深入研讨。

本次大会共计开展数十场AI领域学术精彩纷呈的研讨报告,同时也吸引数千名来自学术界及产业界的视觉和机器学习领域青年学者参与,为计算机视觉、图像处理、模式识别、多媒体与机器学习研究领域内的青年学者们提供了一个深层次、纯粹学术及技术交流的舞台。

在大会的 VALSE 2014 Workshop 环节,作为领先的人工智能厂商,合合信息就《文档解析与向量化技术加速多模态大模型训练与应用》主题进行了分享,针对当下智能文档处理所面临的技术难题以及合合信息在文档图像分析与预处理方面的技术研究展开讨论。

1、大模型与文档图像处理

2023年以CHAT GPT为代表的大规模语言模型风靡全球,同时以GPT-4V为代表的多模态大模型也倍受关注。多模态技术可充分利用文档图像的视觉和语言属性,并借助语言大模型已取得的优异性能和技术积累,正逐渐成为文档图像处理领域的热门研究方向。从微软对GPT-4V做的测评报告中可以看出GPT-4V在场景文字识别、语言形态、语言种类、手写识别、公式识别、几何图形识别、表格理解等方面的表现非常惊艳,针对复杂图表分析理解、文档抽取和推理结果也十分出色。

但文档解析领域的核心问题依然存在,文档图像分析识别与理解的技术难题主要包括以下方面:

  • 1)场景及版式多样:文档图像可能来自不同的场景和版式,如报纸、书籍、手写笔记等,每种场景和版式都具有不同的特点和挑战,需要算法能够适应不同的场景和版式。
  • 2)采集设备不确定性:文档图像可能通过不同的采集设备获取,如扫描仪、手机相机等,不同设备的成像质量和参数不同,导致图像质量和特征的差异,需要算法具备鲁棒性,能够处理不同设备采集的图像。
  • 3)用户需求多样性:用户对文档图像的需求各不相同,有些用户可能只需要提取文本信息,而有些用户可能需要进行结构化的理解和分析,算法需要能够满足不同用户的需求。
  • 4)文档图像质量退化严重:由于文档的老化、损坏或存储条件等原因,文档图像的质量可能会受到严重的退化,如模糊、噪声、光照不均等,这会给文字检测、字符识别等任务带来困难。
  • 5)文字检测及版面分析困难:文档图像中的文字可能存在不同的字体、大小、颜色等变化,而且文字可能与背景颜色相似,导致文字检测和版面分析变得困难,算法需要具备高效准确的文字检测和版面分析能力。
  • 6)非限定条件文字识别率低:在非限定条件下,文档图像中的文字可能出现扭曲、变形、遮挡等情况,这会导致传统的文字识别算法的准确率下降,需要算法具备对非限定条件下的文字进行准确识别的能力。
  • 7)结构化智能理解能力差:文档图像中的信息不仅仅是文字,还包括表格、图表、图像等结构化信息,算法需要具备结构化智能理解的能力,能够对文档中的结构化信息进行提取、分析和理解。

2、文档图像解析领域的典型技术难点问题

文档中通常含有大量的图片、表格等非文字内容,除文字信息外,其版面往往包含页眉、页脚、表格、二维码等多种元素。在向文档解析系统输入文档图像后,系统会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。在文档解析的过程中,有如下几个典型的技术难点问题:

1)版面检测

文档中有各种复杂的布局和版面(比如双栏、跨页、三栏等),需要准确地识别出文档中版面结构。

2)阅读顺序还原

要有效识别文档中的标题、段落、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。

3)表格还原

文档中可能包含有各种样式的表格数据或文字,要有效地还原这些表格,就需要识别出无线表格和合并单元格等关键信息。

4)公式识别

文档中可能在不同的位置嵌入了各种公式,比如单行公式、行内公式、表格内公式等。

3、合合信息的智能文档解析技术

为了解决上述文档解析的诸多技术难题,合合信息将智能文档处理研究主题分成了以下六个模块:

合合信息的文档解析技术框架如下所示:

合合信息通过图像分析、文档解析、版面分析、信息抽取、安全保障和知识化管理等方法,实现了智能文档解析处理的全流程,提供了高效、准确和安全的文档解析处理服务。

  • 文档图像分析与预处理:通过图像处理技术对文档图像进行分析和预处理,去除噪声、调整图像亮度和对比度等,以提高后续处理的准确性和效果。
  • 文档解析与识别:在图像预处理之后,采用光学字符识别(OCR)技术对文档进行解析和识别,将图像中的文字转换为可编辑和可搜索的文本格式,以便后续处理和分析。
  • 版面分析与还原:进行版面分析,识别文档中的标题、段落、表格、图像等元素,并还原文档的原始版面结构,以便后续的信息抽取和理解。
  • 文档信息抽取与理解:利用自然语言处理(NLP)和机器学习技术,对文档中的关键信息进行抽取和理解,以获取业务实际场景所需要的关键信息。
  • AI图像内容安全:检查文档图像是否有篡改、合成、生成痕迹,保障文档图像安全。
  • 知识化&存储检索和管理:将处理后的文档信息进行知识化,以便于后续的存储、检索和管理,用户可快速找到所需的文档或信息。

4、合合信息文档图像专有模型

随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。

多模态大模型时代下的文档图像智能分析与处理的研究旨在通过运用多种数据类型,如文本、图像、音频等,并借助大规模深度学习模型的训练,来实现对文档图像内容的更加准确和全面的理解和分析。综合使用多模态数据训练大模型可以极大地提高文档图像处理和分析的效率和精度,进而推动相关行业的数字化转型和智能化升级。

为了将大模型与文档图像解析技术有效地结合起来,合合信息推出了基于深度学习技术的文档图像专有模型。

该模型基于深度神经网络结构,经过了海量数据的训练和优化,拥有强大的文档图像处理能力。它可以识别和提取文档中的文字、表格、图形等信息,实现自动化的文档解析和理解。在多个领域都有广泛的应用,例如金融、法律、医疗等。它可以帮助企业和个人实现文档的自动化处理,提高工作效率,减少人工成本。

对于不同模态的数据具有不同的特点和表达方式,如何有效地将它们进行融合和交互是一个关键问题。其次,多模态大模型需要处理更加复杂和庞大的数据,对计算资源和模型设计提出了更高的要求。另外,多模态数据的标注和训练也是一个挑战,因为不同模态之间的关联和对齐需要更加精细的处理。

合合信息将文档图像识别分析的各种任务定义为序列预测的形式(文本,段落,版面分析,表格,公式等等),再通过不同的prompt引导模型完成不同的OCR任务,支持篇章级的文档图像识别分析,输出Markdown/HTML/Text等标准格式,最后将文档理解相关的工作交给LLM去做。

总的来说,文档图像大模型主要包括以下功能:

  • 文字识别与提取:能够对文档图像中的文字进行准确识别,并提取出文字内容。无论是印刷体还是手写体,多种语言都可以被识别。
  • 文档结构分析:能够智能地分析文档的结构,识别出标题、段落、列表、表格等不同的结构元素,帮助用户更好地理解文档的组织结构。
  • 表格解析与提取:能够自动识别和解析文档中的表格结构,提取出表格中的数据,并将其转化为结构化的数据形式,方便后续的数据处理和分析。
  • 关键信息提取:能够从文档中提取出关键信息,如日期、金额、公司名称等,帮助用户快速获取文档中的重要内容。
  • 文档分类与检索:能够根据文档的内容和特征,将文档进行分类和索引,方便用户进行文档管理和检索,提高工作效率。

5、合合信息的文本向量化模型

在信息化时代,文本数据呈爆炸式增长,如何高效、准确地处理和分析这些文本数据,成为各行各业亟待解决的问题。基于此文本向量化技术应运而生,它可以将文本转换为数值向量(也就是计算机能够理解的数值形式),是自然语言处理中的一项基础技术。通过文本向量化,文本内容被转换为计算机可以处理的形式,从而便于后续的分析和挖掘工作。

近日合合信息基于其高效的文本处理能力以及强大的语义信息捕捉能力,发布了文本向量化模型 acge_text_embedding,该模型在 MTEB 中文榜单(C-MTEB)中一举夺魁,成为业内瞩目的焦点。

这次最新发布的acge_text_embedding 模型属于Word Embeddings模型,适用于情感分析、文本生成等复杂的NLP任务。这一模型获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在千行百业中产生应用价值。可以看到acge模型在分类、聚类任务准确率很高;应用场景广泛,在相似性检索、信息检索和推荐系统中都有很好的效果;模型在设计时考虑到不同行业,不算规模应用的需要,支持定制服务,满足多样化需求。不仅如此,与榜单前五名其他几个模型相比,acge模型占用资源少;模型输入长度较长,可以满足上下文关联的需求;支持可变输出维度,可以根据具体场景合理分配资源。

合合信息算法团队在模型升级迭代过程中采取了多项措施,以克服行业中存在的技术难点,并不断优化Embedding模型的性能和效果。在信息检索领域,该模型能够准确捕捉用户查询意图,提高检索结果的准确性和相关性;在自然语言理解领域,模型能够深入理解文本含义,为机器翻译、问答系统等应用提供强大支持;在情感分析领域,模型能够准确识别文本中的情感倾向,为企业决策提供有力依据。acge_text_embedding 模型具体主要应用领域如下:

  • 搜索优化:通过 acge_text_embedding 模型,搜索引擎可以根据查询字符串和文档之间的向量相似性来排名搜索结果。由于模型能够深入理解文本语义,因此排名靠前的内容通常与查询字符串最为相关,从而提高了搜索的准确性和效率。
  • 文本分类:在文本聚类任务中,acge_text_embedding 模型可以度量文本之间的相似性,从而将文本分组成不同的类别或簇。使用已经预训练好的 Embedding 模型来提取文本特征,并通过分类器(如 SVM、LR 等)对文本进行分类。例如,对于新闻文本,我们可以使用 Embedding 技术将文本转换为向量,然后利用分类器判断新闻的类别(如体育、科技、娱乐等)。
  • 语义相似度计算:acge_text_embedding 模型可以帮助构建用户和项目的表示特征,使得推荐系统可以根据用户的历史行为或偏好,计算用户向量与项目向量之间的相似度,从而向用户推荐具有相关性的项目。无论是电商产品推荐、音乐或视频推荐还是新闻资讯推荐,该模型都能发挥重要作用。
  • 异常检测:在异常检测任务中 acge_text_embedding 模型也可发挥重要作用,将文本数据映射到一个向量空间中,并通过度量文本向量与正常数据之间的距离或相似性来识别与正常行为不同的异常值。这对于监控网络舆情、发现欺诈行为或预测系统故障等方面非常有用。
  • 情感分析:利用 Embedding 技术将文本转换为向量,然后利用机器学习算法(如 SVM、神经网络等)对文本进行情感分析,判断文本的情感倾向(如正面、负面、中性)。

6、合合信息

上海合合信息科技股份有限公司(简称“合合信息”),是行业领先的人工智能及大数据科技企业,致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。

  • 合合信息官网:https://www.intsig.com/

公司C端业务主要为全球个人用户的3个APP产品,包括扫描全能王(智能扫描及文字识别APP)、名片全能王(智能名片及人脉管理APP)、启信宝(企业商业信息查询APP)3款核心产品。公司B端业务为企业客户提供以智能文字识别、商业大数据为核心的服务,帮助客户切实解决了降本增效、改善风控、高效获客的业务痛点,提供了较高的技术附加值。目前已在银行、保险、证券、基金、汽车金融、供应链金融、政务、制造、物流、地产、征信等多个行业实现成熟应用。

7、最后

合合信息采用文档解析与向量化技术来加速多模态大模型的训练与应用,这种技术的核心是将各种类型的文档(如文本、图像、音频等)转换成机器可理解的向量表示,从而实现对多模态数据的统一处理和分析。

  • 文档解析技术通常涉及对文档进行结构化处理,将文本内容提取出来,并根据需要进行标记、分类等操作。这有助于提高数据的可用性和可分析性。
  • 向量化技术则是将文档内容映射到向量空间中,从而将文档表示为数学上的向量形式。这种表示方法有利于计算机进行高效的数据处理和分析,同时也为模型训练提供了更好的数据表示。
  • 多模态大模型的训练与应用需要处理各种类型的数据,包括文本、图像、音频等。通过文档解析与向量化技术,可以将这些不同类型的数据统一表示为向量形式,从而使得模型可以更好地处理和理解多模态数据。

总的来说,文档解析与向量化技术为多模态大模型的训练与应用提供了重要的技术支持,能够加速模型的训练过程并提高模型的效果和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/624905.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

goconvey测试框架的使用

尽管Golang已经内置了功能强大的testing包,其易用性令人称赞。然而,当我们希望更直观地处理和判断测试结果时,结合使用goconvey能为我们提供极大的便利。goconvey不仅为我们提供了丰富的断言函数,这些函数还极大地方便了我们在进行…

Web测试是在测什么?容易被忽视的小细节总结!

随着Internet和Intranet/Extranet的快速增长,Web已经对商业、工业、银行、财政、教育、政府和娱乐及我们的工作和生活产生了深远的影响。许多传统的信息和数据库系统正在被移植到互联网上,电子商务迅速增长,早已超过了国界。范围广泛的、复杂…

C# XPTable in .net6(XPTable控件使用说明八)

经过作者schoetbi、armin-pfaeffle的努力,XPTable已经可以在 winform .net6 .net8的环境下使用,版本升级到了2.0,这样就可以在winform下同时使用XPTABLE和EFcore, 这样就可以解决大部分的场景了。

网络工程师----第二十八天

计算机基础 第五章:运输层 运输层的两个协议: 1、传输控制协议TCP: TCP最主要的特点: (1)TCP是面向连接的。应用程序在使用TCP协议之前,必须先建立连接。在传送数据完毕后,必须释放已经建立的TCP连接。…

【数据分析面试】43.寻找给小费最多的客人(Python:字典用法)

题目: 寻找给小费最多的客人 (Python) 给定两个非空列表user_ids和tips,编写一个名为most_tips的函数,用于找到给小费最多的客户。 示例: 输入: user_ids [103, 105, 105, 107, 106, 103, 102, 108, 1…

【基于 PyTorch 的 Python 深度学习】5 机器学习基础(1)

前言 文章性质:学习笔记 📖 学习资料:吴茂贵《 Python 深度学习基于 PyTorch ( 第 2 版 ) 》【ISBN】978-7-111-71880-2 主要内容:根据学习资料撰写的学习笔记,该篇主要介绍了机器学习的基本任务、机器学习的一般流程&…

5G消息和5G阅信的释义与区别 | 赛邮科普

5G消息和5G阅信的释义与区别 | 赛邮科普 在 5G 技术全面普及的当下,历史悠久的短信服务也迎来了前所未有的变革。5G 阅信和 5G 消息就是应运而生的两种短信形态,为企业和消费者带来更加丰富的功能和更加优质的体验。 这两个产品名字和形态都比较接近&am…

有奖调研 | OpenSCA开源社区用户调研问卷

调研背景: 亲爱的OpenSCA开源社区用户,感谢您一路以来的支持与相伴。随着OpenSCA开源社区的不断发展,我们持续专注安全开发与开源治理实践,为全球用户提供一站式审查治理、SaaS云分析和精准情报预警的开源数字供应链安全赋能。 为…

【离散数学】偏序关系中盖住关系的求取及格论中有补格的判定(c语言实现)

实验要求 求n的因子函数 我们将n的因子存入数组中&#xff0c;n的因子就是可以整除n的数&#xff0c;所以我们通过一个for循环来求。返回因子个数。 //求n的因子,返回因子个数 int factors(int arr[], int n) {int j 0;for (int i 1; i < n; i){if (n % i 0){arr[j] i…

财务风险管理:背后真相及应对策略

市场经济蓬勃发展&#xff0c;机遇与风险并存也是市场经济的一项重要特征。而财务状况的好坏影响着一个企业的发展前景&#xff0c;作为市场经济的必然产物&#xff0c;财务风险贯穿于企业的一切生产经营活动中&#xff0c;无法预知也不以人的意志为转移。 一、企业财务风险的特…

unordered_set(无序容器)

特点 它可以存储不重复的元素集合。容器的特点是内部元素没有特定的顺序&#xff0c;因此查找、插入和删除操作的平均时间复杂度是O(1)。unordered_set是基于哈希表实现的&#xff0c;所以在使用时需要提供一个哈希函数和相等函数。 成员函数 查找&#xff08;只能查找元素是否…

最长数字子串-第12届蓝桥杯国赛Python真题解析

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第62讲。 最长数字子串&…

软件验收测试包括哪些类型

在软件开发过程中&#xff0c;验收测试是一个至关重要的环节&#xff0c;它确保了软件的质量、功能性和用户体验符合预期。验收测试主要关注于软件是否满足用户需求和业务目标&#xff0c;从而确保软件能够顺利交付并投入使用。本文将介绍软件验收测试的主要类型及其关键要素。…

display:flex align-items:center无效的不一样的解决思路

写H5的时候&#xff0c;希望两个元素在div中垂直居中&#xff0c;但是设置align-items:center无效&#xff0c;最终排查原因是引入三方css影响了align-items:center。 具体分析如下&#xff0c;想让搜索图标和input在div里水平居中&#xff1a; 布局如下&#xff1a; <div…

JAVA实验项目(一):JAVA面向对象特征性实验

Tips&#xff1a;"分享是快乐的源泉&#x1f4a7;&#xff0c;在我的博客里&#xff0c;不仅有知识的海洋&#x1f30a;&#xff0c;还有满满的正能量加持&#x1f4aa;&#xff0c;快来和我一起分享这份快乐吧&#x1f60a;&#xff01; 喜欢我的博客的话&#xff0c;记得…

月入8.5k,计算机应届生转行网优,就业难,不妨另辟蹊径!

随着2024年毕业生人数的预计达到惊人的1179万&#xff0c;就业市场的竞争愈发激烈。作为即将踏入社会的毕业生&#xff0c;如何做好准备&#xff0c;减轻自己的就业压力&#xff0c;成为了摆在我们面前的一大难题。 今天主人公是一位刚毕业的22岁大学生小L&#xff0c;河南郑州…

docker 部署 prometheus + Grafana +

# prometheus安装 # 1.拉镜像 docker pull prom/prometheus:v2.43.0 # 2.创建配置文件 mkdir /opt/prometheus/data cd /opt/prometheus/ vi prometheus.yml # 3.使用root用户启动 docker run --name prometheus -d -p 9090:9090 -v /opt/prometheus/prometheus.yml:/etc/pro…

数据结构与算法-排序算法2-选择排序

目录 1.选择排序&#xff1a; 1.介绍&#xff1a; 2.动态图解 3.举例 4.小结选择排序规则 5.选择排序代码 6.运行时间 代码&#xff1a; 运行结果&#xff1a; 1.排序算法简介 排序也称为排序算法。排序是将一组数据依据指定的顺序进行排列的过程。 2.常见的排序算法…

Django图书馆综合项目-学习(2)

接下来我们来实现一下图书管理系统的一些相关功能 1.在书籍的book_index.html中有一个"查看所有书毂"的超链接按钮&#xff0c;点击进入书籍列表book_list.html页面. 这边我们使用之前创建的命名空间去创建超连接 这里的book 是在根路由创建的namespacelist是在bo…

图搜索算法-最短路径算法-戴克斯特拉算法

相关文章&#xff1a; 数据结构–图的概念 图搜索算法 - 深度优先搜索法&#xff08;DFS&#xff09; 图搜索算法 - 广度优先搜索法&#xff08;BFS&#xff09; 图搜索算法 - 拓扑排序 最短路径算法 自从有了导航&#xff0c;人们再也不怕去陌生地方&#xff0c;说走就走的旅…