CCIG 2024:合合信息文档解析技术突破与应用前景

目录

    • 背景
    • 当前大模型训练和应用面临的问题
      • 训练Token耗尽
      • 训练语料质量要求高
      • LLM文档问答应用中文档解析不精准
    • 合合信息的文档解析技术
      • 1. 具备多文档元素识别能力
      • 2. 具备版面分析能力
      • 3. 高性能的文档解析
      • 4. 高精准、高效率的文档解析
      • 文档多板式部分示例
    • 文档解析典型技术难点
      • 元素重叠、本身多样性、复杂板式示例
      • 单行、行内、表格内公式示例
    • 合合信息提出的文档解析技术解决方案
      • 文档图像预处理算法框架
        • 图像文档弯曲矫正算法
        • 图像文档干扰去除算法
      • 版面分析算法框架
        • 物理版面分析 - 文档布局分析
        • 逻辑版面分析 - 语义结构分析
        • 版面分析算法的发展
      • Textln 文档解析效果
    • 总结

背景

2024年5月24日-26日于西安召开中国图象图形大会(CCIG 2024),此次大会由中国图象图形学学会主办,空军军医大学、西安交通大学和西北工业大学承办,南京理工大学、陕西省图象图形学学会、陕西省生物医学工程学会协办,陕西省科学技术协会支持。包括于起峰院士、郑海荣院士、焦李成教授、王大轶研究员和虞晶怡教授在内的多位知名学者将作主旨报告,带来前沿的学术分享。大会期间将举办25场学术论坛、7场特色论坛和2场企业论坛,汇聚2000余名专家学者,构建开放创新、交叉融合的交流平台。

在此盛会上,合合信息的智能创新事业部研发总监常扬发表演讲。常扬老师分享了合合信息在文档解析技术方面的最新研究成果,探讨如何利用这些技术加速大模型的训练和应用。文档解析技术在大模型发展中扮演着至关重要的角色,尤其是在应对训练Token耗尽、语料质量要求高和解析不精准等挑战,高效获取高质量数据的方法,包括文档元素识别、版面正确解析和转化速度快等关键技术。本文将对常扬老师的演讲进行详细展开。

当前大模型训练和应用面临的问题

训练Token耗尽

大模型(如GPT-4、BERT等)在训练过程中需要处理大量的文本数据,这些数据被分解成更小的单位,称为Tokens。每个Token代表一个词、词的一部分或一个标点符号。随着模型变得越来越复杂,对数据的需求也随之增加,训练Token的耗尽成为一个主要问题。这意味着模型在训练过程中会消耗大量的Tokens,如果Tokens不足,模型的训练效果会受到限制。

训练语料质量要求高

高质量的训练语料是确保大模型性能的关键。低质量或噪声数据可能会导致模型学习到错误的信息,从而影响其性能。高质量语料需要具备准确性、丰富性和多样性,确保模型能够理解和生成高质量的语言。

LLM文档问答应用中文档解析不精准

在大模型的应用中,如文档问答(Document QA)系统,文档解析的精准度至关重要。文档解析不精准会导致模型无法正确理解文档内容,影响问答的准确性和用户体验。例如,当文档中的表格、公式、图表等复杂元素不能被正确解析时,模型可能会提供错误或不完整的答案。

在这里插入图片描述
在这里插入图片描述

合合信息的文档解析技术

合合信息在文档解析技术方面进行了深入的研究和开发,其核心研究方向包括多文档元素识别、版面分析和高性能的文档解析技术。这些技术不仅提高了文档解析的精度和效率,还为大模型的训练和应用提供了有力的支持。

在这里插入图片描述

1. 具备多文档元素识别能力

多文档元素识别能力是指系统能够识别并区分文档中不同类型的元素,如表格、段落、公式、标题等。每种元素在文档中都有其特定的结构和语义,准确识别这些元素是文档解析的基础。

技术实现

  • 深度学习模型:利用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,训练系统识别不同的文档元素。
  • 特征提取:通过图像处理技术提取表格线条、段落边界、公式符号等特征,以提高识别的准确性。
  • 标注数据集:构建大型标注数据集,包含多种文档元素的标注信息,用于模型训练和验证。
    应用场景:
  • 文档自动化处理:在办公自动化、电子档案管理等场景中,实现自动化的文档分类和元素提取。
  • 教育和科研:识别学术论文中的图表和公式,辅助科研数据的整理和分析。

2. 具备版面分析能力

版面分析能力是指系统能够正确解析文档的版式布局,识别文档中的栏、节、段等布局结构。复杂的文档版式,如双栏、三栏和文表混合布局,给解析带来极大挑战。

技术实现

  • 物理版面分析:使用基于回归的单阶段检测模型(如Faster R-CNN、YOLO)检测文档中的物理布局元素(如栏、节)。
  • 逻辑版面分析:通过语义分析技术,理解文档的语义结构和层次关系,将不同的文字块组织成段落、列表等语义单元。
  • 混合方法:结合物理和逻辑版面分析方法,提升对复杂文档版式的解析能力。
    应用场景:
  • 出版和印刷:解析书籍、报纸、杂志等出版物的版面结构,优化排版和印刷流程。
  • 档案数字化:对纸质档案进行数字化处理,保持原始版面布局,提高数字档案的可读性和可用性。

3. 高性能的文档解析

高性能的文档解析技术能够快速处理和转化大规模文档,尤其是上百页的PDF文档,确保还原正确的阅读顺序,避免混乱的语序。

技术实现

  • 并行处理技术:利用多线程和分布式计算技术,加快大规模文档的解析速度。
  • 优化算法:优化文档解析算法,提高处理效率,减少时间消耗。
  • 硬件加速:借助GPU加速技术,进一步提升文档解析的性能。
    应用场景:
  • 大数据处理:在金融、法律、医疗等领域,快速解析和处理大量文档,提高数据处理效率。
  • 实时应用:在实时文档问答和即时信息提取等应用中,提供快速、准确的文档解析服务。

4. 高精准、高效率的文档解析

文档解析的精准度和效率是衡量技术性能的重要指标。合合信息的文档解析技术能够提供高精准、高效率的解析结果,适用于大模型的训练和应用场景。

技术实现

  • 精细化模型训练:通过精细化的模型训练和调优,提高文档解析的准确性。
  • 错误纠正机制:引入错误检测和纠正机制,自动识别和修正解析过程中的错误。
  • 用户反馈系统:利用用户反馈信息,持续优化和改进解析算法。
    应用场景:
  • 大模型训练:在大模型训练过程中,提供高质量的训练数据,提升模型性能。
  • 知识库问答:在知识库问答系统中,快速准确地解析文档内容,提供高质量的问答服务。

文档多板式部分示例

在这里插入图片描述
在这里插入图片描述

文档解析典型技术难点

在文档解析过程中,技术难点众多,涉及文档元素的遮盖重叠、复杂版式、多样的文档元素、页眉页脚、多栏布局与表格、无线表格与合并单元格,以及各种公式的识别和处理。以下是对这些技术难点的详细列举。

  1. 元素遮盖重叠:文档中的各种元素(如文字、表格、公式等)可能会相互遮挡或重叠,给解析带来挑战。
  2. 复杂版式:文档可能采用双栏、跨页、三栏等复杂的版式布局,需要准确识别和分析这些版式结构。
  3. 元素本身的多样性:不同类型的文档元素(如标题、段落、表格、公式等)具有不同的特点,需要针对性地进行识别和分析。
  4. 页眉页脚的复杂形式:页眉页脚的形式可能多种多样,需要准确识别并区分。
  5. 多栏布局及其与表格的影响:多栏布局以及多栏中插入表格会对文档解析带来额外的挑战。
  6. 无线表格与合并单元格:无线表格与合并单元格的识别。
  7. 各种公式:单行公式、行内公式、表格内公式等
    元素重叠、本身多样性、复杂板式示例

元素重叠、本身多样性、复杂板式示例

在这里插入图片描述

单行、行内、表格内公式示例

在这里插入图片描述

合合信息提出的文档解析技术解决方案

文档图像预处理算法框架

主要包括以下几点

  • 区域提取: 提取文档区域
  • 干扰去除: 去除手指、阴影、摩尔纹等干扰
  • 形变矫正: 包括倾斜透视矫正、弯曲矫正等
  • 图像恢复: 阴影去除、摩尔纹去除
  • 图像增强: 增强锐化等操作

在这里插入图片描述

图像文档弯曲矫正算法
  1. 形变文档图像建模
  • 使用偏移场来建模形变文档图像
  • 通过DocUNet网络进行形变矫正
  1. 空间变换
  • 根据偏移场信息对图像进行空间变换,完成弯曲矫正
  1. 边缘填充
  • 使用Inpainting技术对矫正后的图像进行边缘填充

在这里插入图片描述

图像文档干扰去除算法
  1. 文档图像预处理
  • 使用U2net卷积网络进行背景提取
  • 通过信息融合和干扰去除模块去除摩尔纹、光照影响等干扰
  1. 干扰去除算法效果
  • 可以有效去除手指、阴影等干扰,提高文档图像的质量

在这里插入图片描述

文档图像预处理算法整体效果如下

在这里插入图片描述

版面分析算法框架

在这里插入图片描述

物理版面分析 - 文档布局分析
  • 使用基于回归的单阶段检测模型,如FasterRCNN、YOLO等,对文档中的各种布局元素进行检测和定位。
  • 检测模型可以对文档中的栏(column)、节(section)等布局要素进行识别。

在这里插入图片描述

逻辑版面分析 - 语义结构分析

逻辑版面分析算法主要关注文档的语义结构和布局关系,通过建立层级概念和建模布局关系,实现对文档逻辑结构的分析和理解。将不同的文字块根据语义关系建模,形成文档的层次结构,如页(page)、段落(paragraph)、列表(list)等。

在这里插入图片描述

版面分析算法的发展

合合信息在近期的研究发现,真实世界的文档布局类型非常丰富,无法简单地用单栏、双栏等类别来定义。
例如下面列举的,目录,报纸,试卷等。所以判别式的技术路线,可以处理好大部分的文档,还无法真正对真实世界中各式各样的文档进行良好的版面分析。

在这里插入图片描述

近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,都会给版面分析带来新的研究思路。

Textln 文档解析效果

在这里插入图片描述

在这里插入图片描述

总结

常扬老师在CCIG 2024大会上的演讲深入探讨了合合信息在文档解析技术方面的突破性进展。这些技术不仅解决了大模型训练和应用中的诸多挑战,还大大提升了文档解析的效率和精度。通过先进的图像预处理、版面分析和语义结构分析,合合信息为大模型在文档问答、知识库问答等应用场景中的表现提供了坚实的技术支持。期待这些创新技术能够为未来的研究和产业应用带来更多可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/663342.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于Java的KTV点歌系统

开发语言:Java 数据库:MySQL 技术:JSP技术,JAVA,B/S架构 工具:浏览器(360浏览器、谷歌浏览器、QQ浏览器等),数据库管理工具(MySQL) 系统展示 …

GPT-4o:人工智能技术的新巅峰

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

DBeaver连接Oracle报错:ORA-12514

Listener refused the connection with the following error:ORA-12514, TNS:listener does not currently know of service requested inconnect descriptor ———————————————— 1.报错信息2.配置正确结语 ———————————————— 如果是第一次连接Or…

IP地址开启HTTPS方法

可以使用IP地址申请SSL证书,申请之前必须是公网IP地址,不支持内网IP地址申请。 申请过程需要确定IP地址外网可以访问,这里特别注意只是申请过程中可以访问。访问验证过程必须采取80端口、443端口两者选择1个,不可以用其它端口进行…

「手把手prompt1」相关介绍

「手把手prompt1」相关介绍 在人工智能领域迅速发展的当下,“prompt” 这个术语正逐渐成为焦点。本文将带您深入了解prompt的本质,以及它如何影响我们与AI系统的互动。您将学习到,通过精确的指令设计,可以引导AI系统产出精确和有…

使用Minikube+docker+harbor+k8s自动化部署 @by_TWJ

目录 1. 开始1.1. 环境1.2. 测试的git仓库1.3. 离线文件1.4. 安装docker1.5. 安装docker-compose(非必要)1.6. 安装Jenkins1.7. 安装harbor1.8. 允许docker通过http访问私有仓库1.9. 修改/etc/hosts,追加自定义域名1.10. 安装Minikube 2. min…

【JavaScript】ECMAS6(ES6)新特性概览(一):变量声明let与const、箭头函数、模板字面量全面解析

🔥 个人主页:空白诗 🔥 热门专栏:【JavaScript】 文章目录 🌿 引言一、 let 和 const - 变量声明的新方式 🌟📌 var的问题回顾📌 let的革新📌 const的不变之美 二、 Arro…

CasaOS玩客云安装全平台高速下载器Gopeed并实现远程访问

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Spring-Cloud-CircuitBreaker-Resilience4j (3.1.1)

介绍 Resilience4j 是一个专为函数式编程而设计的轻量级容错库。Resilience4j 提供高阶函数(装饰器),以增强任何功能接口、lambda 表达式或方法引用,包括断路器、速率限制器、重试或隔板。您可以在任何函数接口、lambda 表达式或…

每日复盘-20240530

今日重点关注: 20240530 六日涨幅最大: ------1--------300637--------- 扬帆新材 五日涨幅最大: ------1--------300637--------- 扬帆新材 四日涨幅最大: ------1--------300637--------- 扬帆新材 三日涨幅最大: ------1--------301129--------- 瑞纳智能 二日涨…

Stable Diffusion AI绘画:从创意词汇到艺术图画的魔法之旅

文章目录 一、Stable Diffusion的工作原理二、从提示词到模型出图的过程三、Stable Diffusion在艺术创作中的应用《Stable Diffusion AI绘画从提示词到模型出图》内容简介作者简介楚天 目录前言/序言本书特色特别提示 获取方式 在科技的飞速发展中,Stable Diffusion…

读取YUV数据到AVFrame并用多线程控制帧率

文件树: 1.xvideo_view.h class XVideoView { public:// 像素格式枚举enum Format { RGBA 0, ARGB, YUV420P };// 渲染类型枚举enum RenderType { SDL 0 };// 创建渲染对象的静态方法static XVideoView* Create(RenderType type SDL);// 绘制帧的方法bool DrawF…

Word下一页怎么操作?6个操作方法分享!

在使用Word进行文档编辑时,经常需要设置分页、跳转页面或者对页面进行特定的布局调整。其中,“下一页”这一操作通常涉及到页面布局、分页符的插入、页面跳转等多个方面。 Word下一页怎么操作?很简单,方法已经准备好啦&#xff0…

Python代码:二十五、有序的列表

1、题目 创建一个依次包含字符串P、y、t、h、o和n的列表my_list,先使用sorted函数对列表my_list进行临时排序,第一行输出排序后的完整列表,第二行输出原始的列表。再使用sort函数对列表my_list进行降序排序,第三行输出排序后完整…

20240531瑞芯微官方Toybrick TB-RK3588开发板在Debian11下的关机尝试

20240531瑞芯微官方Toybrick TB-RK3588开发板在Debian11下的关机尝试 2024/5/31 9:10 https://t.rock-chips.com/forum.php?modforumdisplay&fid51 在Toybrick的论坛以关键词搜索:关机 可以找到抱怨这个的人很多! (一)【失败…

深入分析 Android Service (三)

文章目录 深入分析 Android Service (三)1. Service 与 Activity 之间的通信2. 详细示例:通过绑定服务进行通信2.1 创建一个绑定服务2.2 绑定和通信 3. 优化建议4. 使用场景5. 总结 深入分析 Android Service (三) 1. Service 与 Activity 之间的通信 在 Android …

linux nohup命令详解:持久运行命令,无视终端退出

nohup (全称为 “no hang up”),用于运行一个命令,使其在你退出 shell 或终端会话后继续运行。 基本语法 nohup command [arg1 ...] [&> output_file] &command 是你想要运行的命令。[arg1 ...] 是该命令的参数。&am…

Spring Boot 整合 spring-boot-starter-mail 实现邮件发送和账户激活

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

Wireshark抓包后的报文太大,如何拆分?

背景:抓包获取到一个400多兆的网络数据包.pcapng文件,使用wireshark软件可以正常打开。但需要把文件导出为.json文件,从而方便对报文内容做过滤分析。使用wireshark自带的导出功能导出后发现生成的.json文件大小为2G多,使用notepa…

Java-----Comparable接口和Comparator接口

在Java中&#xff0c;我们会经常使用到自定义类&#xff0c;那我们如何进行自定义类的比较呢? 1.Comparable接口 普通数据的比较 int a10;int b91;System.out.println(a<b); 那自定义类型可不可以这样比较呢&#xff1f;看一下代码 我们发现会报错&#xff0c;因为自定义…