【AI应用落地实战】智能文档处理本地部署——可视化文档解析前端TextIn ParseX实践

湘江之畔,秋风送爽。前不久,2024长沙·中国1024程序员节在长沙盛大举行。今年的程序员节主题为“智能应用新生态”,以科技为纽带,搭建起了一个共筑智能应用新生态的交流平台,众多技术大咖齐聚一堂,探讨智能应用的新发展。
在这里插入图片描述
在人潮涌动的模型与工具论坛会场中,一道熟悉的身影格外引人注目——合合信息。作为在智能文档处理领域深研多年的一员,合合信息本次在会上带来了“智能文档处理百宝箱”的三大全新工具——可视化文档解析前端TextIn ParseX、向量化acge-embedding模型、文档解析测评工具markdown_tester

听完报告后,回家就体验了一下其中的可视化文档解析前端工具,在这里分享给大家。

一、文档版面分析与理解

在深入探讨TextIn ParseX的实践应用之前,有必要先简单讲解一下文档版面分析与理解的目的。

1.1、文档版面分析

文档版面分析是对图片或页面扫描图像上感兴趣的区域进行定位和分类的过程。其目的是让机器“看懂”文档结构,即将文档图像分割成不同类型内容的区域,并分析区域之间的关系,这是文档版面理解之前的关键步骤。从广义上讲,大多数方法可以提炼为页面分割和逻辑结构分析

  • 页面分割方法侧重于外观,并使用视觉线索将页面划分为不同的区域,最常见的是文本、图形、图像和表格。
  • 逻辑结构分析侧重于为这些区域提供更细粒度的语义分类,即识别作为段落的文本区域,并将其与标题或文档标题区分开来。
    在这里插入图片描述

1.2、文档版面理解

文档版面理解则是在版面分析的基础上,进一步对文档中的信息进行深度挖掘和语义解释。它不仅要求识别文档的物理结构,还需要理解这些结构所承载的信息内容和它们之间的逻辑关系。例如,识别出文档中的标题、摘要、正文段落以及它们之间的层级关系,理解表格中数据的排列方式和含义,或者解析图像与文本之间的关联。
在这里插入图片描述

二、TextIn ParseX 本地实践流程

2.1、TextIn ParseX 项目简介

就我个人目前在工作中遇到的各类业务而言,现代文档形式日益多样化,这些文档不仅包含传统的文本格式,还包括PDF、扫描件、手写文本、图片嵌入文本等多种结构,常常掺杂图像、表格、图形等非文本信息。与此同时,文档信息的冗余和噪声过滤也带来了困扰。在实际业务中,文档中关键信息常被大量冗余内容包围,比如广告、页眉页脚、参考文献等无关信息,这些噪声不仅增加了解析难度,还使得信息提取的准确性受到影响。传统的文档扫描和分析工具往往难以适用。

在这里插入图片描述
工欲善其事,必先利其器,TextIn ParseX项目正是在这样的背景下应运而生。该项目基于强大的智能文档处理能力,旨在设计一款工具,用于OCR或PDF解析结果的审核校对、效果测评,同时也适用于翻译软件等一系列需要可视化比对的场景。TextIn ParseX项目的开发,不仅能够提升文档解析的效率和准确性,还能有效降低技术门槛,使得非开发者用户也能轻松上手,从而极大地提高工作效率。TextIn ParseX具备以下核心特点:

  • 多种扫描内容支持:能够有效处理各类图片和扫描文档,包括手机照片和截屏等。
  • 多语言兼容性:支持简体中文、繁体中文、英文以及多种主流语言。
  • 卓越的表格识别能力:能够准确识别各种格式的表格,包括有线表格、无线表格和密集表格,并支持合并单元格的识别与还原。
  • 准确的阅读顺序还原:理解并还原文档的结构和元素排列,确保阅读顺序的准确性,适合多栏布局的学术论文、年报、业务报告、数据调研等。
  • 自研文档树引擎:从语义层面提取段落的embedding值,预测标题层级关系,通过构造文档树提升检索和信息召回的效果。

2.2、下载代码与安装环境

目前合合信息团队已经将TextIn ParseX 项目开源,我们可以首先进入TextIn ParseX 项目github仓库:https://github.com/intsig-textin/parsex-frontend

在这里插入图片描述
复制仓库地址,并转到本地文件夹中,打开终端输入:git clone https://github.com/intsig-textin/parsex-frontend.git如果连不上github也可以离线下载安装包后解压,导入VSCode后项目的完整结构如下所示:

在这里插入图片描述

项目结构是一个典型的React项目结构,其中layouts/为页面框架组件,定义页面的整体布局,modules/存储应用的状态管理逻辑,pages/为页面组件,service/则为接口服务,主要用于封装与后端API的交互逻辑。

── src/                    # 源代码
│   ├── assets/             # 静态资源 
│   ├── components/         # 全局通用组件
│   ├── layouts/            # 页面框架组件 
│   ├── modules/            # store 
│   ├── pages/              # 页面组件
│   ├── service/            # 接口服务
│   ├── utils/              # 工具函数
 │   └── app.ts              # 入口文件 
├── public/                 # 静态资源 
├── config/                 # 配置
 │   ├── routes              # 路由 
│   └── config.*            # 其他umi配置 
├── .eslintrc.js            # ESLint 配置 
├── tsconfig.json           # TypeScript 配置 
├── package.json            # 项目配置 
└── README.md               # 项目说明文件

其次在终端输入npm install -g yarn安装yarn包管理器,安装完后可以输入yarn -v,如果出现版本号则说明已经成功安装:

在这里插入图片描述
然后输入yarn install安装依赖环境:

在这里插入图片描述

显示以上则说明已成功安装对应依赖环境。下载好代码和安装好环境后,在终端输入命令yarn start即可启动项目:

在这里插入图片描述

打开网页,输入url地址127.0.0.1:10007即可进入项目。

2.3、项目配置

首次打开项目后,需要首先进入TextIn工作台申请api,点击https://www.textin.com/console/dashboard/setting进入控制台,新建密钥:
在这里插入图片描述
然后将密钥中的x-ti-app-idx-ti-secret-code复制下来

在这里插入图片描述
复制完后,转到刚刚之前启动的TextInParseX页面,打开高级模式:

在这里插入图片描述
将刚刚复制的x-ti-app-id和x-ti-secret-code分别填入指定位置,然后就可以开始使用了!

在这里插入图片描述

2.4、TextIn ParseX功能测评

点击左侧上传需要扫描的PDF文件,即可看到解析目录、pdf对照以及最终的解析结果如下:

在这里插入图片描述
首先,我们可以看到TextIn ParseX对解析结果进行了Markdown形式的渲染。这种渲染方式不仅使文档的结构更加清晰易读,还能够支持各级标题、文本和图像的有效展示。其在解析过程中还将解析出的内容按类型进行了分类。文本、图像、表格和公式等不同类型的信息会被明确标识并归档。这种分类方式不仅便于用户在海量信息中进行快速检索,直观地了解文档的层次和主要内容,快速定位所需的特定信息,提升整体工作效率。

值得注意的是,TextIn ParseX对于复杂表格和数学公式的解析能力也颇为出色。在处理复杂表格时,其能够识别表格的行列结构,并准确提取每个单元格的内容。对于数学公式的解析,ParseX能够理解并渲染各种数学表达式,使得公式的展示更加规范和清晰

在这里插入图片描述
另外,TextIn ParseX还提供了非常便捷的原文对照功能,这一功能极大地提升了用户的工作效率。在PDF原文中,系统会自动标注解析出的版面元素的位置,例如文本块、表格和图像等。这种可视化的标注方式,使得用户能够直观地看到解析结果与原文之间的对应关系。

在解析结果的右侧,我们可以通过点击相应的画框,快速跳转到对应的解析结果,反之,也可以在解析结果中点击具体的内容,这样系统会自动跳转回原文的相关位置。

在这里插入图片描述

三、智能文档处理百宝箱

除此之外,“百宝箱”还提供了向量化模型acge_text_embedding模型(简称“acge模型”)和文档解析测评工具markdown_tester

其中acge_text_embedding模型是一种高精度的文本向量化模型,它将海量的文本数据转化向量,使得计算机能够高效地计算文本之间的相似性。

相比于传统的预训练或微调垂直领域模型,acge模型支持在不同场景下构建通用分类模型、提升长文档信息抽取精度,且应用成本相对较低,可帮助大模型在多个行业中快速创造价值,为构建新质生产力提供强有力的技术支持。

在这里插入图片描述
而markdown_tester能够针对表格、段落、标题、阅读顺序以及公式等关键指标进行定量测评,并提供直观的雷达图展示结果。这样,开发者就可以直观地看到文本识别、解析和翻译的效果,从而便捷地评估产品性能。

在这里插入图片描述

总的来讲,智能文档处理“百宝箱”通过细分数据处理任务,有效解决了各类文档解析与知识管理的难点问题,在知识库开发、智能文档抽取、大模型预训练语料与数据治理快速入库、文档翻译等多个专业场景中展现出了广泛的应用潜力。

如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利。
https://www.textin.com/activity?tag=znwd-bbx&btn=tj&code=mkt-csdn241024&from=csdn-prtg

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/904174.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

echarts实现 水库高程模拟图表

需求背景解决思路解决效果index.vue 需求背景 需要做一个水库高程模拟的图表&#xff0c;x轴是水平距离&#xff0c;y轴是高程&#xff0c;需要模拟改水库的形状 echarts 图表集链接 解决思路 配合ui切图&#xff0c;模拟水库形状 解决效果 index.vue <!--/*** author:…

Kubeadm搭建k8s

一、架构 节点名称规格IP地址安装组件master012C/4G&#xff0c;cpu核心数要求大于2192.168.88.76docker、kubeadm、kubelet、kubectl、flannelnode012C/2G192.168.88.20docker、kubeadm、kubelet、kubectl、flannelnode022C/2G192.168.88.21docker、kubeadm、kubelet、kubect…

transformers和bert实现微博情感分类模型提升

项目源码获取方式见文章末尾&#xff01; 600多个深度学习项目资料&#xff0c;快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【LSTM模型实现光伏发电功率的预测】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模…

【Apache Zookeeper】

一、简介 1、场景 如何让⼀个应⽤中多个独⽴的程序协同⼯作是⼀件⾮常困难的事情。开发这样的应⽤&#xff0c;很容易让很多开发⼈员陷⼊如何使多个程序协同⼯作的逻辑中&#xff0c;最后导致没有时间更好地思考和实现他们⾃⼰的应⽤程序逻辑&#xff1b;又或者开发⼈员对协同…

了解lwip

lwIP是一个小型的开源的TCP/IP协议栈&#xff08;精简版的TCP/IP协议&#xff09;&#xff0c;博客借用了其他博客的内容在此声明。 TCP/IP协议栈结构 应用层&#xff1a;HTTP,MQTT,NTP、FTP....... 传输层:TCP协议&#xff08;用于不可靠设备可靠传输&#xff09;&#xff…

基于Springboot+微信小程序的房产交易租赁服务平台设计与实现 (含源码数据库)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 该系统…

《Linux运维总结:基于ARM64+X86_64架构CPU使用docker-compose一键离线部署redis 6.2.14容器版哨兵集群》

总结&#xff1a;整理不易&#xff0c;如果对你有帮助&#xff0c;可否点赞关注一下&#xff1f; 更多详细内容请参考&#xff1a;《Linux运维篇&#xff1a;Linux系统运维指南》 一、部署背景 由于业务系统的特殊性&#xff0c;我们需要面向不通的客户安装我们的业务系统&…

【计算机网络 - 基础问题】每日 3 题(五十九)

✍个人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞…

Dolphins 简介——一种新颖的多模态语言模型

背景问题 现在的自动驾驶系统在处理复杂的多变的现实驾驶场景时&#xff0c;往往缺乏人类驾驶员的全面理解&#xff0c;及时学习和适应能力以及错误纠正能力&#xff0c;为了实现能够像人类一样理解和响应复杂现实世界场景的完全自主车辆(AV)一直是一个重要目标。Dolphins 是一…

LabVIEW汽车状态监测系统

LabVIEW汽车状态监测系统通过模拟车辆运行状态&#xff0c;有效地辅助工程师进行故障预测和维护计划优化&#xff0c;从而提高汽车的可靠性和安全性。 项目背景&#xff1a; 现代汽车工业面临着日益增长的安全要求和客户对于车辆性能的高期望。汽车状态监测系统旨在实时监控汽…

面试经典 150 题.P26. 删除有序数组中的重复项(003)

本题来自&#xff1a;力扣-面试经典 150 题 面试经典 150 题 - 学习计划 - 力扣&#xff08;LeetCode&#xff09;全球极客挚爱的技术成长平台https://leetcode.cn/studyplan/top-interview-150/ 题解&#xff1a; class Solution {public int removeDuplicates(int[] nums) …

FPGA时序分析和约束学习笔记(3、Timequest时序路径详解和优化)

FPGA时序分析和约束学习笔记&#xff08;3、Timequest时序路径详解和优化&#xff09; Timequest中Data Path分析 Data Arrival Path clock path&#xff1a;时钟信号到达源寄存器时钟端口的时间 data path&#xff1a;数据从源寄存器Q端口出发到达目标寄存器D端口的时间 D…

浮动+flex布局

一.浮动 1.介绍 2.效果 <style> .one{ width: 100px; height: 100px; background-color: red; float: left; } .two{ width: 200px; height: 200px; background-color: blue; float: right; } </style> </head> <body> <div class"one&quo…

yandex企业邮箱:烽火域名邮箱有哪些优势?

yandex企业邮箱申请教程&#xff1f;如何用yandex免费域名邮箱&#xff1f; yandex企业邮箱作为一款备受推崇的企业邮箱服务&#xff0c;凭借其独特的优势&#xff0c;成为了众多企业的首选。烽火将深入探讨yandex企业邮箱的优势&#xff0c;特别是与烽火域名邮箱相比&#xf…

Python CGI编程-上传和下载文件file

文件上传&#xff1a;form表单需要设置enctype属性为 multipart/form-data&#xff0c;请求的网址是&#xff1a;http://localhost/post.html点击上传&#xff0c;页面跳转到&#xff1a;http://localhost/cgi-bin/hello.py上传的文件存在了/temp路径下文件下载&#xff0c;文件…

NVR小程序接入平台/设备EasyNVR多个NVR同时管理视频监控新选择

在数字化转型的浪潮中&#xff0c;视频监控作为安防领域的核心组成部分&#xff0c;正经历着前所未有的技术革新。随着技术的不断进步和应用场景的不断拓展&#xff0c;视频监控系统的兼容性、稳定性以及安全性成为了用户关注的焦点。NVR小程序接入平台/设备EasyNVR&#xff0c…

优质网站建设公司哪家好?2024网站建设公司推荐

选择一个好的优质网站建设公司可以从以下几点考虑—— 1、价位 选择网站建设公司首先是看网站建设公司的报价预算&#xff0c;就像你买衣服一样&#xff0c;虽然都是一模一样的&#xff0c;但是质量还是会有一定的差距的毕竟一分钱一分货。不过根据不同的公司肯定会有不一样的…

C++初阶(七)--类和对象(4)

目录 ​编辑 一、再谈构造函数 1.构造函数体赋值 2.初始化列表 二、类型转换 1.隐式类型转换 2.explicit关键字 3.类类型之间的对象隐式转换 三、static成员函数 1.概念 2.特性 3.面试题&#xff1a; 四、友元函数 1.基本介绍 2.回顾&#xff1a; 3.友元类&am…

【机器学习】音乐与AI的交响:机器学习在音乐产业中的应用

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀目录 &#x1f50d;1. 引言&#x1f4d2;2. 机器学习在音乐创作中的革新&#x1f341;AI作曲家的诞生与作品展示&#x1f342;机器学习在音乐…

基于安卓Android的健康饮食系统APP(源码+文档+部署+讲解)

&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 会持续一直更新下去 有问必答 一键收藏关注不迷路 源码获取&#xff1a;https://pan.baidu.com/s/1aRpOv3f2sdtVYOogQjb8jg?pwdjf1d 提取码: jf1d &#…