从数据提取到管理:TextIn平台的全面解析与产品体验

一、引言

在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的主要功能、产品亮点及其广泛的应用场景,带领大家全面体验这款文档处理“百宝箱”。


二、TextIn智能文档处理概述

TextIn平台覆盖文档解析的多个环节,支持批量处理多种文档类型,并适配多语言环境。其核心工具包括:

核心工具描述
TextIn ParseX提供复杂文档的可视化解析能力,适合多种格式的文档展示和编辑。
acge-embedding 向量化模型提升长文本信息抽取的精度,适合大规模信息检索和内容审核。
markdown_tester 文档解析测评工具帮助开发者定量评估解析效果,降低工具选择和调试成本。

三、可视化文档解析前端TextIn ParseX

TextIn ParseX是TextIn推出的一款通用文档解析工具,支持多种文档格式的高效解析和可视化展示。它不仅可以将PDF、JPG等格式的文档转换为Markdown格式,还可以解析表格、公式等复杂文档元素,确保阅读顺序的准确性,支持多语言识别,并且提供缩放、旋转、编辑等丰富的交互功能。

TextIn ParseX的技术特点包括:

  • 高效的解析速度:100页文档可在2秒内完成解析,适合需要快速处理大量文档的企业需求。
  • 精确的元素识别:支持表格、公式、图片等文档元素的精确识别与还原,特别适用于年报、业务报告等复杂文档的处理。
  • 灵活的可视化功能:用户可以通过目录树、预览图像、标注跳转等方式便捷地查看和编辑解析结果。

在线使用:【免费使用入口】

以下面的票据识别为例子,发票内容被准确识别,而且内容没有错误。

在这里插入图片描述

也可以使用通用文档解析,在获取结果后一键输出。

在这里插入图片描述
输出为markdown的结果如图:
在这里插入图片描述

同时,我们可以通过结合coze,调用textIn的api,使用coze完成图片信息提取,做成问答式的AI文本小助手,实际测试下来,流程比较简单,识别准确率也很高。
在这里插入图片描述


四、向量化acge-embedding模型

acge是一个通用的文本编码模型,是一个可变长度的向量化模型,使用了Matryoshka Representation Learning,专为提升长文档检索的精度和速度而设计。它通过将文本数据转换为数值向量,为搜索、聚类、推荐等任务提供坚实基础。acge-embedding模型通过高效的俄罗斯套娃表征学习(MRL)框架,支持多任务混合训练,帮助企业灵活地配置性能和资源,以应对不同应用场景的需求。

acge-embedding模型开源地址:https://huggingface.co/aspire/acge_text_embedding

技术架构上,acge_text_embedding采用了俄罗斯套娃表示学习(Matryoshka Representation Learning,MRL)编码不同粒度的信息,并让一个编码能够适应不同计算资源的下游任务。原理如下面GIF图所示:
在这里插入图片描述

acge-embedding的核心亮点:

  • 高精度和高效率:凭借创新的MRL框架,acge模型在文本分类和情感分析等任务中表现优异,支持灵活的嵌入维度,适应多种业务需求。
  • 支持多任务混合训练:模型通过对比学习技术,实现了数据的多场景混合训练,提升了泛化能力和检索效率。

五、文档解析测评工具markdown_tester

文档解析工具种类繁多,但缺乏统一的评估标准。TextIn开发的markdown_tester提供了定量评估机制,帮助用户客观地测评各类文档解析工具的性能。用户可以通过上传样本,查看段落、标题、表格等元素的识别效果,并通过直观的雷达图展示对比结果。

文档解析测评工具markdown _ tester开源地址:https://github.com/intsig-textin/markdown_tester

在这里插入图片描述
该测评脚本用于评价markdown文档相似性,从段落、标题、表格和公式四个维度进行评价:

指标说明
段落识别率段落匹配的个数(段落编辑距离小于0.2) / 预测出的总段落数
段落召回率段落匹配的个数(段落编辑距离小于0.2)/ 总的段落数
段落f12 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
标题识别率标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数
标题召回率标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数
标题f12 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)
标题树状编辑距离所有标题树编辑距离分数之和(pred,包含文字)/ 总标题数量(gt)
表格文本全对率文本全对的表格个数(pred)/ 总表格个数(gt)
表格树状编辑距离所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt)
表格结构树状编辑距离所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt)
公式识别率公式匹配的个数(公式编辑距离小于0.2) / 预测出的总公式数
公式召回率公式匹配的个数(公式编辑距离小于0.2)/ 总的公式数
公式f12 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
阅读顺序指标计算预测值和真值中,所有匹配段落的编辑距离

使用方法

运行install.sh,安装软件包:

./install.sh

待测评样本按照下述方式放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

运行命令:

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

其中:
path_to_pred_md:预测值文件所在文件夹。
path_to_gt_md:真值文件所在文件夹。

运行效果

结果表格:
在这里插入图片描述

结果雷达图:
在这里插入图片描述

markdown_tester工具的优势:

  • 全面性:涵盖了文档解析的多个重要维度,提供细致的评测指标。
  • 可视化结果:通过雷达图等形式直观展示各工具的解析效果,帮助用户快速筛选最合适的文档处理工具。

六、TextIn文档解析应用场景

TextIn平台的应用场景非常广泛,涵盖了从知识库构建到大规模语料处理等多个领域,助力企业实现更高效的信息管理和业务支持。

应用场景描述
知识库构建通过ParseX和acge模型配合,TextIn帮助开发者快速将企业内部文档自动解析,提升知识库构建的效率和准确性。
智能文档抽取支持合同、招投标文件等结构化信息抽取需求,TextIn提供精准的数据解析与复用,适用于企业合同管理、财务报销等场景。
大模型预训练语料处理TextIn能够批量、高效解析多种版式文档,支持大模型语料的精准提取,提升预训练数据的质量。
多语言文档翻译TextIn支持多语言文档解析与翻译,帮助企业轻松实现跨语言业务扩展,同时保持原有文档格式。

七、总结

TextIn平台凭借其强大的文档解析和管理能力,为开发者和企业带来了显著的效率提升。TextIn ParseX、acge-embedding模型和markdown_tester工具的组合,构成了一个功能全面、灵活高效的文档处理“百宝箱”。TextIn在处理多种文档格式、语言环境、以及知识库建设和文档翻译等方面为用户提供了高效、便捷的解决方案。通过TextIn,企业能够轻松实现复杂文档解析和大规模信息管理,进而在业务支持和信息管理方面获得显著提升。

最后,小智诚挚地邀请大家一起体验TextIn产品为我们带来的便利之处!点击【免费体验】,即可在线使用,感受TextIn为我们带来的文档解析新体验!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/909037.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot技术在校园社团管理中的高效应用

3系统分析 3.1可行性分析 通过对本校园社团信息管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本校园社团信息管理系统采用SSM框架,JAVA作…

软件工程(软考高频)

一、软件工程概述 1.软件的基本生命周期 2.软件过程 二、软件开发方法 三、 软件开发模型 1.瀑布模型和V模型 2.原型模型和螺旋模型 3. 增量模型 4.喷泉模型 5.统一过程UP模型 6.敏捷方法 敏捷方法的开发模型 四、需求分析 1.基本概念 2.需求的分类 3.需求分析的工具 (1)数…

Spring整合Mybatis过程

配置文件 springConfig --> [jdbcConfig mybatisConfig] jdbc配置文件进行基本的数据库连接池配置 mybatis配置文件进行SqlSessionFactory Bean 和 MapperScannerConfigurer Bean的创建 在Spring容器启动时,系统会根据配置创建并初始化所有MyBatis所需的Bean…

ML2001-1 机器学习/深度学习 Introduction of Machine / Deep Learning

图片说明来自李宏毅老师视频的学习笔记,如有侵权,请通知下架 影片参考 【李宏毅】3.第一节 - (上) - 机器学习基本概念简介_哔哩哔哩_bilibili 1. 机器学习的概念与任务类型 概念:机器学习近似于寻找函数,用于处理不同类型的任…

【Java多线程】:理解线程创建、特性及后台进程

📃个人主页:island1314 ⛺️ 欢迎关注:👍点赞 👂🏽留言 😍收藏 💞 💞 💞 一、背景 -- 进程与线程🚀 🔥 多线程是提升程序性能非常…

Matlab实现海马优化算法(SHO)求解路径规划问题

目录 1.内容介绍 2.部分代码 3.实验结果 4.内容获取 1内容介绍 海马优化算法(SHO)是一种受自然界海马行为启发的优化算法,它通过模拟海马在寻找食物和配偶时的探索、跟踪和聚集行为来搜索最优解。SHO因其高效的全局搜索能力和局部搜索能力而…

【初阶数据结构与算法】复杂度分析练习之轮转数组(多种方法)

文章目录 复杂度练习之轮转数组方法1方法2方法3 总结 复杂度练习之轮转数组 题目链接:https://leetcode.cn/problems/rotate-array/description/    为什么我们把这道题作为复杂度的练习题呢?是因为我们以后做题都会涉及到复杂度的计算,我…

哲学家就餐问题(Java实现信号量和PV操作)

哲学家就餐是经典的PV操作。 一个哲学家同时拿起左边的筷子和右边的筷子进行就餐,每一个哲学家都会等待右边的筷子,具备了死锁问题之一的循环等待。 基础的哲学家就餐问题代码 在Java中,Semaphore 是一个用于控制对某个资源的访问的同步工具…

mutable用法

mutable 关键字用于允许类的某个成员变量在 const 成员函数中被修改。通常,const 成员函数不能改变对象的任何成员变量,但将成员变量声明为 mutable 可以例外 class Hero { public:Hero():m_Hp(0), m_getHpCounter(0){}int getHp() const {m_getHpCounte…

C++ | Leetcode C++题解之第537题复数乘法

题目&#xff1a; 题解&#xff1a; class Solution { public:string complexNumberMultiply(string num1, string num2) {regex re("\\|i"); vector<string> complex1(sregex_token_iterator(num1.begin(), num1.end(), re, -1), std::sregex_token_iterator…

告别传统营销,HubSpot AI分析工具带你玩转新潮流

你们知道吗&#xff1f;现在的人工智能&#xff08;AI&#xff09;技术可是越来越厉害了&#xff0c;它简直就是我们营销人员的超级外挂&#xff01;有了AI分析工具&#xff0c;我们不仅能优化营销效果&#xff0c;还能大大提升工作效率。那么&#xff0c;具体是怎么一回事呢&a…

Docker打包自己项目推到Docker hub仓库(windows10)

一、启用Hyper-V和容器特性 1.应用和功能 2.点击程序和功能 3.启用或关闭Windows功能 4.开启Hyper-V 和 容器特性 记得重启生效&#xff01;&#xff01;&#xff01; 二、安装WSL2&#xff1a;写文章-CSDN创作中心https://mp.csdn.net/mp_blog/creation/editor/143057041 三…

如何删除react项目的默认图标,使在浏览器中不显示默认图标favicon.ico

要删除 React 项目的默认图标&#xff0c;使在浏览器中不显示默认图标favicon.ico&#xff0c;其实有两种方法&#xff1a; 方法一 方法要点&#xff1a;删除掉 public 目录下的 favicon.ico 文件&#xff0c;再用浏览器访问时&#xff0c;如果加载不到图标文件&#xff0c;就…

软件测试:测试用例详解

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、通用测试用例八要素   1、用例编号&#xff1b;    2、测试项目&#xff1b;   3、测试标题&#xff1b; 4、重要级别&#xff1b;    5、预置…

支付幂等性的实现中,通过“一锁、二判、三更新”

在这个支付幂等性的实现中&#xff0c;通过“一锁、二判、三更新”严格控制了支付链接生成接口的幂等性&#xff0c;确保同一业务单号在同一时间只会生成一个有效的支付链接&#xff0c;避免重复支付或其他意外操作。 Facade DistributeLock(keyExpression "#payCreate…

Charles抓包_Android

1.下载地址 2.破解方法 3.安卓调试办法 查看官方文档&#xff0c;Android N之后抓包要声明App可用User目录下的CA证书 3.1.在Proxy下进行以下设置&#xff08;路径Proxy->Proxy Settings&#xff09; 3.1.1.不抓包Windows&#xff0c;即不勾选此项&#xff0c;免得打输出不…

Chromium Mojo(IPC)进程通信演示 c++(3)

122版本自带的mojom通信例子channel-associated-interface 仅供学习参考&#xff1a; codelabs\mojo_examples\03-channel-associated-interface-freezing 其余定义参考上一篇文章&#xff1a; Chromium Mojo(IPC)进程通信演示 c&#xff08;2&#xff09;-CSDN博客​​​​…

鸢尾博客项目开源

1.博客介绍 鸢尾博客是一个基于Spring BootVue3 TypeScript ViteJavaFx的客户端和服务器端的博客系统。项目采用前端与后端分离&#xff0c;支持移动端自适应&#xff0c;配有完备的前台和后台管理功能。后端使用Sa-Token进行权限管理,支持动态菜单权限&#xff0c;服务健康…

【模型学习之路】手写+分析bert

手写分析bert 目录 前言 架构 embeddings Bertmodel 预训练任务 MLM NSP Bert 后话 netron可视化 code2flow可视化 fine tuning 前言 Attention is all you need! 读本文前&#xff0c;建议至少看懂【模型学习之路】手写分析Transformer-CSDN博客。 毕竟Bert是tr…

word及Excel常见功能使用

最近一直在整理需规文档及表格&#xff0c;Word及Excel需要熟练使用。 Word文档 清除复制过来的样式 当复制文字时&#xff0c;一般会带着字体样式&#xff0c;此时可选中该文字 并使用 ctrlshiftN 快捷键进行清除。 批注 插入->批注&#xff0c;选中文本 点击“批注”…