打工人好用的大模型问答,还需要一款可靠的文档解析工具

如果说三四年前,我们对AI的展望还停留在科幻片的话,现在,通向AI智能的路径已经初现端倪。各行各业的朋友们不约而同地嗅到了大模型带来的生产方式变革气息。

LLM宣布了AI时代的正式到来。

2022年11月30日,ChatGPT发布,向我们展示了技术的颠覆性潜力,生成式人工智能一夜爆火,ChatGPT月活用户在两月内突破1亿。23年,国内外科技大厂、初创企业纷纷入场,打造“AI”之年。

LLM的落地应用,正在迅速推动各领域工作方式的变革。我们不禁要问:AI会取代我们?还是让我们变得更高效?

埃森哲2023年的研究报告指出,所有行业中 40% 的工作时间都将得到大语言模型的协助。其主要原因在于,语言任务占到了企业人员工作总时长的 62%,让AI成为副手协同作战,将重塑打工人的工作方式,通过自动化技术大幅度提升生产力。

愿景在前,行则将至。当前,在咨询建议、内容创建等常用领域,已经有许多小伙伴开始尝试给自己配备一位“AI助手”了。在常规性知识问答之外,各个细分领域的专业性问答对打工人而言更加实用。合小研在阅读长篇幅论文、报告的时候,就经常需要大模型来完成一些综述、概括、辅助分析的工作,因此,我们非常关心一个问题:如果我提供一系列资料,目前大模型能为我反馈正确、精准的专业信息吗?

1 知识问答,大模型的表现怎么样?

在文档交互中,我们需要大模型实现的功能包括:根据文件完成知识问答,给出关联信息建议,以及提供专业性分析参考等。

多数企业的工作环境中,存在大量电子档、扫描档文件,而全人工阅读分析,往往会造成不必要的时间成本消耗。尤其在面对扫描或图片文档时,常规办公软件无法完成关键词检索,导致信息收集更为不便。

对话AI可以帮助我们解决这个问题吗?

最近,合小研以国内某自然语言大模型为例进行了简单的测试。该模型处于国内第一梯队水平,合小研的小伙伴们平时也经常在工作中使用。

1.1 企业年报

首先,合小研上传了一份长度100页的扫描版企业年报(部分),并提出问题:根据文本内容,该公司在什么时间,在哪里上市,营业期限到什么时候?

大模型给出了正确的回答。

继续追问一个问题:根据报告,企业与客户间的销售商品合同包含什么内容?

大模型同样给出了答案。与原文档进行比对,回答详细且全面。

可见,在年报等长文档信息提取方面,大模型能够为我们提供有效的分析辅助。

1.2 经济报告

我们来尝试一份包含数据与图表的经济报告。上传报告后,合小研提出问题:依据报告,美国CPI食品的1月官方值是多少?

大模型告诉我:根据您提供的文件内容,报告中并没有直接提供美国CPI食品的1月官方值。如果需要1月的具体数值,可能需要查阅其他官方数据发布渠道或等待官方数据的公布。

然而,如果进行人工检索,我们将在报告中获得如下表格,标明了CPI食品的1月官方值。

为什么大模型对这一信息读取失败?

1.3 期刊论文

上传扫描版论文后,我们提出具体问题:根据所给文件,精氨酸在40度的水中,溶解度是多少?

大模型表示:文档中并没有直接提供精氨酸在40℃时的具体溶解度数值。同时,它补充道:如果文档中确实包含了40℃的溶解度数据,但由于文档不完整或扫描不清晰导致无法读取,请提供更详细的信息或完整的文档,以便进行准确回答。

但是,在人工阅读的情况下,我们可以看到清晰的有线表格,提供上述信息。

再一次,大模型无法找到相应的关键信息,并给出准确答案。

在实际工作场景中,我们需要识别的文件是多样、复杂的,其中既有清晰且便于机器读取的纯文字电子文件,也可能包含大量形式的图表,或来源时期不一的纸质扫描档、模糊或扭曲页面。当我们使用大模型作为工作助手,准确且稳定的输出是不可或缺的要素,当前的内容生成,显然需要进一步提升。

2 大模型回答不理想,原因何在?

在简短的测试里,我们考察了大模型对企业年报、经济报告以及期刊论文三份类型文件的问答效果,其中两项回答并不理想,无法为我们提供准确的内容。

发现这个问题后,合小研咨询了合合团队中的产品研发小伙伴们,试图推测可能的问题成因。

产品同学秒回合小研:用我们的文档解析工具把PDF转成Markdown格式了,你再发给大模型试试。

将转化后的经济报告发送给大模型,我们再次提出相同的问题。

这一次,大模型清晰地给出了正确答案。

在期刊论文案例中,有线表格中细节信息同样得到了正确提取。

产品同学表示:这说明就是文档解析环节出的问题,之前大模型没能从你给的文件里识别到需要的信息。我们的解析工具把图片格式、各类表格都精准识别,转化成机器可读格式,大模型就能给出正确答复了。

我们了解到,业界实践中,目前的问答产品落地存在几大挑战:

第一,文档识别失败率高。面对复杂版面,无法正确解析,获取标题、分块文本、图表等。在这种情况下,大模型常表现为细节信息提供答案失败或回答错误。

第二,逻辑结构解析不完整。段落语义划分错误,导致回答不全面或总结性偏差。

第三,召回效果差。可能由于训练数据不平衡,影响模型检索召回能力。

而面对前两种问题,稳定准确的文档解析工具将大大提升大模型的应答能力,优化用户体验。

3 专业文档解析工具,有效增强大模型的问题解决能力

专业的文档解析是如何实现的?为什么它对大模型如此重要呢?

针对这些问题,我们需要理解PDF解析与大模型的阅读方式。

目前,主流专业产品采用的路线结合了PDF提取技术与OCR识别技术。其中,PDF提取技术主要用于处理PDF格式的文档,通过直接解析PDF文件的结构来提取文本和其他内容;其优点是处理速度快,适合于结构简单的PDF文档,但在处理复杂布局或包含大量图表、图片的文档时,准确率可能较低。OCR(Optical Character Recognition)技术通过扫描文档图像,识别其中的文字信息。这种技术适用于各种格式的文档,特别是扫描的纸质文档或图像格式的电子文档。OCR技术可以处理复杂布局的文档,但处理速度相对较慢,且对图像质量有一定要求。

合合信息的文档解析工具在此基础上对文件进行阅读顺序还原,支持多种格式的输出,在信息识别这一环节提供给大模型最“舒适”的序列文字。

文档解析是文档问答类大模型产品不可或缺的底层工具,并对产品质量有着重要的影响。在上文的测试中,大模型读取失败的信息分别来自文档中以图片格式存在的数据,与扫描档有线表格,同样也是文档解析环节中的难点。

由此可知,大模型应用场景下,一款好用的PDF解析工具,至少需要具备三个特性:速度快、精度高、兼容性好。在文档解析这一专精领域,合合信息凭借先发优势,积累了丰富的版式识别能力,能够实现元素检测准确,阅读顺序还原准确与高效的快速识别。

美国管理学家劳伦斯·彼得提出的木桶理论在AI纪元仍然适用。一款用户体验良好的大模型问答产品,需要全面的技术底座,方能成为改革工作模式、推广落地场景的利器。如何打造真正适用、实用,让打工人觉得好用的产品,也是合小研的小伙伴们,以及更多AI从业者不断思考探索的问题。理想产品的打造,要从每一个技术难关的攻克开始,而专业的文档解析工具,正是我们的突破点之一。

4 如何试用文档解析工具

合合信息文档解析产品已经上架到TextIn平台,任何开发者都可以注册账号并开通使用。

访问链接:https://www.textin.com/market/detail/pdf_to_markdown

点击【免费体验】,即可在线试用,如下图所示:

如果想试试用代码调用,也可以访问对应的接口文档内容:

https://www.textin.com/document/pdf_to_markdown

平台提供了一个Playground,帮开发者们预先调试接口。

点击页面中【API调试】按钮,即可进入调试页面。

在这里可以简单配置一些接口参数,发起调用后,右侧就会出现调用结果。

如果想用python调用,既可以参考平台上的通用示例代码,也可添加本文最后的二维码,获取更全面的demo代码。

文档解析产品目前正处于内测阶段。正式产品通常有1000页的免费试用额度,在内测期间,平台给每位开发者提供每周7000页的额度福利,关注公众号《合研社》即可领取。欢迎大家与我们团队多多交流,提出意见或建议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/652656.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

c++(四)

c(四) 运算符重载可重载的运算符不可重载的运算符运算符重载的格式运算符重载的方式友元函数进行运算符重载成员函数进行运算符重载 模板定义的格式函数模板类模板 标准模板库vector向量容器STL中的listmap向量容器 运算符重载 运算符相似,运…

AI写作工具的革命:AIGC如何提升内容生产效率

AIGC,即人工智能生成内容,是一种新兴的内容生产方式,它利用人工智能技术来自动生成文本、图像、音频、视频等多种形式的内容即进入实际应用层面。 所以AI不再是高深的、让人望尘莫及的算力算法,而是真实地贴近了我们的生活&#…

Java 泛型 <? super T> 中 super 怎么 理解?与 extends 有何不同?

作者:zhang siege 链接:https://www.zhihu.com/question/20400700/answer/91106397 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 首先,泛型的出现时为了安全,所有与…

经典神经网络(9)VAE模型原理及其在MNIST数据集上的应用

经典神经网络(9)VAE模型原理及其在MNIST数据集上的应用 图片生成领域来说,有四大主流生成模型:生成对抗模型(GAN)、变分自动编码器(VAE)、流模型(Flow based Model)、扩散模型&#…

【最优化方法】实验一 熟悉MATLAB基本功能

实验一  熟悉MATLAB基本功能 实验的目的和要求:在本次实验中,通过亲临使用MATLAB,对该软件做一全面了解并掌握重点内容。 实验内容: 1、全面了解MATLAB系统 2、实验常用工具的具体操作和功能 学习建…

【基础篇-Day8:JAVA字符串的学习】

目录 1、常用API2、String类2.1 String类的特点2.2 String类的常见构造方法2.3 String类的常见面试题:2.3.1 面试题一:2.3.2 面试题二:2.3.3 面试题三:2.3.4 面试题四: 2.4 String类字符串用于比较的方法2.5 String类字…

基坑气膜:建筑工地环保新利器—轻空间

随着城市化进程的加快,建筑行业的飞速发展带来了严重的环境问题,如噪音和粉尘污染,给人们的生活带来诸多不便。为了解决这些问题,建筑行业一直在探索更为环保和高效的施工方式。近年来,基坑气膜技术逐渐崭露头角&#…

【国信华源:以专业服务,协助水利厅抵御强暴雨】

5月18日-19日,广西出现入汛以来最强暴雨天气过程,钦州、防城港、北海、南宁等地出现特大暴雨,多地打破降雨量极值。国信华源技术团队积极行动驻守一线,为打好山洪灾害防御的提前战、主动战提供了技术支撑。 5月17日18时&#xff0…

SOAR-Top 10安全剧本最佳实践-百度网盘下载

概述: SOAR(Security Orchestration,Automation and Response安全编排自动化响应),Gartner 对 SOAR 的最新描述性定义(摘自 Gartner 报告《Hype Cycle on Threat-Facing Technologies, 2018》) 是:SOAR 是一系列技术的…

基于SpringBoot+Vue在线动漫信息平台设计和实现(源码+LW+部署讲解)

🌹作者主页:青花锁 🌹简介:Java领域优质创作者🏆、Java微服务架构公号作者😄 🌹简历模板、学习资料、面试题库、技术互助 🌹文末获取联系方式 📝 🌹推荐一个人…

使用nexus搭建的nodejs私库,定期清理无用的npm组件,彻底释放磁盘空间

一、背景 昨天我们整理了一篇关于docker私库,如何定期清理以释放磁盘空间的文章。 虽然也提及了npm前端应用的组件该如何定期清理的,本文是对它作一个补充说明。 前文也看到了,npm组件占用的blob空间为180多GB,急需清理。 二、…

K8s证书过期处理

问题描述 本地有一个1master2worker的k8s集群,今天启动VMware虚拟机之后发现api-server没有起来,docker一直退出,这个集群是使用kubeadm安装的。 于是kubectl logs查看了日志,发现证书过期了 解决方案: 查看证书 #…

vue3 部署后修改配置文件

前端项目部署之后,运维可以自行修改配置文件里的接口IP,达到无需再次打包就可以使用的效果 vue2如何修改请看vue 部署后修改配置文件(接口IP)_vue部署后修改配置文件-CSDN博客 使用前提: vite搭建的vue3项目 使用setu…

IND-ID-CPA 和 IND-ANON-ID-CPA Game

Src: https://eprint.iacr.org/2017/967.pdf

WGCLOUD部署好后,怎么登录WGCLOUD界面

WGCLOUD的server启动完成后,我们在浏览器里输入URL,如下 http://[server主机IP]:9999 注意默认端口就是9999,如果修改过,那么把端口改成自己的实际端口 这样就可以看到登录页面了,默认账号密码是:admin/…

2951. 找出峰值

找出数组中的峰值 给你一个下标从 0 开始的数组 mountain 。你的任务是找出数组 mountain 中的所有 峰值。 以数组形式返回给定数组中 峰值 的下标,顺序不限 。 注意 峰值 是指一个严格大于其相邻元素的元素。数组的第一个和最后一个元素 不 是峰值。 示例 1 …

VSCODE常用插件记录

重点提名: back & ForthBookmarksC/ChighlightSSH FS //SSH插件

《精通Stable Diffusion AI绘画:基础技巧、实战案例与海量资源一站式学习》

随着人工智能技术的迅猛发展,AI绘画已经成为了一个炙手可热的话题。特别是在设计、艺术和创意领域,AI绘画工具的出现无疑为创作者们带来了更多的可能性和便利。《Stable Diffusion AI绘画从提示词到模型出图》这本书,就是一本深入解析Stable …

【IDEA】Redis可视化神器

在开发过程中,为了方便地管理 Redis 数据库,我们可能会使用一些数据库可视化插件。这些插件通常可以帮助你在 IDE 中直观地查看和管理 Redis 数据库,包括查看键值对、执行命令、监视数据库活动等。 IDEA作为IDE界的Jenkins,本身自…

SAP 根据报错消息号快速定位问题

通常用户在业务的操作过程中,经常会遇到报错信息,有些报错是系统控制抛出的信息,但是有些报错的信息是根据不同地点业务场景对填写的数据进行判断校验,然后给出的报错信息,正常情况报错信息一般是有文本,或…