QAnything 1.4.1 中的文档解析

2024年初我们开源了QAnything,一个基于检索增强生成式应用(RAG)的本地知识库问答系统。对于本地知识库,QAnything支持多种格式的文档输入,允许用户上传包括PDF、图片、Word、PowerPoint、Excel、TXT,甚至音频等多种格式的数据。用户可以针对知识库进行互动问答,所有答案均能精准溯源,帮助用户确认问答的准确性。

四个月时间中,QAnything于Github的开源项目已经获得了近万颗星星,吸引了开发者社区的广泛关注,同时我们也收到了大量开发者的反馈。从提升整体问答准确性与用户体验角度出发,结合我们对目前RAG领域发展的理解。我们决定对QAnything SaaS平台中有关文档解析的部分技术进行开源,提升QAnything开源的效果。

在这里插入图片描述

在这篇博客中,我们将分享QAnything中文档解析的升级之路,包括我们对文档解析之于RAG的理解和认知,流程的设计思路,具体功能的实现路径,以及最终带来的问答效果的提升。

为什么是文档解析

随着最近半年中,一些长上下文LLM的出现和发展,很多RAG的经典问题(例如文档中的知识定位,也叫“大海捞针”)可以被很轻易的解决。一时针对RAG是否会被长上下文LLM取代的争论四起,一些悲观者甚至发出了“RAG已死”的言论。从目前的发展现状来看,RAG系统相比长上下文LLM最直接的优势普遍被认为还是计算成本,然而成本上的问题会随着时间的推移慢慢变得不是问题。

这么看来,RAG被淘汰是否只是个时间问题了?我们认为,RAG仍有两点优势是短时间内无法被替代的。其一是可以处理格式多样版式各异的文档数据,包括文档中的格式化区块(例如图片、表格、代码等等),并针对这些逻辑区块进行问答;其二是可以很直接的溯源,帮助用户快速从原文中验证答案的可靠性,从而提升整个问答系统的可信度。而这两点优势的发挥,都需要依赖一个强大的文档解析流程。

恰好,我们在文档解析领域具有一定的技术积累,做出过例如文档翻译和有道速读等成功的功能与产品,也于QAnything SaaS平台成功的应用了这项技术。

面向RAG的文档解析

早期的RAG系统或工具,都使用一套简单直接的解析方案。即直接提取文档中的所有文字信息,简单地根据等间距或文字空白对文字内容进行chunk切分,并将这些chunk转换为向量数据库用于语义检索。这样做对于一些简单场景是可行的,但我们在实践过程中发现了如下一些问题:(1)文字chunk语义的不完整(2)多栏文档阅读顺序错乱(3)非纯文本结构的区域格式错乱或直接丢失。

检索是RAG中相当重要的一个环节,一般是基于向量相似度排序来实现参考源的找回。假如文字chunk也即最小检索颗粒度中包括多条语义无关的内容,或者一些完整的语义被切分到不同的chunk中,都会导致语义向量的表示不准确,无法被特定语义的问题匹配到。因此这里的要求是尽量确保切分出的chunk内语义是完整的,同时尽量确保一些基本的连贯语义被切分到了同一个chunk中。

在这里插入图片描述

对于常见的多栏文档,例如IEEE会议论文,传统的OCR识别只能对文本行进行定位与识别,无法按照阅读顺序对文本行进行排序,无法确定正文与非正文内容。这会导致文本内容的顺序错乱,或者包含页眉页脚等非正文的无关信息,从而严重影响RAG系统的检索和问答效果。因此文档解析应具有确定文档阅读顺序的能力。

一些非纯文本结构的区域,例如图片若直接被丢弃则无法在LLM的回答中被带出,而表格则需要转化为LLM可以理解的结构化格式,才能进行针对性的问答。对于图片我们做成链接的形式存储(表格也可以转换为图片以同样的形式存储),如此便可在LLM的对话中被带出,同时可以在问答过程中更高效的溯源。而表格则需要解析为HTML或Markdown的格式,才可以针对表格内容进行提问。

综上所述,**一个面向RAG的文档解析流程应该具备有一定的版式分析能力,以及能解析表格这类具有特定结构的逻辑区域,我们以此来设计QAnything中文档解析的算法流程。**即先通过版式分析对文档中的逻辑区块进行区分与定位,这样做可以(1)确保纯文本部分只包括正文内容,将其以章节这种自然的形式切分确保其语义完整性,还有机会得到章节标题这类高阶的语义信息(2)得到配图和表格这类需要特殊处理的非纯文本区域的类别和位置(3)得到与阅读顺序一致的区域顺序。其后,我们再对非纯文本区域进行更进一步的处理。

在这里插入图片描述

我们**选择Markdown作为文档解析的统一输出格式,**因其设计初衷与面向RAG的文档解析完全一致:只关注内容而非格式。Markdown可以表示标题、正文、表格、超链接等内容,而更复杂的表格可以由内嵌HTML的形式表示。同时Markdown作为一种简洁易用的轻量级标注语言,充斥在互联网世界的各种数据中,其格式可以被市面主流的开源或商用LLM所理解,可以很好的完成基于表格等格式的对话任务。

具体技术点

版式分析

QAnything选择在切分chunk时,不是采用纯文本切分的方式,而是通过对文档的布局结构进行预测得到文字段落、图片、表格等。在QAnything切分chunk时会考虑文档的布局结构,同一语义的文字片段可以被切分到相同的chunk中,对于RAG流程中相关内容的准确召回有着极大的帮助。

在这里插入图片描述

具体的在QAnything中,我们沿用了目标识别的思路来进行文档布局分析,依托在有道文档翻译场景积累的海量数据,训练了一个多场景、高精度的布局分析模型,对文档的布局进行识别。在QAnything中,我们同时引入了一套版面恢复流程,融合版式分析的结果和OCR识别结果,将文档转换成markdown的形式进行输出,方便后续的chunk切分过程。

表格解析

QAnything中,我们发现用户的问答记录集中在对文档表格数据的提问上。为了提高问答系统对表格数据的理解和响应准确性,我们采用了LORE表结构识别模型。LORE模型的核心是逻辑位置回归网络,它将表格单元格的空间位置和逻辑位置结合在一起进行端到端建模和预测。LORE使用基于CNN的关键点分割网络提取视觉特征,通过两个回归头分别预测单元格的空间位置和逻辑位置。最终,LORE可以精确还原出整个表格的行列结构,并输出机器可解析的表示。

在这里插入图片描述

采用了表格解析方案后,QAnything的表格数据问答准确率得到了显著提升,特别是对于复杂的跨行跨列问题,极大增强了系统的实用性。

检索与问答的提升

我们以有道数字人白皮书和Qanything白皮书两个PDF文档为例,分别按照常规PDF解析方式和面向RAG的方式进行解析,最终进行问答对比,以比较两种解析方式的优劣。其中常规PDF解析将PDF文档中的文字直接进行提取,以固定窗口大小切分文字chunk;面向RAG的解析方式利用文档解析后生成的Markdown文档,按照语义章节对文档进行切分。

更新文档解析逻辑后的QAnything优势比较如下:

优势1:语义更加完整更加精准的召回,以得到更准确更加有条理的回答
Q1:QAnything的产品优势有哪些?

旧版回答:

Qanything的产品优势包括成本优势、效率提升、灵活应用、AI赋能和易用至上。具体来说,Qanything利用先进的数字技术,采用高效的数据采集与合成技术,能够快速打造出精准、神态灵动的虚拟形象,从而实现经济高效的个性化虚拟主播创建。同时,Qanything简化了创作流程,用户无需专业技术背景即可快速掌握,支持批量生产内容,显著提升了更新速度和工作效率。用户可以根据具体需要自行选择合成的片段、精确控制动作的起始位置以及插放节奏,赋予了用户充分的创作自主权,灵活适应不同场景的不同需求。此外,Qanything内置的大模型使得自动撰写播报文案成为可能,通过对大数据的学习和分析,能够即时生成各种热点话题的高质量播报文稿。最后,Qanything配备一套友好易用的视频剪辑工具,专为非专业用户设计,将原本复杂的后期处理过程变得极度简化,用户能够轻松完成整套视频制作流程。

新版回答:

QAnything问答系统的优势包括以下几点:
1、支持任意格式的本地知识库: QAnything可以处理多种格式的数据,包括PDF、Word、PPT、TXT、图片、网页链接、数据库等,使用户能够方便地管理和使用各种类型的知识。
2、基于行业专属大模型的自然语言处理技术:QAnything利用OCR技术对各种类型的数据进行结构化处理,并调用大模型的自然语言处理能力,实现对数据的智能化分析和理解,包括实体识别、关系提取、语义分析、总结等。
3、多种功能支持:QAnything提供文件管理、模型训练、模型验证、多轮问答、下载等多种功能,帮助用户实现准确、快速、靠谱的业务知识问答体验。
4、提高信息获取效率:相比以前的FAQ、ES等模式,文档问答技术进一步提高了处理效率和准确性,让用户更快速、更方便地获取所需信息。

总之,QAnything问答系统通过支持任意格式的本地知识库、基于行业专属大模型的自然语言处理技术、多种功能支持和提高信息获取效率等优势,为企业级用户提供了准确、快速、靠谱的业务知识问答体验。

优势2:可以针对表格进行问答,可以对表格中的内容进行精准定位
Q2:数字人部署8G内存可以吗?

(注:参考文档中有如下部分内容

在这里插入图片描述

旧版回答:
根据参考信息中的配置需求,有道数字人的推荐硬件配置环境中没有明确提及内存要求。因此,无法确定数字人部署是否可以使用8GB内存。建议参考有关文档或联系有道数字人的官方支持团队以获取更准确的信息。

新版回答:
根据参考信息中的配置需求,推荐的内存模块为16G+,所以8G内存可能不够满足数字人部署的要求。

Q3:embedding模型中bce-embedding和bce-rerank一起用的话,各项指标是多少?

        (注:参考文档中有如下部分内容

在这里插入图片描述

旧版回答:
bce-embedding和bce-rerank是embedding模型中的两个组件。具体的指标取决于具体的应用场景和任务。一般来说, bce-embedding用于生成语义向量,可以通过先进的embedding方法 来提取文本的深层含义,从而提高搜索结果的相关性和问答匹配度。bce-rerank则用于对搜索结果进行重排序,以进一步提高搜索的准确性和精度。
关于具体的指标,可以根据实际情况进行评估和衡量。常见的指标包括准确率、召回率、F1值等。另外,还可以根据具体任务的需求,如翻译、摘要和问答等,来评估模型的性能和效果。
总之,bce-embedding和bce-rerank的组合可以提高embedding模型在语义搜索和问答系统中的效果,具体的指标取决于具体的应用场景和任务需求。

新版回答:
根据参考信息中的数据,当使用bce-embedding时,各项指标如下:

  • WithoutReranker: 85.91/62.36
  • CohereRerank: 91.25/69.38
  • bge-reranker-large: 91.80/71.13
  • bce-reranker-base_v1: 93.46/77.02
    这些指标表示了使用bce-embedding和bce-rerank模型时的命中率(hit rate)和平均倒排(mean reciprocal rank)的表现为93.46/77.02 。

优势3:可以解析文档中的配图这类非文本信息,并在回答中给出

Q4:交互型数字人的特点是什么?

新版回答:

交互型数字人的产品特点包括:

  1. 多终端支持:支持多种终端设备连接,如PC、平板、手机、大屏幕等,实现线上线下一体化解决方式。
    在这里插入图片描述

在这里插入图片描述

  1. 支持离线模式:可以在线下终端进行批量离线部署,无需考虑宽带、GPU等硬件要求。
  2. 接入AI大脑:支持接入AI问答大模型Anything和子曰大模型,能够从多样化的知识源中提取精准答案,实现业务知识精准回答。
  3. 低运营成本:数字人交互场景即插即用,实施周期短,涉及的审批部门少,自带问答大模型,场景落地快。
    总之,交互型数字人具有多终端支持、离线模式、接入AI大脑和低运营成本等特点。
    在这里插入图片描述

QAnything 开源版已经升级到了1.4.1:

https://github.com/netease-youdao/QAnything/releases/tag/v1.4.1

在这里插入图片描述

访问 https://qanything.ai 可以直接体验商业版qanything.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/643048.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

m1系列芯片aarch64架构使用docker-compose安装rocketmq5.0以及运维控制台

之前看到 DockerHub 上有大佬制作了 m1 芯片, aarch64架构的 rocketmq 镜像, 所以就尝试的安装了下, 亲测可用: 一. docker-compose.yml 文件命令 volumes 挂载目录需要换成自己的目录 注意 depends_on 标签, broker 和 console 的 启动要晚于 namesrv, 因为 broker 需要注册…

SpringBoot 集成 ChatGPT(附实战源码)

建项目 项目结构 application.properties openai.chatgtp.modelgpt-3.5-turbo openai.chatgtp.api.keyREPLACE_WITH_YOUR_API_KEY openai.chatgtp.api.urlhttps://api.openai.com/v1/chat/completionsopenai.chatgtp.max-completions1 openai.chatgtp.temperature0 openai.cha…

VSCode配置Lua5.4安装

参考:VSCode 配置 Lua 开发环境(清晰明了)_lua vscode-CSDN博客 1.下载 Lua Binaries Download (sourceforge.net) 2.配置环境变量 解压放到某文件夹: 环境变量: 3.VSCode安装插件 4.配置 5.测试

【C语言刷题系列】求一个数组中两个元素a和b的和最接近整数m

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:C语言刷题系列 目录 一、问题描述 二、解题思路 解题思路: 解题步骤: 三、C语言代码实现及测试 一、问题描述 给定一…

全栈式数据统计:SqlAlchemy怎样连接MsSql Server获取视图列表

1.源代码 #-----------获取数据库视图列表----------------------------- # -------密码含特殊字符使用 from urllib.parse import quote_plus as urlquotefrom sqlalchemy import create_engine, MetaData, inspect# 替换为你的数据库连接字符串 DRIVER "ODBC Driver 1…

数组序号Spinner

使用Spnner代替编辑框&#xff0c;只能选择已有的&#xff0c;不会越界&#xff0c;大大简化了代码。 String[] SA new String[list.size()]; for (int i0; i<SA.length; i) {SA[i] String.valueOf(i); } ArrayAdapter<String> adapter1 new ArrayAdapter<>(…

【2024软考】史上最全!软考刷题+解析大合集(9万字全手工打,货真价实)

计算机基础知识 1.中断向量表用来保存各个中断源的中断服务程序的入口地址。当外设发出中断请求信号&#xff08;INTR&#xff09;以后&#xff0c;由中断控制器&#xff08;INTC&#xff09;确定其中断号&#xff0c;并根据中断号查找中断向量表来取得其中断服务程序的入口地…

读论文 | Small object detection model for UAV aerial image based on YOLOv7

目录 1、前言 2、摘要 3、论文的方法 3.1 方法描述 3.2 方法改进 3.3 本论文的模型图 3.4 本文的数据集&#xff1a; 3.5 论文实验 3.6 解决的问题 3.7 论文总结 &#xff08;1&#xff09;文章优点 &#xff08;2&#xff09;方法创新点 &#xff08;3&#xff0…

基于Tensorflow卷积神经网络人脸识别公寓人员进出管理系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景与意义 随着科技的快速发展和智能化水平的提高&#xff0c;公寓管理面临着越来越多的挑战。传统的公寓…

Django 安装步骤

步骤如下 打开cmd输入命令行 pip install django上图代表已经安装好了。但是里面的warning必须得将路径弄好&#xff0c;不然是运行不了 创建django项目 去到VS Code里&#xff0c;进入Terminal 页面&#xff0c;运行下面的命令 django-admin startproject [自己项目名称]就…

基于地理坐标的高阶几何编辑工具算法(4)——线分割面

文章目录 工具步骤应用场景算法输入算法输出算法示意图算法原理 工具步骤 选中待分割面&#xff0c;点击“线分割面”工具&#xff0c;绘制和面至少两个交点的线&#xff0c;双击结束&#xff0c;执行分割操作 应用场景 快速切分大型几何面&#xff0c;以降低面的复杂度&…

Scrapy顺序执行多个爬虫

Scrapy顺序执行多个爬虫 有两种方式&#xff1a; 第一种&#xff1a;bat方式运行 新建bat文件 cd C:\python_web\spiders\tiktokSelenium & C: & scrapy crawl spider1 & scrapy crawl spider2 & scrapy crawl spider3 & scrapy crawl spider4 第二种&a…

小猪APP分发:一站式托管服务,轻松玩转应用市场

在当今移动应用爆炸式增长的时代&#xff0c;开发者们面临的挑战不再仅限于创意的火花和代码的实现&#xff0c;更在于如何让精心打造的应用快速触达广大用户。这正是小猪APP分发www.appzhu.net应运而生的背景——作为一个全面、高效的APP托管服务分发平台&#xff0c;它为开发…

解决docker中container运行闪退终止的问题

在运行bindmount-test时&#xff0c;点击完运行按钮后闪退结束运行。 第一步查看log日志&#xff1a; 2024-05-18 23:46:18 Error: Cannot find module /app/nodemon 2024-05-18 23:46:18 at Function.Module._resolveFilename (internal/modules/cjs/loader.js:668:15) …

【Kafka】消息的顺序性、可靠性、幂等性

目录 消息顺序性消息可靠性生产者丢失消息消费者丢失消息Kafka丢失消息 消息幂等性 消息顺序性 消息追加到partition尾部&#xff0c;单个partition是有序的&#xff0c;但多个partition如何进行有序的获取一些消息&#xff1f; 解决方案 一个topic只设置一个partition&…

驱动执行报“Attribute var: Invalid permissions 0665”

问题&#xff1a;执行驱动的时候会报下面这个错误 WARNING: CPU: 0 PID: 123 at fs/sysfs/group.c:61 internal_create_group0x170/0x264() Attribute var: Invalid permissions 0665 问题分析&#xff1a;查看 fs/sysfs/group.c:61的代码&#xff0c;发现是我设置 module_par…

【C语言】C语言-学生成绩管理系统(源码+数据文件+课程论文)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

体检系统商业源码,C/S架构的医院体检系统源码,大型健康体检中心管理系统源码

体检系统商业源码&#xff0c;C/S架构的医院体检系统源码&#xff0c;大型健康体检中心管理系统源码 体检信息管理系统软件是对医院体检中心进行系统化和规范化的管理。系统从检前&#xff0c;检中&#xff0c;检后整个业务流程提供标准化以及精细化的解决方案。实现体检业务市…

I.MX6ULL的官方 SDK 移植实验

系列文章目录 I.MX6ULL的官方 SDK 移植实验 I.MX6ULL的官方 SDK 移植实验 系列文章目录一、前言二、I.MX6ULL 官方 SDK 包简介三、硬件原理图四、试验程序编写4.1 SDK 文件移植4.2 创建 cc.h 文件4.3 编写实验代码 五、编译下载验证5.1编写 Makefile 和链接脚本5.2编译下载 一、…

Rolla‘s homework:Image Processing with Python Final Project

对比学习Yolo 和 faster rcnn 两种目标检测 要求 Image Processing with Python Final Project Derek TanLoad several useful packages that are used in this notebook:Image Processing with Python Final Project Project Goals: • Gain an understanding of the object …