大模型知识问答: 文本分块要点总结

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下:

《大模型面试宝典》(2024版) 发布!


本文介绍LLM知识问答中文本分块的相关内容。

图片

一、字符切分

Langchain的CharacterTextSplitter,直接按给定的chunk_size(块内最大字符数量)去生硬切分文本块,不考虑文本结构,为了保证文本块之间的上下文联系,基于chunk_overlap(块重叠字符数量)去控制文本块之间的重叠字数,注意,在英文里是按字母数考虑字符数量。当然,也能设置分隔符separator去分割。

图片

图:字符切分

二、句子切分

Llama_index的SentenceSplitter,针对句子层面切分文本块,并且还提供父子节点关系。

三、递归字符切分

Langchain的RecursiveCharacterTextSplitter,默认分割符:[“\n\n”, “\n”, " ", “”](分别代表段落分隔符、换行符、空格、字符),拆分器首先查找两个换行符(段落分隔符)。一旦段落被分割,它就会查看块的大小,如果块太大,那么它会被下一个分隔符分割。如果块仍然太大,那么它将移动到下一个块上,以此类推。因为某些书写系统没有单词边界,例如中文、日语和泰语等,所以可以增加以下分隔符:[‘\n\n’, ‘\n’, ’ ', ‘.’, ‘,’, ‘\u200b’, ‘,’, ‘、’, ‘.’, ‘。’, ‘’]。

图片

图:递归字符切分

四、按文件风格切分

除了简单的平文本文档,对于其他不同格式的文件(比如HTML, Markdown, PDF等),采用不同的方式切分。比如:

- Markdown: 可以按照#来判断标题级别进行切分,也可以标题块下叠加字符切块;

- Python等代码文件: 可以按照class、def等切分出不同块;

- PDF: 用Unstructured库解析PDF文件,除文本外,表格也能很好抽取出来,由于表格向量化不具备较好的语义信息,一般开发者会将抽取出的表格先做总结,将表格总结向量化加入检索池中,若检索到该表格,则将原始表格喂入LLM内。

- 图片: 有好多做法,比如如果图片具有文本信息,可以直接OCR识别后的文字作为该图片的文本块。如果该图片不具备文本信息,可以用多模态大模型对图片生成图片描述或总结,当然也能用图片embedding,如CLIP。这里不太属于文本分块的讨论范畴,后面会再做分享;

- HTML: 按元素级别拆分文本,并给每个文本块添加元素级别的元数据,能将具有相同元数据的元素组合再一起。

五、语义切分

1、基于Embedding

Langchain的SemanticChunker,由Greg Kamradt提出[1],有2种方式:

(1)具有位置奖励的层次聚类: Greg想看句子嵌入的层次聚类会如何。但由于发现他选择按句子进行拆分时,有时会在长句子之后出现短小句子。这些尾随的短小句子可能可以改变一个块的含义,所以他添加了一个位置奖励,如果它们是彼此相邻的句子,则更有可能形成聚类。最终结果还不错,但调整参数很慢且不理想;

(2)在连续句子之间找到语义断点: 这是一种遍历方法。先从第一个句子开始,得到向量,然后将其与句子2进行比较,然后比较2和3等等。如果出现向量距离大的断点,如果它高于阈值,那么认为它是一个新语义部分的开始。最初Greg尝试对每个句子进行向量化,但结果发现噪音太大。所以最终选取了3个句子的组(一个窗口),然后得到一个嵌入,然后删除第一个句子,并添加下一个句子。这样效果会好一点。

作者推崇的第二种办法,我总结其主要步骤如下:

1)按分隔符切分出句子sentence;

2)对每个句子,把其前后的句子一起合并成一个窗口的句子组合(即上下文关联,单个句子扩充至3个句子combined_sentence);

3)将combined_sentence向量化,得到combined_sentence_embedding;

4)计算位置i和位置i+1之间的combined_sentence_embedding的余弦距离distance_to_next,

5)根据余弦距离的分布设置分割阈值,获取断点;

6)基于断点合并句子进文本块中。

图片

图:基于embedding的语义切分

但实际使用还是小心,因为阈值设置不当,容易发送块内字数过多的问题,对后续LLM检索和回答很不利,建议可以根据文档字数,计算number_of_chunks,然后用此参数去调整语义断点的阈值。

2、基于模型

可以用下一句预测(Next Sentence Prediction, NSP)二分类任务的BERT模型,输入前后两个句子,预测句子彼此之间相邻的可能性,若分数低于阈值,说明语义不太相关,可以分割。我们也知道BERT的预训练目标就是MLM(掩码语言建模)和NSP(下一句预测),其中NSP是用[CLS]做二分类预测,所以我们可以直接调用Google的BERT模型 [4]完成基于模型的语义切分方案。

关于利用BERT做文本分割(Text Segmentation)还有很多其他研究,比如:

(1)2020年Google Research提出的《Text segmentation by cross segment attention》:用BERT获取句子表征,然后再输入BiLSTM或Transformer预测每个句子是否为分割边界;

图片

图:《Text segmentation by cross segment attention》

(2)2021年阿里语音实验室在提出的SeqModel模型《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》: 如下图所示,先分句,然后对句子分词,获取token、segment、position embedding后做element-wise求和,再加上发音embedding后喂入BERT编码器,对输出做平均池化,接入softmax输出分类判断每个句子是否为段落边界。为什么加入发音embedding?因为该模型提出的出发点是解决对长会议ASR生成的文本缺乏段落结构的问题。像ASR会出现写转写错误,比如发音相似但含义不同的声学混淆词等。所以把字的发音信息(通过中文发音表查)来增强文本分割模型输入的表征向量(即phone embedding)。

同时,提出了自适应滑窗提升推理速度,就是基于模型预测的段落分割点,去滑动窗口,如下图所示。

图片

图:《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》

以上阿里的SeqModel开源了,我用过SeqModel,说实话一些细节上的体验不是很好,比如带小数点的数字会被误切分。

六、Agent 式切分

我用可以尝试使用LLM做语义切分,其中被讨论最多是腾讯AI Lab在2023年提出的Propositionizer [2],它好处在于能解决文本中指代消解的问题,比如"it", “he”, “she”, “they”, “this”, "that”指代的实体全称是什么,而且分解成比句子还更细粒度且信息稠密的命题(Proposition),加入文本分块。效果如下图所示:

图片

图:在Wikipedia文本上,三种不同细粒度的检索单元(其中,a)段落块不超过100个字,句子by句子的添加进段落块,确保句子不被强行字符分割,最后一个块少于50字,会和历史句子合并,避免过于小的段落块。b)句子块用Python的SpacCy en_core_web_lg模型做分句,c)命题块则使用Propositionizer模型)

作者实现Propositionizer的步骤如下:

1)从英文Wikipedia拉取2021-10-13至今的数据;

2)对GPT-4做指令微调(Proposition定义和1-shot展示),将段落块作为输入,要求LLM输出一系列命题;

3)将获取并过滤后的4.3万对”段落-to-命题“,作为种子集微调Flan-T5-large模型。

可惜的是,开源的Propositionizer受限于训练语料,仅支持英文。

七、其他文本块优化点

在实践中,我们常发现一些问题,比如:

(1)上下文的关联信息跨度大或信息稀疏,导致文本块内信息密度低。 举例:聊天记录,或某文章分点记录各内容时,用户向该文章提问有哪些分点内容或层次结构。

(2)标题信息过短,导致文本块向量化后,标题语义信息被文本块内其他内容给模糊了。 具体:某文本块内包含标题5个字,标题下内容有300字。

(3)用户提问内容涉及跨多个文件做检索和整合回答时,大多数文本分块方法不具备跨文件关联。

为了解决以上问题,也有对应一些优化手段。

1、摘要增强

用较大chunk_size去字符切分文本,然后对大文本块用LLM做总结,作为摘要块加入向量数据库中。能在一定程度解决前面提到的问题1。

2、标题增强

将标题下的相应文本块,都加入标题前缀,并且重复多几次标题。如:block = concat(’#’.join([title]*3), content_under_title)。能解决前面提到的问题2。

3、假设性问题生成

基于给定的文本块,生成假设性问题,将生成的问题和对应文本块加入检索内容中。Langchain有个Hypothetical Queries方法[3]可调用。能解决前面提到问题1中的聊天记录场景下的信息稀疏问题。其实说直白了,不就是QA对的生成吗?往往好的QA对比文本块更容易被检索到。想要往这方面深入扩展,可以参考Ragas的TestsetGenerator(一套用LLM生成QA的Prompts工程)。

4、父文档检索器

其实父文档检索器简单理解是利用不同chunk_size去分块,先将原始文档拆分成较大块,再对较大块拆分成较小块,然后对较小块进行索引向量检索,最后返回的是相似度高的较小块下的父文本较大块。这样的好处是:较小块语义含义更精准,其父文本块又能保留到足够长的上下文信息。能解决前面提到的问题1。Langchain有ParentDocumentRetriever,llama_index有HierarchicalNodeParser。

5、知识图谱

如果你的数据具有丰富的实体和实体间的关系,建议转换成知识图谱。如果不想手动整理图谱,可以用Langchain的LLMGraphTransformer,利用LLM解析和分类文本中的实体和实体间的关系。能解决前面提到的问题3。

参考资料

[1] 5_Levels_Of_Text_Splitting - Greg Kamradt, 代码:https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/tutorials/LevelsOfTextSplitting/5_Levels_Of_Text_Splitting.ipynb

[2] Dense X Retrieval: What Retrieval Granularity Should We Use? 论文: [2312.06648] Dense X Retrieval: What Retrieval Granularity Should We Use? (arxiv.org),代码:https://github.com/chentong0/factoid-wiki

[3] Hypothetical Queries, 文档:MultiVector Retriever | 🦜️🔗 LangChain

[4] Bert - Google, 代码:google-bert/bert-base-uncased ·拥抱脸 (huggingface.co)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/784506.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

昇思MindSpore学习笔记6-01LLM原理和实践--FCN图像语义分割

摘要: 记录MindSpore AI框架使用FCN全卷积网络理解图像进行图像语议分割的过程、步骤和方法。包括环境准备、下载数据集、数据集加载和预处理、构建网络、训练准备、模型训练、模型评估、模型推理等。 一、概念 1.语义分割 图像语义分割 semantic segmentation …

【易捷海购-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

【2024华为HCIP831 | 高级网络工程师之路】刷题日记(BGP)

个人名片:🪪 🐼作者简介:一名大三在校生,喜欢AI编程🎋 🐻‍❄️个人主页🥇:落798. 🐼个人WeChat:hmmwx53 🕊️系列专栏:🖼️ 零基础学Java——小白入门必备🔥重识C语言——复习回顾🔥计算机网络体系———深度详讲HCIP数通工程师-刷题与实战🔥🔥

windows obdc配置

进入控制面板: 进入管理工具:

java —— JSP 技术

一、JSP &#xff08;一&#xff09;前言 1、.jsp 与 .html 一样属于前端内容&#xff0c;创建在 WebContent 之下&#xff1b; 2、嵌套的 java 语句放置在<% %>里面&#xff1b; 3、嵌套 java 语句的三种语法&#xff1a; ① 脚本&#xff1a;<% java 代码 %>…

顶会FAST24最佳论文|阿里云块存储架构演进的得与失-4.EBS不同架构性能提升思路

3.1 平均延迟与长尾延迟 虚拟磁盘&#xff08;VD&#xff09;的延迟是由其底层架构决定的&#xff0c;具体而言&#xff0c;取决于请求所经历的路径。以EBS2为例&#xff0c;VD的延迟受制于两跳网络&#xff08;从BlockClient到BlockServer&#xff0c;再至ChunkServer&#x…

机器学习统计学基础 - 最大似然估计

最大似然估计&#xff08;Maximum Likelihood Estimation, MLE&#xff09;是一种常用的参数估计方法&#xff0c;其基本原理是通过最大化观测数据出现的概率来寻找最优的参数估计值。具体来说&#xff0c;最大似然估计的核心思想是利用已知的样本结果&#xff0c;反推最有可能…

零知识证明技术:隐私保护的利器

在当今信息时代&#xff0c;数据安全和隐私保护的重要性日益凸显。随着技术的发展&#xff0c;密码学在保障信息安全方面发挥着越来越重要的作用。其中&#xff0c;零知识证明技术作为一种新兴的密码学方法&#xff0c;为隐私保护提供了强有力的支持。本文将简要介绍零知识证明…

一.4 处理器读并解释储存在内存中的指令

此刻&#xff0c;hello.c源程序已经被编译系统翻译成了可执行目标文件hello&#xff0c;并被存放在硬盘上。要想在Unix系统上运行该可执行文件&#xff0c;我们将它的文件名输入到称为shell的应用程序中&#xff1a; linux>./hello hello, world linux> shell是一个命令…

[Flink]二、Flink1.13

7. 处理函数 之前所介绍的流处理 API,无论是基本的转换、聚合,还是更为复杂的窗口操作,其实都是基于 DataStream 进行转换的;所以可以统称为 DataStream API ,这也是 Flink 编程的核心。而我们知道,为了让代码有更强大的表现力和易用性, Flink 本身提供了多…

【面试题】串联探针和旁挂探针有什么区别?

在网络安全领域中&#xff0c;串联探针和旁挂探针&#xff08;通常也被称为旁路探针&#xff09;是两种不同部署方式的监控设备&#xff0c;它们各自具有独特的特性和应用场景。以下是它们之间的主要区别&#xff1a; 部署方式 串联探针&#xff1a;串联探针一般通过网关或者…

@react-google-maps/api实现谷歌地图嵌入React项目中,并且做到点击地图任意一处,获得它的经纬度

1.第一步要加入项目package.json中或者直接yarn install它都可以 "react-google-maps/api": "^2.19.3",2.加入项目中 import AMapLoader from amap/amap-jsapi-loader;import React, { PureComponent } from react; import { GoogleMap, LoadScript, Mar…

【刷题笔记(编程题)05】另类加法、走方格的方案数、井字棋、密码强度等级

1. 另类加法 给定两个int A和B。编写一个函数返回AB的值&#xff0c;但不得使用或其他算数运算符。 测试样例&#xff1a; 1,2 返回&#xff1a;3 示例 1 输入 输出 思路1: 二进制0101和1101的相加 0 1 0 1 1 1 0 1 其实就是 不带进位的结果1000 和进位产生的1010相加 无进位加…

虚拟地址空间划分

记住&#xff1a;任何编程语言编译之后产生汇编指令数据 每一个进程的用户空间是私有的&#xff0c;内核空间是共享的(管道通信的原理) X86 32为linux环境下,虚拟地址空间结构 只读区&#xff1a; .text段:指令段&#xff0c;存放汇编指令 .rodata段:常量段&#xff0c;存放常…

Linux环境部署Python Web服务

“姑娘&#xff0c;再见面就要靠运气了&#xff0c;可别装作不认识&#xff0c;那句“好久不见”可干万别打颤…” 将使用 Python 编写的后端 API 部署到 Linux 环境中&#xff0c;可以按照以下详细步骤操作。本文将涵盖环境准备、API 编写、使用 Gunicorn 作为 WSGI 服务器、配…

C++编译链接原理

从底层剖析程序从编译到运行的整个过程 三个阶段 一、编译阶段二、链接阶段三、运行阶段 为了方便解释&#xff0c;给出两端示例代码&#xff0c;下面围绕代码进行实验&#xff1a; //sum.cpp int gdata 10; int sum(int a,int b) {return ab; }//main.cpp extern int gdata…

49.实现调试器HOOK机制

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 上一个内容&#xff1a;47.HOOK引擎优化支持CALL与JMP位置做HOOK 以 47.HOOK引擎优化支持CALL与JMP位置做HOOK 它的代码为基础进行修改 效果图&#xff1a;游…

Mysql8.0.36 Centos8环境安装

下载安装包 官网地址&#xff1a;MySQL :: Download MySQL Community Server (Archived Versions) 可以直接下载后再传到服务器&#xff0c;也可以在服务器采用wget下载。如下&#xff1a; wget https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.36-linux-glib…

mp4视频太大怎么压缩不影响画质,mp4文件太大怎么变小且清晰度高

在数字化时代&#xff0c;我们常常面临视频文件过大的问题。尤其是mp4格式的视频&#xff0c;文件大小往往令人望而却步。那么&#xff0c;如何在不影响画质的前提下&#xff0c;有效地压缩mp4视频呢&#xff1f;本文将为您揭秘几种简单实用的压缩技巧。 在分享和存储视频时&am…

ELK+Filebeat+Kafka+Zookeeper

本实验基于ELFK已经搭好的情况下 ELK日志分析 架构解析 第一层、数据采集层 数据采集层位于最左边的业务服务器集群上&#xff0c;在每个业务服务器上面安装了filebeat做日志收集&#xff0c;然后把采集到的原始日志发送到Kafkazookeeper集群上。第二层、消息队列层 原始日志发…