大模型上下文长度扩展中的检索增强技术简述

基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书籍等长文档的摘要、few-shot等输入较长的in-context learning场景等等),其长度超过了模型预训练时使用的长度,无法一次性输入模型,导致语言模型无法充分利用长输入中完整的知识,因而性能受到制约。

针对这一问题,研究者们提出了多种检索的方法,从全部的历史上文中检索所需的相关token,放入有限的窗口内计算attention,使得模型能够利用短的输入窗口处理长的序列。

方法概述

受预训练的限制,模型能够较好处理的序列长度相对固定,通常为2048、4096等等。在不改变attention计算机制的前提下,很难保证在模型能力损失较小的同时,显著扩展模型能够处理的上下文长度。并且,在长文本上训练的代价也很高,直接在长文本上从头训练一个窗口长度很长的模型较为困难。于是,我们希望模型能够在有限的处理窗口中能够关注长上下文中关键的token,获取其中的信息,从而充分利用长文本中的知识,提升处理长文本的能力。

图片

图1 基于检索增强的处理流程

众多研究者提出了基于检索增强的方法,通过在上下文历史中查找关键token,并将它们放入attention计算中的方式,增强模型在长文本任务上的表现。其大致流程如图1所示,基本思路是分段处理,通过多次调用短上下文模型来处理长上下文输入,在此过程中保存K-V Cache供后续分段使用。引入检索增强技术之后,模型的处理流程如下。首先,模型以不同的检索粒度从K-V Cache中取出相应的 token 表示。然后,模型计算当前处理的token与这些历史token的相似度,并根据相似度结果选取最相关的top-k token。检索到的token会与当前窗口内的上下文拼接在一起,组合成新的上下文,用于当前的输入。随后,进行合适的位置编码。最后,把输入序列送入模型层,得到当前层的输出,其中最关键的是attention部分。下文将按上述处理顺序,对应图1中的四个关键步骤依次介绍。 ## 技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型算法面试和技术交流群,相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:来自CSDN + 技术交流

用通俗易懂的方式讲解系列

  • 重磅来袭!《大模型面试宝典》(2024版) 发布!

  • 重磅来袭!《大模型实战宝典》(2024版) 发布!

  • 用通俗易懂的方式讲解:一文讲透最热的大模型开发框架 LangChain

  • 用通俗易懂的方式讲解:这应该是最全的大模型训练与微调关键技术梳理

  • 用通俗易懂的方式讲解:大模型训练过程概述

  • 用通俗易懂的方式讲解:专补大模型短板的RAG

  • 用通俗易懂的方式讲解:大模型微调方法总结

  • 用通俗易懂的方式讲解:掌握大模型这些优化技术,优雅地进行大模型的训练和推理!

1 检索粒度与表示

我们首先关注的问题是如何从K-V Cache中检索与当前处理步骤最相关的一部分token,其中首要的问题是检索粒度,也就是检索的基本单元的大小。

最基本的是token级别的检索。具体来说,是在K-V Cache中逐个token计算与当前待处理的token的相似度,选取相似度最高的top-k token对应的key与value向量作为检索结果。这类方法的代表有MemTRM[1]、FoT[2]、Unlimiformer[3]等等。

尽管token级别的检索在实现上相对简单,但也面临一些限制。首先,由于检索到的是离散的token,相邻的token并不一定能被一并检索,这可能导致语义上的独立。其次,每次生成新token时,都需要与K-V Cache中的所有token重新计算相似度,这增加了计算量,检索效率较低。

为了改进这些缺陷,有研究者提出使用更粗的检索粒度,把输入序列分成一个个长度相同的block,在block级别进行检索。block级别的检索是在处理每个新的token时,从K-V Cache里以block为单位进行相似度计算,选取top-k block作为检索结果。block级别的检索得到是一连串相邻的token,语义上比离散的token更连贯。另外,由于每次检索只在block上进行一次相似度计算,大大减少了计算量并且提高了检索效率。

然而,block级别的检索也带来了一个新的问题:如何有效地表示block以完成相似度计算。如图2所示,为了充分利用block内token的信息,可以按一定规则对block内的token进行信息融合的操作,从而得到block的表示。例如,LongMEM[4]通过计算block内token表示的mean pooling来表示相应的block;而InFLLM[5]则是在block计算每个token与其他token的一种整体相似性指标(representative score),选取其中分数较高的一部分token共同作为block的表示。此外,还有方法引入额外的token来表示block,如Landmark[6]方法中在词表内添加了一个新的token—Landmark,并将其放置在每个block的末尾作为block的代表,同时这个Landmark token也参与到序列的计算中,通过Grouped Softmax实现层次化的attention机制,我们在后面还会展开阐述Landmark的具体做法。

图片

图2 block的表示

2 相似度计算

在确定检索粒度后,我们需要建立适当的规则来计算相似度。目前的方法几乎都采用将当前处理的token的query向量与检索粒度所代表的key向量进行内积计算作为相似度的标准。这种做法源于标准的attention计算机制,标准attention中所计算的query与key的内积本身就是一种便于计算的相似度,而且相似度越高,相应value的权重就越高。现有的方法充分利用这一特性,计算当前token的query向量与检索粒度所代表的key向量相似度作为attention贡献的度量,通过舍弃低贡献的上下文来节省上下文窗口的可用空间,得到一种attention的有效近似。

3 位置编码

在完成相似度计算后,我们选择相似度最高的top-k token作为检索的结果。我们把这部分来自上下文历史的token记作retrieved context token,而在当前窗口范围内的token记为local context token。把这两类context token拼接在一起,就得到了输入当前层的完整context token序列。

接下来,在将这一组合的context token输入到模型进行attention计算之前,需要考虑位置编码,以区分不同位置token。在检索方法中,由于retrieved context token的位置不固定,并且在缓存时记录每个token具体的位置的代价较高,很难给出准确的位置信息。因此,需要找到一个合适的编码位置的方式来融合一定的位置信息。Sun等人[79]在PG19[8]数据集上的实验表明,相对位置信息对远距离的token似乎并不重要。基于此,MemTRM、FoT、InfLLM等方法直接将retrieved context token部分的位置编码设置成相同的位置向量,忽略了retrieved context token内彼此的位置信息。而另一些方法认为retrieved context token内部的相对顺序依然重要,因此为其添加了位置编码,如LongMEM则是直接使用ALiBi[9]进行相对位置编码,Landmark方法则将retrieved context token与local context token放在同一窗口内,对它们重新进行相对位置编码。

4 Attention计算

在进行attention计算时,我们需要考虑如何充分利用由retrieved context token和local context token这两类token组成的context tokens。

最简单的处理方法是将两类token视作同等地位,直接使用常规的attention计算方式。如在FoT与InfLLM中就是使用标准的attention进行计算;在Unlimiformer中则是使用Cross Attention完成相应的计算。

然而,对于当前处理的token来说,这两类context token包含信息的重要性并不相同。为了充分利用它们的信息,Joint Attention对它们做了一定的区分,分别计算local context与retrieved context中各自的attention。然后,加权得到最终的attention结果,可以概括成以下的公式:

其中,表示最终的attention结果,和 分别表示利用local context和retrieved context计算的attention结果,是一个可学习的参数,用于平衡两个部分的贡献。在MemTRM与LongMEM 中均采用了这种方法。

Landmark在此基础上更进一步。为区分retrieved context token内来自不同位置的信息,Landmark提出使用Grouped Softmax来更细粒度地分配权重。具体来说,该方法首先将Landmark这一类token与local context token放在一起进行softmax计算,从中选出Top-K个相关的block,同时保留softmax的计算结果。然后分别在这些block内单独计算attention,利用先前计算softmax结果对不同block的attention进行加权,得到最终的attention结果。

5 检索位置

另外,检索的实现也是有一定资源的消耗,因此在平衡效率和性能的目标下,不同的方法对检索时机的选取有所不同。其中,MemTRM、LongMEM、FoT选择在模型中的某些指定层进行检索,而Landmark、InfLLM则是在每一层都进行检索。专用于encoder-decoder架构的方法则是在decoder部分进行检索,例如Unlimiformer在每个decoder层均进行检索。

以上就是通过检索增强处理长文本方法的流程,可以将上述提到方法的各环节大致整理为如下的表格:

表1 上述方法各环节内容

在这里插入图片描述
性能对比

上述方法在一些长文本数据集上验证其语言能力:PG-19[11](英文书籍)、arXiv(数学论文)、C4[10](网络文档)、GitHub(代码)和 Isabelle(定理证明)等等。通常选用PPL作为评价的指标。此外,还涉及一些自然语言理解的任务,如SST-2[11]、MR[12]、Subj[13]、SST-5[11]、MPQA[14]等等。

虽然不同的方法选择了其中相同的一些数据集或任务进行验证实验,但在各自的实验中,使用的数据集、基线、数据处理、训练方式等实验设置不同,导致不同方法即便在相同数据集或任务上的实验结果也不可比。

总的来说,现有工作各自的实验结果在一定程度上证明了这些方法处理长文本的有效性,但目前仍然缺乏可以直接用于对比各项工作性能的公开结果。

与检索增强生成(RAG)技术的对比

虽然通过检索增强处理长文本的方法和检索增强生成(Retrieval Augmented Generation,RAG)均用到了检索,但二者之间还是存在着一定的区别。

首先,二者在检索对象上存在区别。长文本检索增强方法是在上下文历史的表示中检索,而RAG则侧重于在广泛的外部知识库中检索。

其次,这两类方法在检索的实现上也有所不同。如前面介绍的内容,长文本检索增强方法直接利用K-V Cache中的key计算相似度,作为检索的标准。并将检索到的(key,value)对直接用于模型后续attention的计算。相比之下,RAG面对庞大的外部知识库,利用一个独立的检索器(retriever)完成检索。此外,RAG可能还需要额外的组件来确保检索到的内容与生成的文本之间的一致性。由于这种结构上的复杂性,RAG通常不适用于直接处理长文本。通过上述分析,我们可以看出,虽然两种方法都涉及检索过程,但它们在检索对象和检索实现上有着不同,各有其适用的场景和限制。

那么,可以考虑采用 RAG 的方法来处理长文本吗?答案是肯定的。RPT[15]架构正是借鉴了RAG的检索思路来处理长文本。如图3所示,其整体流程与前文介绍相似,但每个步骤涉及的对象和处理方式有所区别,下面进行简要介绍。RPT采用encoder-decoder架构,在decoder阶段进行检索。它参照了RAG的实现,并配备了一个可训练的检索器。不同于RAG,RPT仅从encoder的输出中进行检索,而不涉及外部知识。具体来说,输入首先通过encoder处理,得到最后一层的隐层表示,这些表示被存储下来,构成检索库。在decode阶段进行Cross Attention计算时,会借助一个额外的检索器在这个检索库中检索。检索器首先将encoder的输出与decoder的输入通过一个双向attention层进行对齐,然后计算这两者对齐后的表示的内积作为相似度评分,最后选择top-k的表示作为检索结果。值得注意的是,此处的检索是在 block-to-block 级别进行,与之前的token-to-token和token-to-block不同。检索完成后,所得的表示还需通过一个邻接门控(neighbor gating)机制,参与到最终的Cross Attention的计算中。这里的Cross Attention采用了 RAG 中的一种变体—Chunked Cross Attention[16],这种形式能够有效学习到上下文的连贯性,从而更准确地预测下文。

图片

图3 RPT[15]架构

参考文献

[1] Wu Y, Rabe M N, Hutchins D L, et al. Memorizing transformers[J]. arXiv preprint arXiv:2203.08913, 2022.

[2] Tworkowski S, Staniszewski K, Pacek M, et al. Focused transformer: Contrastive training for context scaling[J]. Advances in Neural Information Processing Systems, 2024, 36.

[3] Bertsch A, Alon U, Neubig G, et al. Unlimiformer: Long-range transformers with unlimited length input[J]. Advances in Neural Information Processing Systems, 2024, 36.

[4] Wang W, Dong L, Cheng H, et al. Augmenting language models with long-term memory[J]. Advances in Neural Information Processing Systems, 2024, 36.

[5] Xiao C, Zhang P, Han X, et al. InfLLM: Unveiling the Intrinsic Capacity of LLMs for Understanding Extremely Long Sequences with Training-Free Memory[J]. arXiv preprint arXiv:2402.04617, 2024.

[6] Mohtashami A, Jaggi M. Random-access infinite context length for transformers[J]. Advances in Neural Information Processing Systems, 2024, 36.

[7] Dai Z, Yang Z, Yang Y, et al. Transformer-xl: Attentive language models beyond a fixed-length context[J]. arXiv preprint arXiv:1901.02860, 2019.

[8] Rae J W, Potapenko A, Jayakumar S M, et al. Compressive transformers for long-range sequence modelling[J]. arXiv preprint arXiv:1911.05507, 2019.

[9] Press O, Smith N A, Lewis M. Train short, test long: Attention with linear biases enables input length extrapolation[J]. arXiv preprint arXiv:2108.12409, 2021.

[10] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. Journal of machine learning research, 2020, 21(140): 1-67.

[11] Socher R, Perelygin A, Wu J, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]//Proceedings of the 2013 conference on empirical methods in natural language processing. 2013: 1631-1642.

[12] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[C]//international semantic web conference. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007: 722-735.

[13] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[J]. arXiv preprint cs/0409058, 2004.

[14] Wiebe J, Wilson T, Cardie C. Annotating expressions of opinions and emotions in language[J]. Language resources and evaluation, 2005, 39: 165-210.

[15] Rubin O, Berant J. Long-range language modeling with self-retrieval[J]. arXiv preprint arXiv:2306.13421, 2023.

[16] Borgeaud S, Mensch A, Hoffmann J, et al. Improving language models by retrieving from trillions of tokens[C]//International conference on machine learning. PMLR, 2022: 2206-2240.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/759563.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何安装多版本CUDA?

在这篇文章中,我们不仅要安装好CUDA,还有安装多版本的CUDA 首先聊一个题外话:前几天在csdn上看到的一个话题”安装pytorch一定要去nvidia官网下载安装cuda和cudnn吗?“ 我相信任何一个刚开始接触或者从事深度学习的炼丹者都会从安…

java中break和continue的标签使用

break标签的使用 break label是退出label对应的循环 //BreakDetail.java //2024.06.29 public class BreakDetail{public static void main(String[] args) {label1:for(int j 0; j < 4; j){label2:for(int i 0; i < 10; i){if(i 2){//break; //情况1//break label2…

五、Pentium 微处理器保护模式存储管理,《微机系统》第一版,赵宏伟

一、分段存储管理 Pentium支持分段存储管理、分页存储管理和段页式存储管理。 1.1 分段存储管理的基本思想 一个程序由多个模块组成。 每一个模块都是一个特定功能的独立的程序段。 段式管理&#xff1a;把主存按段分配的存储管理方式。 程序模块→段→段描述符→段描述符…

热题系列章节7

剑指 Offer 04. 二维数组中的查找 题目描述&#xff1a; 在一个二维数组中&#xff08;每个一维数组的长度相同&#xff09;&#xff0c;每一行都按照从左到右递增的顺序排序&#xff0c;每一列都按照从上到下递增的顺序排序。请完成一个函数&#xff0c;输入这样的一个二维数…

Chrome浏览器web调试(js调试、css调试、篡改前置)

目录 1. 打开开发者工具(Dev Tool) 2. 打开命令菜单 截图 3. 面板介绍 4. CSS调试 右键检查快速到达元素处 查找DOM数 利用面板Console查找DOM节点 内置函数查找上一个选择点击的元素 5. 调试JS代码(Javascript调试) 日志调试 选择查看日志等级 眼睛观测变量 …

创新前沿:Web3如何颠覆传统计算机模式

随着Web3技术的快速发展&#xff0c;传统的计算机模式正面临着前所未有的挑战和改变。本文将深入探讨Web3技术的定义、原理以及它如何颠覆传统计算机模式&#xff0c;以及对全球科技发展的潜在影响。 1. 引言&#xff1a;Web3技术的兴起与背景 Web3不仅仅是技术创新的一种&…

可编程定时计数器8253/8254 - 8253入门

时钟-给设备打拍子 概述 在计算机系统中&#xff0c;为了使所有设备之间的通信井然有序&#xff0c;各通信设备间必须有统一的节奏&#xff0c;不能各干各的&#xff0c;这个节奏就被称为定时或时钟 时钟并不是计算机处理速度的衡量&#xff0c;而是一种使设备间相互配合而避…

2024 Parallels Desktop for Mac 功能介绍

Parallels Desktop的简介 Parallels Desktop是一款由Parallels公司开发的桌面虚拟化软件&#xff0c;它允许用户在Mac上运行Windows和其他操作系统。通过强大的技术支持&#xff0c;用户无需重新启动电脑即可在Mac上运行Windows应用程序&#xff0c;实现了真正的无缝切换。 二…

动手学深度学习(Pytorch版)代码实践 -计算机视觉-48全连接卷积神经网络(FCN)

48全连接卷积神经网络&#xff08;FCN&#xff09; 1.构造函数 import torch import torchvision from torch import nn from torch.nn import functional as F import matplotlib.pyplot as plt import liliPytorch as lp from d2l import torch as d2l# 构造模型 pretrained…

Class Constructors and Destructors (类的构造函数和析构函数)

Class Constructors and Destructors [类的构造函数和析构函数] 1. Declaring and Defining Constructors (声明和定义构造函数)2. Using Constructors (使用构造函数)3. Default Constructors (默认构造函数)4. Destructors (析构函数)5. Improving the Stock Class (改进 Sto…

香港回归庆典开序幕,蝴蝶效应集团齐献礼

6月29日,香港各界庆典委员会庆祝香港回归祖国27周年活动启动礼在维多利亚公园举行。香港特区行政长官李家超、中央政府驻港联络办主任郑雁雄、香港各界庆典委员会主席谭锦球和筹委会主席陈鸿道等出席并致辞。 作为香港物流行业推广的领军企业,香港蝴蝶效应集团也以优秀企业代表…

Go 语言切片遍历地址会发生改变吗?

引言&#xff1a;今天面试的时候&#xff0c;面试官问了一道学 Go 语言的同学都会的简单代码&#xff0c;是关于 Go 语言 for 循环问题的&#xff0c;他询问了一个点&#xff0c;循环中共享变量的地址会发生改变吗&#xff1f; 相信听到这个问题的你&#xff0c;第一反应肯定是…

分享屏幕坐标和窗口通信

简介 实现功能&#xff0c;通过url传参选择扑克牌&#xff0c;桌面同时打开两个以上该窗口&#xff0c;扑克牌可以在窗口之间移动。 在线演示 屏幕坐标和窗口通信 实现代码 <!DOCTYPE html><html><head> <meta http-equiv"Content-Type" co…

Linux_动、静态库

目录 一、静态库 1、静态库的概念 2、制作静态库的指令 3、制作静态库 4、链接静态库 二、动态库 1、动态库的概念 2、制作动态库的指令 3、制作动态库 4、链接动态库 5、动态库的加载 三、静态库与动态库的区别 结语 前言&#xff1a; 在Linux下大部分程序进…

学习笔记——动态路由——OSPF(报头信息、报文信息、三张表)

六、OSPF协议的报头信息、报文信息、三张表 OSPF的协议报文在一个广播域内进行传递&#xff0c;是直接封装在IP报文中的&#xff0c;协议号为89。 OSPF本身5种类型&#xff1a;分别是Hello报文、DD报文、LSR报文、LSU报文、LSAck报文&#xff0c;各种不同类型的LSA其实只是包含…

Jedis、Lettuce、RedisTemplate连接中间件

jedis就像jdbc一样&#xff0c;用于两个端直接的连接。 1.创建Spring项目 这里不过多赘述... 2.导入连接工具jedis 在pom文件中导入jedis的依赖。 <dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version&…

第一周:李宏毅机器学习笔记

第一周学习周报 摘要一、机器学习基础理论1. 什么是机器学习&#xff1f;2. 机器学习“寻找”的函数有哪些类型&#xff1f;3. 机器学习中机器如何“寻找”函数&#xff1f;三步走3.1 第一步&#xff1a;设定函数的未知量&#xff08;Function with Unknown Parameters&#xf…

昇思25天学习打卡营第12天|ShuffleNet图像分类

1. 学习内容复盘 ShuffleNet网络介绍 ShuffleNetV1是旷视科技提出的一种计算高效的CNN模型&#xff0c;和MobileNet, SqueezeNet等一样主要应用在移动端&#xff0c;所以模型的设计目标就是利用有限的计算资源来达到最好的模型精度。ShuffleNetV1的设计核心是引入了两种操作&a…

C++ 数据库MySQL 学习笔记(3) - 数据库操作

C 数据库MySQL 学习笔记(3) - 数据库操作 视图操作 视图是从一个或多个表中导出来的表&#xff0c;是一种虚拟存在的表。视图就像一个窗口&#xff0c;通过这个窗口可以看到系统专门提供的数据&#xff0c;这样用户可以不看整个数据库表中的数据&#xff0c;而只关心对自己有…

Chrome备份数据

Chrome备份数据 1、 导出谷歌浏览器里的历史记录 参考&#xff1a;https://blog.csdn.net/qq_32824605/article/details/127504219 在资源管理器中找到History文件&#xff0c;文件路径&#xff1a; C:\Users\你的电脑用户名\AppData\Local\Google\Chrome\User Data\Default …