论文翻译 | SELF-RAG: 学习通过自我反思来检索、生成和评估

Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
华盛顿大学,IBM人工智能研究院

摘要

尽管大语言模型(LLMs)具有非凡的能力,但是它们经常产生不符合事实的响应,因为它们只依赖于它们封装的参数化知识。检索增强生成(retrieve - augmented Generation, RAG)是一种通过检索相关知识来增强LMs的特殊方法,减少了此类问题。然而,不加选择地检索和合并固定数量的检索段落,无论检索是否必要,或者段落是否相关,都会降低LM的通用性,或者可能导致无益的响应生成。

我们引入了一个新的框架,称为自我反思检索-增强生成(SELF-RAG),它通过检索和自我反思来提高LM的质量和真实性。我们的框架训练了一个任意的LM,它可以自适应地按需检索段落,并使用特殊的令牌(称为反射令牌)生成和反映检索到的段落及其自己的生成。生成反射令牌使LM在推理阶段可以控制,使其能够根据不同的任务需求调整其行为。

实验表明,SELF-RAG (7B和13B参数)在各种任务上明显优于最先进的llm和检索增强模型。具体来说,SELF-RAG在开放域QA、推理和事实验证任务上优于ChatGPT和检索增强的Llama2-chat,并且相对于这些模型,它在提高长格式代的事实性和引用准确性方面显示出显著的进步。

1 引言

最先进的大语言模型继续与事实错误作斗争(Mallen et al., 2023; Min et al., 2023),尽管他们增加了模型和数据规模(Ouyang et al., 2022)。检索-增强生成(RAG)方法(图一左边; Lewis et al. 2020; Guu et al. 2020) 通过相关检索段落增加大语言模型的输入,减少知识密集型任务中的事实错误 (Ram et al.,2023; Asai et al., 2023a).。然而,这些方法可能会阻碍大语言模型的通用性,或者引入不必要的或偏离主题的段落,从而导致低质量的生成 (Shi et al., 2023),因为它们不加区分地检索段落,而不管事实基础是否有用。此外,输出不能保证与检索到的相关段落一致(Gao et al., 2023) ,因为模型没有明确地训练以利用和遵循所提供的段落中的事实。

这项工作引入了自我反思检索增强生成(SELF-RAG),通过按需检索和自我反思来提高大语言模型的生成质量,包括其事实准确性,同时又不损害其通用性。我们以端到端方式训练任意LM,通过生成任务输出和间歇特殊令牌(即反射令牌)来学习在给定任务输入的情况下反思自己的生成过程。反射令牌分为检索令牌和批判令牌,分别表示检索的需要及其生成质量(图1右)。

特别是,在给定输入提示和前几代的情况下,SELF-RAG首先确定用检索到的段落增加连续生成是否有帮助。如果是,它输出一个检索令牌,按需调用检索器模型(步骤1)。随后,SELF-RAG并发地处理多个检索到的段落,评估它们的相关性,然后生成相应的任务输出(步骤2)。然后,它生成批评令牌来评估自己的输出,并根据事实性和整体质量选择最好的一个(步骤3)。这个过程不同于传统的RAG(图1左)始终如一地检索固定数量的文档以生成,而不考虑检索的必要性(例如,底部的图示例不需要事实知识),并且从不第二次评估生成质量。此外,SELF-RAG为每个片段提供了引用,并对输出是否得到文章的支持进行了自我评估,从而更容易进行事实验证。


图1:SELF-RAG的概述。SELF-RAG学习检索、批评和生成文本段落,以提高整体生成质量、真实性和可验证性。

SELF-RAG训练任意LM来生成带有反射标记的文本,方法是将它们统一为扩展模型词汇表中的下一个标记预测。我们在不同的文本集合上训练我们的生成器LM,这些文本集合与反射令牌和检索的段落交织在一起。反射令牌,灵感来自强化学习中使用的奖励模型 (Ziegler et al., 2019; Ouyang et al., 2022),通过训练有素的评估模型离线插入原始语料库。这消除了在训练期间托管评估模型的需要,减少了开销。在某种程度上,评估模型是在输入、输出和相应的反射令牌的数据集上进行监督的,这些令牌是通过提示一个适当的LM (i.e.,GPT-4; OpenAI 2023)。虽然我们从使用控制令牌来启动和指导文本生成的研究中获得灵感(Lu et al., 2022; Keskar et al., 2019),,我们训练过的LM使用评估令牌在每个生成的片段之后评估自己的预测,作为生成输出的一个组成部分。

SELF-RAG进一步支持可定制的解码算法,以满足由反射令牌预测定义的硬约束或软约束。特别是,我们的推理时间算法使我们能够(1)灵活地调整不同下游应用程序的检索频率;(2)通过使用反射令牌概率加权线性和作为段分数的段级波束搜索,利用反射令牌来根据用户偏好定制模型的行为。

包括推理和长格式生成在内的六个任务的实证结果表明,SELF-RAG显著优于具有更多参数和广泛采用RAG方法的预训练和指令调整的llm,并且具有更高的引用准确性。特别是,SELF-RAG在四个任务上优于检索增强ChatGPT,在所有任务上优于Llama2-chat  (Touvron et al., 2023) 和Alpaca  (Dubois et al., 2023)。我们的分析证明了使用反射令牌进行训练和推理对于整体性能改进以及测试时模型定制的有效性(例如,平衡引用前提和完整性之间的权衡)。

2 相关工作

Retrieval-Augmented Generation。检索增强生成(RAG)用检索到的文本段落增强LMs的输入空间 (Guu et al., 2020; Lewis et al., 2020),在微调或与现成的lm一起使用后,导致知识密集型任务的大幅改进 (Ram et al., 2023)。最近的一项工作 (Luo et al., 2023)使用固定数字对LM进行指令调谐预先输入检索到的段落,或者预先训练检索器和LM联合,然后对任务数据集进行少量微调(Izacard et al., 2022b)。之前的工作通常在开始时只检索一次,Jiang等人(2023)建议在专有的LLM之上自适应检索生成的段落,或者Schick等人(2023)训练LM为命名实体生成API调用。然而,这些方法的任务性能的提高往往是以牺牲运行时效率(Mallen et al., 2023)、对不相关上下文的鲁棒性 (Shi et al., 2023)和缺乏归因 (Liu et al., 2023a; Gao et al., 2023)。我们引入了一种方法来训练任意LM学习对各种指令跟随查询使用按需检索,并引入了由反射标记引导的受控生成,以进一步提高生成质量和属性。

Concurrent RAG work。一些关于RAG的并行工作提出了新的培训或提示策略,以改进广泛采用的RAG方法。Lin等人(2023)分两步对检索器和LM在指令调优数据集上进行微调。虽然我们也在不同的指令遵循数据集上训练我们的模型,但SELF-RAG可以根据需要进行检索,并通过细粒度的自我反射选择最佳的模型输出,使其广泛适用,更加鲁棒和可控。Yoran等人(2023)使用自然语言推理模型,Xu等人(2023)使用摘要模型过滤或压缩检索到的段落,然后使用它们提示LM生成输出。SELF-RAG并行处理段落,并通过自我反思过滤掉不相关的段落,而不依赖外部模型进行推理。此外,我们的自我反思机制还评估模型输出质量的其他方面,包括真实性。LATS(Zhou et al., 2023)提示现成的lm为问答任务搜索相关信息,并在lm生成值分数的指导下进行树搜索生成。虽然它们的值函数只是简单地表示每一代的总体得分,但SELF-RAG训练到任意LM来学习生成细粒度的自我反思和可定制的推理。

Training and generating with critics。用强化学习训练llm(例如,近端策略优化或PPO;来自人类反馈(RLHF)的Schulman et al . 2017)已被证明可以有效地将llm与人类偏好结合起来(Ouyang et al, 2022)。Wu等(2023)引入了带有多个奖励模型的细粒度RLHF。虽然我们的工作也研究了检索和生成的细粒度批评,但我们在任务示例上训练目标LM,并从离线的评估模型中添加反射令牌,与RLHF相比,训练成本要低得多。此外,SELF-RAG中的反射令牌在推理时实现了可控制的生成,而RLHF则在训练时关注人类偏好对齐。其他作品使用通用控制令牌来指导LM生成(Lu et al, 2022;Korbak等人,2023),而SELF-RAG使用反射令牌来决定是否需要检索并自评估生成质量。Xie等人(2023)提出了一个自我评价导向的解码框架,但他们只关注一个评价维度(推理路径一致性)的推理任务,没有检索。LLM细化研究进展(Dhuliawala et al ., 2023;Madaan等,2023;Paul et al ., 2023)提示模型迭代生成任务输出、自然语言反馈和精细任务输出,但以牺牲推理效率为代价。

3 SELF-RAG:学会检索,生成和自我评估

我们引入自反射检索增强生成(SELF-RAG),如图1所示。

SELF-RAG是一个框架,通过检索和自我反思来提高大语言模型的质量和真实性,而不会牺牲大语言模型的原始创造力和多功能性。我们的端到端训练允许LM根据检索到的段落生成文本(如果需要),并通过学习生成特殊令牌来批评输出。这些反射令牌(表1)表示需要检索或确认输出的相关性、支持或完整性。相比之下,常见的RAG方法不加选择地检索段落,而不确保引用来源的完全支持。

3.1 问题形式化和概述

形式上,给定输入x,我们训练M以顺序生成由多个片段y = [y_{1},…,y_{T}]组成的文本输出y。其中y_{T }表示第t段的令牌序列在y_{T}中生成的标记包括来自原始词汇表的文本以及反射标记(表1)。

表1:SELF-RAG中使用的四种类型的反射令牌。每种类型使用几个令牌来表示其输出值。底部的三行是三种类型的评论标记,粗体文本表示最理想的评论标记。x,y,d分别表示输入、输出和相关通道

Inference overview。图1和算法1给出了SELF-RAG在推理中的概述。对于每一个输入x,以及先前的输出y<t,该模型对检索令牌进行解码以评估检索的效用。如果不需要检索,则模型预测下一个输出段,就像它在标准LM中所做的那样。如果需要检索,则模型生成:一个评估令牌,用于评估检索到的通道的相关性,下一个响应段,以及一个评估令牌,用于评估响应段中的信息是否被该通道支持。最后,一个新的评估令牌评估响应的整体效用为了生成每个片段,SELF-RAG并行处理多个通道,并使用自己生成的反射令牌对生成的任务输出强制执行软约束(第3.3节)或硬控制(算法1)。例如,在图1(右)中,检索到的段落d1在第一个时间步被选择,因为d2没有提供直接证据(ISREL是不相关的),d3输出只是部分支持,而d1是完全支持的。

Training overview。SELF-RAG允许任意LM生成带有反射标记的文本,方法是将它们统一为来自扩展模型词汇表(即原始词汇表加上反射标记)的下一个标记预测。具体来说,我们在检索器R检索的交错段落和评估模型C预测的反射令牌(总结在附录算法2中)的精选语料库上训练生成器模型M。我们训练C生成反射令牌,以评估检索到的段落和给定任务输出的质量(第3.2.1节)。使用评估模型,我们通过在任务输出中插入反射令牌来更新训练语料库。随后,我们使用传统LM目标(第3.2.2节)训练最终的生成器模型(M),使M能够在推理时自行生成反射令牌,而不依赖于评估模型。

3.2 训练SELF-RAG

在这里,我们描述了两个模型的监督数据收集和训练,评估模型C(第3.2.1节)和生成器M(第3.2.2节)。

3.2.1 训练评估模型C

Data collection for critic model。手动标注每个段的反射令牌是昂贵的(Wu et al, 2023)。像GPT-4 (OpenAI, 2023)这样的最先进的LLM可以有效地实现来产生这种反馈(Liu et al ., 2023b)。然而,依赖这种专有的LMs会增加API成本并降低可重复性(Chen et al, 2023)。我们通过提示GPT-4生成反射令牌来创建监督数据,然后将其知识提取到C内部中。对于每一组反射令牌,我们从原始训练数据中随机抽取实例:{X^{sample}, Y^{sample}} ~ {X, Y}。

由于不同的反射令牌组有自己的定义和输入,如表1所示,我们对它们使用不同的指令提示符。这里,我们以Retrieve为例。我们用特定类型的指令提示GPT-4(“给定指令,判断从网络中找到一些外部文档是否有助于生成更好的响应。”),然后在原始任务输入x和输出y中进行几次演示,以预测适当的反射令牌作为文本:p(r|I, x, y)。手动评估显示GPT-4反射令牌预测与人类评估高度一致。我们收集了每种类型的4k-20k监督训练数据,并将它们组合成c的训练数据。附录D部分给出了完整的指令列表,A.1包含了更多的细节和我们的分析。

Critic learning。在我们收集训练数据D_{critic}后,我们用预训练的LM初始化C,并使用标准条件语言建模目标在D_{critic}上训练它,最大化似然:

r代表反射令牌。

虽然初始模型可以是任何预训练的LM,但我们使用与生成器LM相同的模型(即Llama 2-7B;Touvron等2023)用于C初始化。评论家在大多数反射令牌类别上与基于gpt -4的预测达成了90%以上的一致性(附录表5)。

3.2.2 训练生成模型

Data collection for generator。给定一个输入输出对(x, y),我们使用检索和评估模型来增加原始输出y,以创建精确模仿SELF-RAG推理时间过程的监督数据(第3.1节)。对于每个片段y_{T}∈y,我们运行C来评估额外的传代是否有助于增强生成。如果需要检索,则添加检索特殊令牌Retrieve =Yes, R检索前K个段落D。对于每个段落,C进一步评估该段落是否相关并预测ISREL。如果一篇文章是相关的,C进一步评估该文章是否支持模型生成并预测ISSUP。评论令牌ISREL和ISSUP被附加在检索到的段落或代之后。在输出y(或y_{T})的末尾,C预测整个实用程序令牌ISUSE,并将带有反射令牌和原始输入对的增强输出添加到D_{gen}中。请参见图2中的示例训练数据。

图2:SELF-RAG训练示例。左边的例子不需要检索,右边的例子需要检索;因此,插入了段落。更多的例子见附录表4。

Connections to prior work on learning with critique。最近的工作在训练期间纳入了额外的评估(反馈),例如,通过PPO进行的RLHF (Ouyang et al. 2022)。而PPO依赖于在训练期间分离奖励模型,我们离线计算评论并直接将它们插入训练语料库,其中生成器LM使用标准LM目标进行训练。与PPO相比,这大大降低了培训成本。我们的工作还与之前的工作有关,这些工作将特殊令牌纳入控制生成(Keskar等人,2019;Lu et al ., 2022;Korbak et al, 2023)。我们的SELF-RAG学习生成特殊的令牌,以便在每个生成的片段之后评估自己的预测,从而在推理中使用软重新排序机制或硬约束(下面讨论)。

3.3 SELF-RAG推理

生成反射令牌来对自己的输出进行自我评估,使SELF-RAG在推理阶段可以控制,从而使其能够根据不同的任务需求调整自己的行为。对于要求事实准确性的任务(Min et al., 2023),我们的目标是让模型更频繁地检索段落,以确保输出与现有证据密切一致。相反,在更开放的任务中,比如写一篇个人经历的文章,重点转向更少的检索,优先考虑整体的创造力或实用性得分。在本节中,我们将描述在推理过程中实施控制以满足这些不同目标的方法。

Adaptive retrieval with threshold(阈值自适应检索)。SELF-RAG通过预测检索动态地决定何时检索文本段落。或者,我们的框架允许设置阈值。具体来说,如果在Retrieve中的所有输出令牌上生成Retrieve =Yes令牌的概率超过指定的阈值,我们将触发检索(详情见附录a .3节)。

Tree-decoding with critique tokens(使用批判令牌进行树解码)。在每个片段步骤t,当需要检索时,基于硬条件或软条件,R检索K个通道,生成器M并行处理每个通道并输出K个不同的延续候选。我们进行段级波束搜索(波束大小=B),获得每个时间戳t的top-B段延续,并在生成结束时返回最佳序列。每个片段yt相对于通道d的分数被更新为一个批评家分数s,它是每个批判标记类型的归一化概率的线性加权和。对于每个批判令牌组G(例如,ISREL),我们将其在时间戳t的分数表示为s_{t}^{G},并计算分段分数如下:

其中表示最理想的反射令牌的生成概率\hat{r}(例如,ISREL =Relevant)对于具有N个不同令牌(代表G的不同可能值)的批判令牌类型G。Eq. 4中的权重w^{G}是超参数,可以在推理时调整,以在测试时启用自定义行为。例如,为了确保结果y主要得到证据的支持,我们可以为ISSUP得分设置较高的权重项,而相对降低其他方面的权重项。或者,我们可以在解码过程中使用Critique进一步执行硬约束。代替在Eq. 4中使用软奖励函数,我们可以在模型产生不令牌(例如,ISSUP =No support)时显式地过滤掉段延续。RLHF研究了多种偏好之间的权衡平衡(Touvron等人,2023;Wu等人,2023),这通常需要训练来改变模型的行为。SELF-RAG在没有额外培训的情况下定制LM。

4 实验

4.1 任务和数据集

我们对SELF-RAG和一系列下游任务的不同基线进行评估,用旨在评估整体正确性、真实性和流畅性的指标对产出进行整体评估。在这些实验中,我们进行了零样本评估,在没有少量样本演示的情况下提供描述任务的说明(Wei等人,2022;Sanh et al, 2022)。我们的实验设置的详细信息,包括测试时间说明,可在附录B.1节中获得。

Closed-set tasks(闭集任务)。包括两个数据集,即关于公共卫生的事实验证数据集(PubHealth;Zhang et al . 2023)和从科学考试中创建的多项选择推理数据集(ARC-Challenge;Clark et al 2018)。我们使用准确性作为评估指标,并对测试集进行报告。我们汇总了这两个数据集的目标类别的答案概率(附录B.2节)。

Short-form generations tasks(短格式生成任务)。包括两个开放域问答(QA)数据集,PopQA (malen等人,2023)和triviqa -unfiltered (Joshi等人,2017),其中系统需要回答关于事实知识的任意问题。对于PopQA,我们使用长尾子集,由1,399个罕见的实体查询组成,这些实体查询的维基百科月页面浏览量小于100。由于triviaqa未过滤(开放)测试集不可公开获取,我们遵循先前工作的验证和测试分割(Min et al, 2019;Guu et al, 2020),使用11,313个测试查询进行评估。根据malallen等人(2023),我们根据黄金答案是否包含在模型代中来评估性能,而不是严格要求精确匹配;Schick et al(2023)。

Long-form generation tasks(长格式生成任务)。包括一个传记生成任务(Min等人,2023)和一个长篇QA任务ALCE-ASQA Gao等人(2023);Stelmakh et al .(2022)。我们使用FactScore (Min等人,2023)来评估传记,我们使用官方的正确性指标(str-em),基于MAUVE的流畅性指标(Pillutla等人,2021),以及ASQA的引用准确性和召回率指标(Gao等人,2023)。

4.2 基线

Baselines without retrievals。我们评估了强大的公开可用的预训练llm, Llama27B,13B (Touvron等人,2023),指令调整模型,Alpaca7B,13B (Dubois等人,2023)(我们基于Llama2的复制);以及使用私人数据、ChatGPT (Ouyang等,2022)和Llama2-chat13B训练和强化的模型。对于指令调优的lm,我们使用官方系统提示或培训期间使用的指令格式(如果公开可用)。我们还将我们的方法与并行工作CoVE65B (Dhuliawala等人,2023)进行了比较,后者引入了迭代提示工程来提高LLM世代的事实性。

Baselines with retrievals。我们在测试时或训练时评估增强检索的模型。第一类包括标准的RAG基线,其中LM (Llama2、Alpaca)使用与我们系统中相同的检索器,在给定的查询前加上检索到的顶部文档,生成输出。

它还包括Llama2- FT,其中Llama2对我们使用的所有训练数据进行微调,而不需要反射令牌或检索通道。我们还报告了使用私有数据训练的lm的检索增强基线的结果:Ret-ChatGPT和Ret-Llama2-chat,它们部署了上述相同的增强技术,以及困惑。ai,一个基于instructgpt的生产搜索系统。第二类包括使用检索到的文本段落进行训练的并行方法,即SAIL (Luo等人,2023)在Alpaca指令调优数据上对LM进行指令调优,在指令之前插入检索到的顶部文档,以及Toolformer (Schick等人,2023)使用API调用(例如,维基百科API)预训练LM。

4.3 实验设置

Training data and settings。我们的训练数据由不同的指令跟随输入输出对组成。特别是,我们从open - directive处理过的数据(Wang et al ., 2023)和知识密集型数据集(Petroni et al ., 2021;Stelmakh et al ., 2022;Mihaylov et al, 2018)。我们总共使用了150k个指令输出对。我们使用Llama2 7B和13B (Touvron等人,2023)作为我们的发电机基础LM,我们使用Llama2-7B作为我们的基础批评LM。对于检索器模型R,我们默认使用现成的Contriever-MS MARCO (Izacard等人,2022a),每次输入检索最多10个文档。更多培训细节见附录B.1节。

Inference settings。作为默认配置,我们将权重项ISREL、ISSUP、ISUSE分别赋值为1.0、1.0和0.5。为了鼓励频繁检索,由于引文要求,我们将大多数任务的检索阈值设置为0.2,将ALCE的检索阈值设置为0 (Gao et al ., 2023)。我们使用vllm加速推理(Kwon et al, 2023)。在每个分段级别,我们采用2的波束宽度。

对于令牌级生成,我们使用贪婪解码。默认情况下,我们使用来自Contriever-MS MARCO的前5个文档(Izacard等人,2022a);对于传记和开放域QA,我们使用了web搜索引擎检索到的前5个文档,如下Luo等人(2023);对于ASQA,我们使用作者提供的GTR-XXL (Ni et al, 2022)在所有基线上的前5个文件进行公平比较。

表2:六个任务的总体实验结果。粗体数字表示非专有模型中性能最好的模型,灰色粗体文本表示性能优于所有非专有模型的最佳专有模型。*表示同时工作所报告的同时的或最近的结果。-表示原始论文未报道或不适用的数字。

模型是根据比例排序的。FS, em, rg, mau, prec, rec表示FactScore(事实);Str-em, rouge(正确);淡紫色(流利);分别引用精度和召回率。

5 结果与分析

5.1 主要结果

Comparison against baselines without retrieval。表2(顶部)显示了没有检索的基线。我们的SELF-RAG(底部两行)在所有任务中都比有监督的微调llm具有显著的性能优势,甚至在PubHealth、PopQA、传记代和ASQA (Rouge和MAUVE)中优于ChatGPT。我们的方法也明显优于采用复杂提示工程的并发方法;具体来说,在生物生成任务上,我们的7B和13B模型优于并行CoVE (duliawala等人,2023),后者迭代地提示Llama265B优化输出。

Comparison against baselines with retrieval。如表2(下)所示,我们的SELF-RAG在许多任务中也优于现有的RAG,在所有任务中获得了非专有的基于lm的模型中的最佳性能。虽然我们的方法优于其他基线,但在PopQA或Bio上,具有检索功能的强大指令调优的lm(例如,LLama2-chat, Alpaca)从它们的非检索基线中获得了很大的收益。然而,我们发现这些基线为我们不能简单地复制或提取检索段落的子字符串的任务提供了有限的解决方案。在PubHealth和ARC-Challenge上,与没有检索的基线相比,有检索的基线并没有显著提高性能。我们还观察到,大多数检索基线都难以提高引文准确性。在ASQA上,我们的模型比除ChatGPT之外的所有模型都显示出更高的引用精度和召回率。Gao等人(2023)发现,ChatGPT在这一特定任务中始终表现出优越的疗效,超过了较小的lm。我们的SELF-RAG弥补了这一性能差距,甚至在引用精度方面优于ChatGPT,该精度衡量模型生成的声明是否完全得到引用证据的支持。我们还发现,在事实精度的度量上,SELF-RAG 7B偶尔优于我们的13B,这是由于经常生成较小的SELF-RAG的趋势精确接地但短输出。Llama2-FT7B是在与SELF-RAG相同的指令输出对上训练的基线LM,没有检索或自我反思,仅在测试时进行检索增强,滞后于SELF-RAG。这一结果表明SELF-RAG的收益不仅仅来自于训练数据,也证明了SELF-RAG框架的有效性。

5.2 分析

消融实验。我们对我们的框架进行了一系列的精简,以确定哪些因素发挥了关键作用。我们评估了与我们的模型训练不同的两个模型变体:没有检索器使用给定指令输出对的标准指令跟随方法训练LM,没有检索到的段落;没有评论家用输入输出对训练LM,这些输入输出对总是在没有反射令牌的情况下用检索到的最上面的文档进行扩充。这类似于SAIL (Luo等人,2023),我们使用我们的指令输出数据,而不是像SAIL那样使用Alpaca数据集(Dubois等人,2023)。我们还对我们的推理时间算法进行了消融,包括不检索在推理期间禁用检索;硬约束表示在Retrieve =Yes而不是使用自适应阈值时检索的模型性能;Retrieve top 1总是只检索和使用top 1文档,类似于标准RAG方法;Remove ISSUP表示仅在式4中critical -guided beam search期间移除ISSUP分数的模型性能。在这个消融实验中,我们使用50k的训练实例大小来更有效地探索训练变化。在本节的后面,我们将对训练数据大小的影响进行分析。我们在PopQA、PubHealth和ASQA三个数据集上进行消融研究。在ASQA上,我们在抽样的150个实例上评估模型,并排除了涉及自适应或无检索过程的消融。

表3a显示了消融结果。表的上半部分为训练消融的结果,下半部分为推理消融的结果。我们看到所有组件都发挥着重要作用。我们还观察到SELF-RAG和No Retriever或Critic基线之间的性能差距很大,这表明使用这些模型训练LM在很大程度上有助于SELF-RAG的性能提高。在传统的RAG方法中,使用顶部段落而不考虑其相关性(检索顶部1)会导致PopQA和ASQA的大幅下降,并且在光束搜索结果中删除ISSUP会损害ASQA的性能。这证明了SELF-RAG基于细粒度多标准仔细选择生成的能力的有效性,而不是天真地使用检索模型中的所有顶级段落或仅仅依赖于相关性分数。

图3:SELF-RAG分析:(a)基于我们的7B模型对SELF-RAG训练和推理关键组件的消融研究。(b)软权重对ASQA引用精度和流利度的影响。(c) PubHealth和PopQA上的检索频率和归一化精度。

推理时间定制的影响。我们提出的框架的一个关键好处是,它使我们能够控制每个评估类型对最终生成抽样的影响程度。我们分析了不同的参数权重对我们的7B模型顶部在ASQA推理时间的影响,其中考虑了多个评估方面。图3b显示了更改ISSUP的权重项的效果,它评估文本段落对输出的支持程度。如图所示,增加权重会对模型的引用精度产生积极影响,因为这更强调模型生成是否得到证据的支持。

相反,权重越大,MAUVE得分越低:当生成越长、越流畅时,往往会有更多的主张没有得到引用的完全支持,这与Liu等人(2023a)的发现一致。我们的框架允许实践者在测试时通过调整这些参数来选择和定制模型的行为,而不需要额外的训练。

效率和准确性的权衡。使用我们的框架,从业者可以使用奖励令牌的令牌概率来调整检索发生的频率。我们评估了这个自适应阈值如何影响检索的总体准确性和频率,并在PubHealth和PopQA上评估了不同数量的阈值δ(较大的δ导致较少的检索)的性能。图3c显示了模型的检索频率在两个数据集上的显著变化。随着δ的变化。一方面,在PubHealth中,检索较少导致的性能下降较小,但在PopQA中则较大。

训练数据大小的影响。我们对数据规模如何影响模型的性能进行了分析。特别是,我们从原始的150k训练实例中随机抽取5k、10k、20k和50k实例,并在这些子集上微调四个SELF-RAG 7B变体。然后,我们将在PopQA、PubHealth和ASQA(引用精度)上的模型性能与在完整的150k个实例上训练的最终SELF-RAG进行比较。我们还对图4a、4b和4c进行了评估,图4a、4b和4c显示了模型在不同数据量上的性能。在所有数据集中,增加数据量通常会显示出上升的轨迹,并且在PopQA和ASQA中改进幅度更大,而当我们将训练数据从50k增加到150k时,我们在Llama2-FT7B上没有观察到如此显著的改进。这些结果也表明,进一步扩大SELF-RAG的训练数据可能会导致进一步的改进,尽管在本工作中我们将训练数据的大小限制在150k。

人类的评估。我们对SELF-RAG输出以及预测反射令牌的可靠性进行了小规模的人工评估。特别是,我们从PopQA和Bio结果中抽取了50个样本。在Menick等人(2022)之后,人类注释者评估标准普尔,这表明模型输出是否可信(即,输出是对问题的合理和主题响应,就像它发生在对话中一样)和支持(即,提供的证据足以验证答案的有效性)。对于标普,我们不考虑SELF-RAG预测不相关或没有支持的情况。然后,我们询问我们的注释者,关于ISREL和ISSUP的模型预测反射令牌是否与他们的检查相匹配(例如,完全支持的输出是否得到引用证据的支持)。人类注释者发现SELF-RAG的答案往往是可信的,并且有相关段落的支持,这些段落在短格式PopQA上的标准普尔得分较高,这与Menick等人(2022)的结果一致。人类注释者还发现,ISREL和ISSUP反射令牌预测大多与他们的评估一致。附录表6显示了几个关于评估的注释示例和解释。

6 结论

本文介绍了SELF-RAG,这是一个新的框架,通过按需检索和自我反思来提高大语言模型的质量和真实性。SELF-RAG通过预测原始词汇表中的下一个标记以及新添加的特殊标记(称为反射标记)来训练LM学习检索、生成和评估文本段落和它自己的生成。SELF-RAG通过利用反射令牌进一步支持在测试时裁剪LM行为。我们使用多个指标对六个任务进行了整体评估,结果表明SELF-RAG明显优于具有更多参数或传统检索增强生成方法的llm。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/739719.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL字典数据库设计与实现 ---项目实战

软件准备✍&#xff1a;Mysql与Navicat可视化命令大全 ----项目实战 文章前言部分 目录 一.摘要 二.设计内容 三.项目实现 一.摘要 本项目关注于字典数据库表结构的设计和数据管理。通过现有的sql文件&#xff0c;实现system_dict_type和system_dict_data两个数据表。随后…

汽车信息安全硬件讨论:SE vs HSM

目录 1.什么是Secure Element 2.芯片内置HSM和SE 3.未来HSM的发展 现在的智能网联汽车看起来像是一个连接万物的智能移动终端&#xff0c;它不仅可以与OEM云服务器通信接收OTA推送&#xff0c;还可以与手机蓝牙、Wifi交互完成远程汽车解锁、座舱内环境设置等等&#xff0c;借…

2024年通信技术与计算机科学国际学术会议(ICCTCS 2024)

2024年通信技术与计算机科学国际学术会议&#xff08;ICCTCS 2024&#xff09; 2024 International Academic Conference on Communication Technology and Computer Science&#xff08;ICCTCS 2024&#xff09; 会议简介&#xff1a; 2024年通信技术与计算机科学国际学术会议…

2023年零信任落地关键词:整合、身份、普及

2023年&#xff0c;全球企业纷纷加快了落地零信任的步伐。虽然落地的功能、落地的场景不尽相同&#xff0c;但企业对零信任的诉求、落地零信任的优先级却殊途同归&#xff0c;不同的零信任产品的应用场景也日益明晰。 全面整合和协同运行&#xff0c;是2023年企业用户对零信任…

LVGL使用GUI Guider配置STM32界面详细笔记教程

0、说明 接着前面几篇博客对LVGL的使用和介绍&#xff0c;这篇博客主要是使用和介绍快速配置LVGL图形界面编程的工具&#xff0c;GUI Guider。本文使用的工程代码&#xff0c;均是基于前几篇博客的基础上的&#xff0c;如需下载已配置好的LVGL-MCU工程环境&#xff0c;可通过如…

ANSYS Electronics 电磁场仿真工具下载安装,ANSYS Electronics强大的功能和灵活性

ANSYS Electronics无疑是一款在电磁场仿真领域表现卓越的软件工具。它凭借强大的功能和灵活性&#xff0c;帮助用户在产品设计阶段就能精确预测和优化电磁场性能&#xff0c;从而极大地降低了实际测试成本&#xff0c;并显著提升了产品的可靠性。 这款软件不仅在电子设计领域有…

标准立项 | 温室气体排放核算与报告要求 废油资源化企业

国内由于现有的废油再生企业规模较小&#xff0c;承担社会责任能力不强&#xff0c;在技术创新尤其是需要通过工程基础研究解决关键科技问题的创新积极性不高&#xff0c;由于经济成本的原因&#xff0c;多采用较落后的加工工艺&#xff0c;没有对废油中的特征污染物及毒害组分…

智慧在线医疗在线诊疗APP患者端+医生端音视频诊疗并开处方

智慧在线医疗&#xff1a;音视频诊疗新纪元 &#x1f310; 智慧医疗新篇章 随着科技的飞速发展&#xff0c;智慧医疗正逐步走进我们的生活。特别是在线医疗&#xff0c;凭借其便捷、高效的特点&#xff0c;已成为许多患者的首选。而其中的“智慧在线医疗患者端医生端音视频诊疗…

Databend 开源周报第 149 期

Databend 是一款现代云数仓。专为弹性和高效设计&#xff0c;为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务&#xff1a;https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展&#xff0c;遇到更贴近你心意的 Databend 。 支持递归公共表…

Python数据分析-运用机器学习的方法对保险反欺诈的预测分析

一、研究背景及意义 保险欺诈不仅会造成暂时性的损失、增加公司的运营管理难度&#xff0c;而且对于合法的消费者来说负担了本不属于自身承担的风险&#xff0c;损害了其合法权益。因此&#xff0c;提高对车险欺诈的识别率并据此形成防范对策对提高保险公司的利润与维护消费者…

VERYCLOUD睿鸿股份亮相亚马逊云科技中国峰会2024

5月30日&#xff0c;为期两天的亚马逊云科技中国峰会在上海世博中心圆满落幕。 多位大咖现场分享&#xff0c;生成式AI时代的数据战略&#xff0c;企业级AI应用&#xff0c;最新技术、产品重磅发布&#xff0c;创新行业解决方案 …… 作为亚马逊云科技的生态合作伙伴&#x…

如何用IDEA(2024版)从github上拉取一个项目

前置要求&#xff1a; 确保你已经安装了 IntelliJ IDEA。确保你已经安装了 Git 工具并配置好了环境变量。确保你有一个 GitHub 账户&#xff0c;并且你想要克隆的仓库可以被你访问。 具体步骤&#xff1a; 1. 打开 IntelliJ IDEA 启动 IntelliJ IDEA。如果这是你第一次启动…

AIGC-商业设计大师班,商业设计全流程(22节课)

课程内容&#xff1a; 02.AIGC大师计划(百天磨炼&#xff0c;只为让你一次成为大师).mp4 03.这5个细心的翻译工具我想全部告诉你(感受不到的工具才是好工具),mp4 04.扎实的基础是成功的关键(汇聚精华指导新功能演示方法).mp4 05.AI绘画大师级十二体咒语书写(大师级起步).mp…

祛寒湿效果最好的40天到了!4个方法,助你把堵在体内的寒和湿排出去~

莫名犯困、身体沉重、没有食欲、嘴里发黏……遇上这些症状&#xff0c;很可能是你被寒湿偷袭了。 “热在三伏、冷在三九”&#xff0c;最热的时候&#xff0c;也是排湿祛寒最佳的时段&#xff0c;抓住三伏“冬病夏治”黄金40天&#xff0c;这段时间调理好了可以事半功倍&#x…

数智化浪潮下的零售品牌商品计划革新

在数字化和智能化交织的时代背景下&#xff0c;零售品牌的商品计划正在经历一场前所未有的革新。这场革新不仅改变了商品计划的方式和流程&#xff0c;更重塑了零售品牌的竞争格局和市场地位。 一、数智化&#xff1a;零售品牌的新引擎 在快速变化的市场环境中&#xff0c;零…

React 扩展

文章目录 PureComponent1. 使用 React.Component&#xff0c;不会进行浅比较2. 使用 shouldComponentUpdate 生命周期钩子&#xff0c;手动比较3. 使用 React.PureComponent&#xff0c;自动进行浅比较 Render Props1. 使用 Children props&#xff08;通过组件标签体传入结构&…

docker-compose离线安装harbor

1、下载harbor goharbor下载&#xff1a;Releases goharbor/harbor GitHub harbor-offline-installer-v2.11.0.tgz 2、解压 tar -xvf harbor-offline-installer-v2.11.0.tgz 3、创建一个卷目录&#xff0c;并复制一份配置文件 cd harbor; mkdir data;cp harbor.yml.tmp…

Kotlin设计模式:享元模式(Flyweight Pattern)

Kotlin设计模式&#xff1a;享元模式&#xff08;Flyweight Pattern&#xff09; 在移动应用开发中&#xff0c;内存和CPU资源是非常宝贵的。享元模式&#xff08;Flyweight Pattern&#xff09;是一种设计模式&#xff0c;旨在通过对象重用来优化内存使用和性能。本文将深入探…

操作系统真象还原:用户进程

第11章-用户进程 这是一个网站有所有小节的代码实现&#xff0c;同时也包含了Bochs等文件 11.1 为什么要有任务状态TSS Linux 任务切换未采用 Intel 的做法&#xff0c;而是用了一套自己的方法&#xff0c;只是用了 TSS 的一小部分功能。 操作系统最直接控制的就是 CPU&…

解析 flink sql 转化成flink job

文章目录 背景流程flink实例实现细节定义的规则定义的物理算子定义的flink exec node 背景 在很多计算引擎里&#xff0c;都会把sql 这种标准语言&#xff0c;转成计算引擎下底层实际的算子&#xff0c;因此理解此转换的流程对于理解整个过程非常重要 流程 flink实例 public…