RAG:让大语言模型拥有特定的专属知识

作为一个在Chatbot领域摸爬滚打了7年的从业者,笔者可以诚实地说,在大语言模型的推动下,检索增强生成(Retrieval Augmented Generation,RAG)技术正在快速崛起。
RAG的搜索请求和生成式AI技术,为搜索请求和信息检索领域带来了革命性的改变。RAG能够帮助大语言模型根据可靠的数据直接给出答案。

本文就来介绍一下RAG的技术原理,并和Fine-tuning(微调)进行对比,同时介绍RAG的周边要素——向量数据库。

值得一提的是,RAG原本属于Chatbot系统搭建中的重要一环,笔者把RAG提前到生命周期部分中来讲述的原因是在数据处理和Prompt撰写的过程中,需要对 RAG 有基础的了解。

为什么有了大语言模型还需要RAG

ChatGPT的出现,使越来越多的开发者开始深入探索大语言模型在实际生产中的应用效果,尤其关注如何搭建一个拥有专属知识的大语言模型应用。

在开始RAG的介绍前,笔者先介绍大语言模型在当下的能力边界。

  1. 大语言模型的能力

(2)逻辑推理的能力:大语言模型具有一定的逻辑推理能力,无须额外增加任何特殊提示词,就能做出简单的推理,并挖掘出问题的深层内容。在补充了一定的提示词后,大语言模型能展现更强的推理能力。

(3)尝试回答所有问题的能力:特别是对话类型的大语言模型,如GPT-3.5、GPT-4,会尝试以对话形式回答用户的所有问题。大语言模型面对无法准确回答的问题,就算回答“我不能回答这个信息”,也会努力给出答案。

(4)通用知识的能力:大语言模型本身拥有海量的通用知识,这些通用知识的准确度较高,覆盖范围广泛。

(5)多轮对话的能力:大语言模型可以根据设定好的角色,理解不同角色之间的多次对话的含义,这意味着可以在对话中采用追问的形式,而不是每一次对话都要把之前所有的关键信息重复一遍。

  1. 大语言模型的限制

(1)被动触发:大语言模型是被动触发的,即需要用户输入或给出一段内容,大语言模型才会回应。大语言模型无法主动发起交互。

(2)知识过期:特指GPT-3.5和GPT-4,二者的训练数据都截至2021年9月,意味着大语言模型不知道之后的知识。

(3)细分领域的幻觉:虽然大语言模型在通用知识部分表现优秀,但在特定知识领域(如垂直的医药行业),大语言模型的回答往往存在错误,无法直接采信。

(4)对话长度:如果给大语言模型提供的内容过多,超过模型字符长度的限制,则该轮对话会失败。

  1. 用户的常见需求

希望搭建Chatbot的企业,通常期望用大语言模型实现以下功能。

采取多轮对话的形式,理解用户的提问并回答。

要求准确地回答关于企业的专属知识。

不能回答与企业专属领域知识无关的内容。

可以发现,虽然大语言模型有上下文推理能力,但由于大语言模型存在“知识过期”和“细分领域的幻觉”这两个限制,且它会尽可能地尝试回答所有的问题,因此只是单纯地使用大语言模型是没有办法解决所有问题的,RAG正是在这个背景下应运而生的。

RAG的技术原理

在RAG出现之前,早期的问答系统主要依赖预定义的规则和模板,以及简单的关键词匹配技术。知识图谱的出现,为问答系统带来了一定的改进,但这些系统仍然依赖固定的数据结构和知识库,限制了系统处理复杂问题的能力发展。

大语言模型出现后,尤其是ChatGPT的出现,显著提高了机器对自然语言的理解能力,大语言模型在大量文本上进行预训练后,能够生成更自然、更准确的语言。

RAG结合了信息检索和文本生成两种方法,旨在突破传统问答系统的局限。通过将外部数据检索的相关信息输入大语言模型,大语言模型能够基于这些信息生成回答,进而增强答案生成的能力。RAG能够处理更广泛、更复杂的问题。

使用RAG后可以有效解决大语言模型细分领域的幻觉和知识过期的问题。通过预检索模块,无需一次性向大语言模型输入过多的知识,大部分知识都可以用外部数据库承载,解决了当前大语言模型对话长度受 Token限制的问题。

值得注意的是,在生成回答时,RAG 系统不是简单地复制检索到的信息,而是在综合并加工这些信息,这使最终的回答既准确又具有一定的原创性。这一点是RAG区别于其他简单问答系统的关键。

  1. RAG的核心组件

RAG主要有两个核心组件:信息检索和文本生成。

信息检索

信息检索(Retrieve)的主要任务是在一个大型的知识库或文档集合中搜索与用户提出的问题相关的信息。这个过程类似人在图书馆中查找相关书籍以回答某个问题。通常,这一步骤依赖传统的信息检索技术,如倒排索引、TF-IDF评分、BM25算法等,或者采用更现代的基于向量的搜索方法。

虽然让大语言模型拥有特定领域的知识就要外挂向量数据库已经成为业内共识,但其实不只是向量数据库,所有外部存储的内容都可以被检索,再进行二次生成。

文本生成

文本生成(Generate)的职责是根据检索到的信息生成一个连贯、准确的回答。这个过程可以看作根据收集到的材料撰写一篇简短的文章或回答。

这个功能通常采用预训练的生成式语言模型来实现,如GPT系列。这些模型在大量文本上进行预训练,能够生成流畅且语义连贯的文本。

信息检索和文本生成两个组件的紧密结合至关重要。信息检索为文本生成提供了必要的原料,而文本生成则将这些原料转化为易于理解和有用的信息。这种结合使得RAG能够处理更复杂的查询,并生成更准确、更丰富的回答。

值得注意的是,在进行检索之前,对数据的处理也非常重要。通常,外部数据不仅存储在数据库中,也可能存储在外部文档(PDF、Markdown、Word、Excel等)或网页中。这时,需要对所有外部数据进行清洗和处理,同时需要提取一些元数据,包括文件名、时间、章节、图片等。

另外,仅加载外部文件是不够的。通常,外部文件非常大,而且Embedding模型和大语言模型都有长度限制,这时就需要将文件进一步切割成文本块(Chunk),才能精准地进行检索和生成。根据索引方式的不同、模型选择的不同,以及问答文本长度和复杂度的不同,切割的方法也有不同,简单的数据处理的流程如图1所示。笔者会在第10章对数据处理进行更详细的介绍。

在这里插入图片描述

图1

  1. RAG的工作流程

首先,通过检索系统引导大语言模型从外界数据库中查找与问题相关的文档或段落;然后,重新构建输入大语言模型的内容。最后,使用大语言模型在此基础上生成符合检索系统规定格式的答案。简而言之,RAG被视为模型的“外挂数据库”,以优化其回复。

为了让读者有完整的结构概览,结合数据处理流程和RAG流程,可以将RAG的工作流程简化为图2所示的形式。接下来将重点介绍RAG的工作流程。

在这里插入图片描述

图2

最基础的RAG

最基础的RAG流程如图3所示。

在这里插入图片描述

图3

(1)接收查询:系统收到用户的问题或查询。

(2)检索相关信息:系统查询一个或多个外部知识库,查找与该问题相关的信息或文档。

(4)提供回应:系统将生成的回答呈现给用户。

增加预处理查询的RAG

在用户提问环节,可以对问题进行进一步的预处理和理解查询,具体流程如图4所示。

(1)问题预处理:系统先对用户输入进行预处理,如文本清洗、标准化等,确保输入数据的质量。

(2)理解查询:系统运用自然语言处理技术理解查询的内容和意图。这个环节可以利用传统自然语言处理技术中的知识领域和意图识别,即根据用户的提问选择不同数据库中的内容,甚至可以对应不同匹配阈值及操作,具体细节本节不再详述。

在这里插入图片描述

图4

带有聊天历史的RAG

在实际对话中,用户和Chatbot的交流往往不是一句话,而是多句话,且上下文之间有指代关系。例如,用户说了两句话:

李佳芮是句子互动的创始人。

她今年多大了?

如果系统逐句处理接收的信息,则无法确定句子中的“她”指的是谁。系统需要将两句话结合起来,才能正确理解用户的提问是“李佳芮多大了”。

在这个例子中,除了对问题进行基础的预处理,还有一步重要的操作就是把之前的历史记录输入系统。通用的做法之一是让大语言模型将当前的问题和先前的问题结合,使用Prompt 引导大语言模型重写用户的问题,这样做可以有效地解决指代消除的问题。具体流程如图5所示。

在这里插入图片描述

图5

增加自动排序的RAG

尽管增加了聊天的历史记录,但由于在数据处理环节中系统内切割成的块数量很多,系统检索的维度不一定是最有效的,因此一次检索的结果在相关性上并不理想。这时,需要一些策略对检索的结果进行重新排序,或者重新调整组合相关度、匹配度等因素,使其更适合业务的场景。

对此,通常会设置内部触发器进行自动评审,触发自动重排序的逻辑,具体流程如图6所示。

在这里插入图片描述

图6

上述几个案例只是简单的RAG扩展说明,系统搭建章节会展示一个完整的案例。需要注意的是,在很多中间环节都可以根据具体场景加入各种工程化实现,满足真实的应用场景。在某些应用中,即使在最后的环节也不代表RAG技术的完成。用户的反馈可以进一步优化RAG的性能,例如用户评价回答质量的信息可以用来训练和改进模型。

RAG在Chatbot中的应用

RAG 技术在 Chatbot 应用中有非常重要的作用,尤其是在提高回应的相关性和准确性、处理复杂查询及增强个性化和上下文理解能力方面。

  1. 提高回应的相关性和准确性

(1)基于检索的信息丰富性:RAG 技术的检索组件可以从大量的知识库中检索与用户提问相关的信息。这意味着Chatbot可以访问更多的数据点,从而提供更丰富、更准确的回答。例如,当用户询问关于某个历史事件的细节时,RAG 技术能够从多个来源中检索相关信息,确保回答的全面性和准确性。

(2)文本生成组件的语境适应能力:RAG 的文本生成组件不仅是简单地重复检索到的信息,还能根据上下文生成适当的回答。这意味着即使利用同样的信息源,对不同的问题,生成的回答也会有所不同,这能确保回应与用户的查询高度相关。

(3)数据质量和过滤机制:Chatbot 中的 RAG 技术通常配备高质量的数据源,并使用过滤机制来确保检索到的信息是可信和准确的。这降低了生成错误信息的风险,提高了回应的准确性。

  1. 处理复杂查询

(1)信息聚合能力:对于复杂的查询,RAG 技术能够从不同的信息源中聚合数据。这意味着它可以综合多个观点或信息片段,提供一个全面的回答。例如,回答关于气候变化影响的复杂问题时,RAG能够综合科学研究、统计数据和专家意见等多方面的信息。

(2)上下文感知和连续对话能力:RAG技术在处理复杂查询时还具备上下文感知的能力。这意味着它可以理解并利用对话的历史和上下文信息,更好地处理多轮对话中的复杂查询。

  1. 增强个性化和上下文理解能力

(1)个性化回答:RAG技术能够根据用户的历史交互和偏好提供个性化的回答。例如,如果系统知道用户对某个特定主题有深入的了解,则可以提供有关该主题的更深入的回答。

(2)上下文追踪能力和长期记忆:Chatbot中的RAG系统通常具有上下文追踪能力和一定程度的长期记忆。这意味着它们能够记住用户过去的提问和回答,以便在未来的交互中提供更相关和连贯的回答。

(3)情感识别:RAG 技术可以整合情感识别功能,使 Chatbot 能够根据用户的情绪调整其回答的风格和内容。这增加了交互的个性化,使其更人性。

RAG技术在Chatbot中的应用极大地提高了回应的相关性和准确性,使得处理复杂查询成为可能,并显著增强了个性化与上下文理解的能力,为用户提供了更丰富、更自然、更个性化的交互体验,推动了Chatbot技术的发展。

RAG面临的挑战

当然,RAG并非无所不能,当前仍然有以下技术难点需要持续优化。

(1)检索与生成的协同工作:检索到的内容与生成的内容能否紧密结合是一个关键问题。

(2)计算效率:执行检索和生成这两个步骤可能导致系统响应延迟,使整个系统的运行速度变慢,因此对时间敏感的应用而言,RAG可能不太适用。

(3)数据噪声:外部检索的数据可能带有噪声,这会影响生成内容的准确性。

未来,RAG会在法律、教育、商业等方向上有非常多的应用。值得一提的是,在某一特定语言风格(如鲁迅的语言风格)、模型本身的价值观倾向等方面,还需要类似 Fine-tuning的技术来优化大语言模型。

更多关于RAG及大模型时代下从0到1构建Chatbot的内容,欢迎阅读《Chatbot从0到1(第2版):对话式交互实践指南》一书!

↑限时五折优惠↑

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/309526.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[足式机器人]Part3 机构运动学与动力学分析与建模 Ch00-3(2) 刚体的位形 Configuration of Rigid Body

本文仅供学习使用,总结很多本现有讲述运动学或动力学书籍后的总结,从矢量的角度进行分析,方法比较传统,但更易理解,并且现有的看似抽象方法,两者本质上并无不同。 2024年底本人学位论文发表后方可摘抄 若有…

QT上位机开发(属性页面的设计)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 窗口设计的时候,如果很多内容一个page放不下,那么这个时候我们一般都会选择使用tab来进行处理。安装了tab之后,…

IPv6路由协议---IPv6动态路由(OSPFv3-5)

OSPFv3各链路状态通告类型 4.Inter-Area-Router-LSA区域间路由器(4类LSA) 边界路由器(ABR)产生的第4类LSA,在Area 范围内泛洪,描述了到本AS内其他区域的ASBR路由器信息; 每各Inter-Area-Router-LSA包含一个ASBR路由器信息,LSA中的能力选项(Options)与所描述的ASBR …

Aloha 机械臂的学习记录3——AWE:Pycharm运行代码记录

之前的博客创作了三偏关于Aloha_AWE的liunx终端指令运行代码的示例: Aloha 机械臂的学习记录——AWE:Bimanual Simulation Suite: https://blog.csdn.net/qq_54900679/article/details/134889183?spm1001.2014.3001.5502 Aloha 机械臂的学习记录1——AWE&#x…

少儿编程 2023年12月中国电子学会图形化编程等级考试Scratch编程三级真题解析(判断题)

2023年12月scratch编程等级考试三级真题 判断题 19、下列两段程序的运行效果相同 答案:对 考点分析:考查积木综合使用,重点考查循环积木的使用;左边属于有条件的循环,由变量的值控制,当变量值大于50时,循环停止,而变量始终为零,不满足条件,所以一直循环,和右边的…

python 文本内容随机生成器

这段代码是一个用于生成指定长度的随机文本的函数。主要包括两个函数:generate_text()和generate_other_content()。 generate_text(original_text, length)函数接受两个参数:原始文本和生成文本的长度。该函数的作用是根据原始文本生成指定长度的文本。…

expected initializer before ‘XXXX’,但是明明有分号,而且在vs里面也能运行,但是在linux上就会报错

错误一:忘记加分号了; 解决:加分号;具体很简单,自己看看,多瞅瞅https://zhuanlan.zhihu.com/p/102627362 如果修改之后,成功的话那就太恭喜你了,下面的就别看了 错误二&#xff1…

064:vue中一维数组的全选、全不选、反选(图文示例)

第061个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下,本专栏提供行之有效的源代码示例和信息点介绍,做到灵活运用。 (1)提供vue2的一些基本操作:安装、引用,模板使…

用可视化案例讲Rust编程2. 编码的核心组成:函数

从第一天学习编程,可能大家就听说这样的组成公式: 程序算法数据结构 ——该公式出自著名计算机科学家沃思(Nikiklaus Wirth) 实际上,程序除了以上两个主要要素之外,还应当采用结构化程序设计方法进行程序设计,并且用…

Redis性能大挑战:深入剖析缓存抖动现象及有效应对的战术指南

在实际应用中,你是否遇到过这样的情况,本来Redis运行的好好的,响应也挺正常,但突然就变慢了,响应时间增加了,这不仅会影响用户体验,还会牵连其他系统。 那如何排查Redis变慢的情况呢&#xff1f…

nginx配置 请求静态文件时带上额外的响应头信息

注意:这种方式添加的额外信息会出现在响应头中。 例如在location{}中,try_files之前添加如下信息: add_header X-Extra-Header "Value"; add_header X-Forwarded-For $proxy_add_x_forwarded_for; …

Gitlab-ci:从零开始的前端自动化部署

一.概念介绍 1.1 gitlab-ci && 自动化部署工具的运行机制 以gitlab-ci为例: (1) 通过在项目根目录下配置.gitlab-ci.yml文件,可以控制ci流程的不同阶段,例如install/检查/编译/部署服务器。gitlab平台会扫描.gitlab-ci.yml文件&…

【Python】Sigmoid和Hard Sigmoid激活函数对比总结及示例

Sigmoid和Hard Sigmoid是两种常用的激活函数,它们在神经网络中起到非线性变换的作用。以下是它们之间的对比和优缺点总结: Sigmoid激活函数: 优点: 输出范围是0到1之间,可以用于二分类问题。函数形状相对平滑&#…

【LeetCode】组合两个表(mysql)

题目 编写解决方案,报告 Person 表中每个人的姓、名、城市和州。如果 personId 的地址不在 Address 表中,则报告为 null 。 以 任意顺序 返回结果表。 结果格式如下所示。 答 select firstName ,lastName,city,state from Person left join Address …

使用pygame.draw绘制基本图形

import pygame# 初始化pygame pygame.init()# 创建显示窗口 screen pygame.display.set_mode((640, 480)) pygame.display.set_caption("绘制基本图形")# 定义颜色 BLACK (0, 0, 0) WHITE (255, 255, 255) RED (255, 0, 0) GREEN (0, 255, 0) BLUE (0, 0, 255)…

Mac安装nvm以及使用nvm安装node

1. 安装nvm命令 git clone https://gitee.com/mirrors/nvm.git ~/.nvm && cd ~/.nvm && git checkout git describe --abbrev0 --tags2. 配置环境变量 vi ~/.bash_profileexport NVM_DIR"$HOME/.nvm" [ -s "$NVM_DIR/nvm.sh" ] &&…

网络安全工具:通过监控分析日志数据保护企业网络

由于混合工作模式的兴起以及业务运营向云环境的迁移,企业网络变得更加分散和复杂,仅安装外围安全解决方案只会创建一个基本的防御层,系统、服务器和其他网络实体会生成记录所有网络活动的日志。集中式日志管理系统可以帮助管理员自动监控网络…

【教学类-45-06】正确 X-Y之间的三连加减题混合 (竖向排列)(44格:11题“++ ”11题“--”11题“ +-”11题“ -+” )

作品展示: 背景需求: 把以下四款3连题 混在一起,每种题目随机抽取11题,一共44格 出现问题: 1、- 、-里面有重复题 2、升序排列最好竖排展示 素材准备: ​ ​ 问题改正 1、单元格修改:确保竖列写入 …

【elastic search】JAVA操作elastic search

目录 1.环境准备 2.ES JAVA API 3.Spring Boot操作ES 1.环境准备 本文是作者ES系列的第三篇文章,关于ES的核心概念移步: https://bugman.blog.csdn.net/article/details/135342256?spm1001.2014.3001.5502 关于ES的下载安装教程以及基本使用&…

鸿蒙Harmony--状态管理器--@Prop详解

纵横千里独行客,何惧前路雨潇潇。夜半浊酒慰寂寞,天明走马入红尘。且将新火试新茶,诗酒趁年华。青春以末,壮志照旧,生活以悟,前路未明。时间善变,可执着翻不了篇。时光磨我少年心,却…