【原创】一文读懂RAG的来源、发展和前沿

87cb1c036addbe71b879f263be058001.png

检索增强生成(Retrieval Augmented Generation,RAG)结合了检索 (Retrieval) 和生成 (Generation) 两个过程,旨在提高机器生成文本的相关性、准确性和多样性。RAG通过在生成文本输出之前先检索大量相关信息,然后将这些检索到的信息作为上下文输入到一个生成模型中,从而缓解了幻觉问题。

深度学习自然语言处理 原创
作者:Frank Guan

幻觉——大模型面临的困境

纯生成模型,尤其是基于大语言模型的生成模型,虽然在生成连贯、流畅的文本方面表现出色,但它们有时会产生与事实不符的信息。这种现象被称为幻觉(hallucination)。幻觉的产生通常是由于模型在训练过程中学习到的信息是不完整的,或者模型在尝试生成看似合理但实际上并非基于真实信息的内容时过度自信。0f798fd162ffcea361a23cbe2a6df8e9.png幻觉的问题也暗示了大模型是一个黑匣子(black box),在没有额外保障措施的情况下在现实环境中部署大模型是不切实际的。eabdc670a6b9cb4c0af905cb4546db32.png

如何解决幻觉问题?

针对幻觉问题,前人尝试了不同方式去缓解。以下为几种常见的解决方案:
(1)预定义的输入模板(Pre-defined input templates)
创建预定义的模板(例如提示模板和问题模板),让用户以更有利于模型理解的方式构建查询。经证明,这样可以提高查询的精确度。下面是langchain预定义模板的例子:ca927485f2c2bb76bbd5cb1e6ee6aedd.png(2)推理(Reasoning)
Chain-of-Thought (CoT)推理是一种用于提高大型语言模型在解决复杂问题上的性能的方法,尤其是那些需要多步骤推理的问题。它通过引导模型生成一系列解释性的中间步骤来解决问题,而不是直接生成最终答案。这种方法不仅可以提高答案的准确性,也可以在一定程度上缓解幻觉问题。1d95e10e875125ac7a79079875bd0056.png(3)反馈(Feedback)
Reinforcement Learning from Human Feedback (RLHF) 是一种改进大型语言模型性能的方法,通过结合人类反馈和强化学习来微调模型。这个方法可以让人类评估者通过负反馈直接指出错误,对于解决生成模型中的幻觉问题特别有效。b614429ac4cfe618e7e2d826651178de.png(4)模型配置(Model configuration and behavior)
生成的输出受各种模型参数的影响很大,例如温度、top-p等。较高的温度值可促进随机性和创造性,而较低的温度值可使输出更具确定性。这些参数提供了微调的灵活性,并实现了生成多样化响应和确保准确性之间的平衡。abb391f5b5e2845751ec1d2315201f16.png(5)迭代查询(Iteration)
AI代理(agent)会在大语言模型中进行迭代查询。迭代多次可以帮助我们得到最佳答案。当用户提出一个问题,大语言模型会在知识库中查询类似的问题。然后,用所有问题查询向量数据库,总结答案,并检查答案是否看起来合理。如果没有合理答案会重复这些步骤,直到出现为止。75461ed09fb0e26098ebfb7cc609df95.png

检索增强生成

检索增强生成(RAG)是一种使用外部数据源的信息辅助文本生成的技术。它是将检索与生成结合的实践,通过访问外部数据库检索得到有关的信息(通常以chunk形式返回所需信息)。把检索得到的信息与用户源问题合并为提示,让大语言模型从包含外部信息的提示中学习知识(in-context learning)并生成正确答案。[Lewis et al., 2020]d0bf2cdadd1ad5318d3120f034793042.png用户向大语言模型询问最近备受瞩目的事件(例如OpenAI和Elon Mask)。由于大模型受其预训练数据的限制,缺乏对近期事件的了解。检索增强生成模型通过从外部知识库检索最新文档摘录弥补了这一差距。例如,它获取到了与调查相关的新闻文章。然后将这些文章与最初的问题合并成一个丰富的提示,使大模型能够综合生成正确的响应。c13e964932102689b8185366d69769ba.png

图源自论文:Gao, Yunfan, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, and Haofen Wang. "Retrieval-Augmented Generation for Large Language Models: A Survey." arXiv e-prints (2023): arXiv-2312.

RAG的核心部件

(1)向量数据库(Vector Database)
向量数据库是一种专门设计用来高效存储和检索向量数据的数据库系统。数据经常以高维向量的形式存在,比如文本、图片或其他类型的数据经过嵌入模型转换成的向量。这些向量代表了原始数据的特征和语义信息,可以用于各种相似性搜索和数据分析任务。向量数据库通过优化这类向量数据的存储结构和检索算法,提供了一种高效率的方式来处理大规模向量集合。检索增强生成模型的一个关键步骤是从大规模数据集中检索相关信息,这些信息随后用于辅助生成模型产生回答。向量数据库能够快速检索到与查询向量最相似的数据向量,从而大大加快了这一过程,提高了信息检索的效率和准确性。
(2)查询检索(Retriever)
在检索增强生成过程中,检索器可以从一个大规模的文档集合或知识库中检索出与给定查询最相关的信息,这个过程是通过比较查询的表示(通常是一个向量)和文档集合中每个文档的表示来完成的,通过检索器,检索增强生成系统能够访问到更广泛的、实时更新的信息,从而扩展了模型处理问题时的知识范围。目标是找到最能帮助生成系统回答查询的信息。
ee134b8cdd0b977d76f0d015305bce07.png

图源自论文:Zhao, W. X., Liu, J., Ren, R., & Wen, J. R. (2024). Dense text retrieval based on pretrained language models: A survey. ACM Transactions on Information Systems, 42(4), 1-60.

(3)重新排序(Re-ranker)
我们可以在许多文本文档中执行语义搜索,相关文档可能有数万到数百亿个。但由于大语言模型对于传递文本量有限制,我们需要对文档质量进行排序,然后返回top-k文档用于下一步检索生成。在重排器中,给定查询和文档对,将输出相似性得分。我们使用这个分数根据与我们的查询的相关性对文档进行重新排序。75ff71bf0351773995f94aa914d77c95.png(4)生成回答(Generator)
在整个检索增强生成系统中,生成器是负责将检索到的信息生成最终文本输出的组件,它利用这些检索到的信息来构建回答或完成特定的文本生成任务。生成器将检索到的多个文档或信息片段综合考虑,融合它们的内容来构建一个连贯、逻辑一致的输出。这个过程涉及到语言生成的各个方面,包括词汇选择、语法结构和内容连贯性等。
因为检索增强生成不仅用于事实推理,还可以被用于生成代码、图像等,因此面对不同下游任务,生成器模型已经衍生出多种变体。Transformer模型经常应用于文本生成任务;VisualGPT常用于从图像生成文本描述;Stable Diffusion主要用于根据文本提示生成图像;Codex则专注于从文本描述生成代码。e80ae2d5cc1f80bab9493ed38044ab14.png

图源自论文:https://github.com/hymie122/RAG-Survey

检索增强生成前沿

(1)RAG + Knowledge Graph
首先,我们可以使用大语言模型从用户问题中提取关键实体。然后基于这些实体来检索子图。最后,大模型用获得的上下文(实体的邻接矩阵信息)中生成答案。3763d58cbc28467bf48c60e2e4508679.png

参考资料:https://siwei.io/graph-rag/

(2)RAG + Tree
文章引入了递归嵌入、聚类和总结文本块的新颖方法,从下到上构建具有不同摘要级别的树。最开始,将检索语料库分割成长度为100的短连续文本。然后用SBERT进行句子嵌入。为了对相似的文本块进行分组,可以采用聚类算法。聚类后,语言模型用于总结分组的文本。然后将这些总结的文本重新嵌入。这样的过程不断进行,直到不能进一步聚类。于是我们有了原始文档的结构化、多层树的表示。099d280f6b9651e25cbdef4eed531aac.png

图源自论文:Sarthi, Parth, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, and Christopher D. Manning. "RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval." In The Twelfth International Conference on Learning Representations. 2024.

前天斯坦福大学的Andrew Ng在DeepLearning.AI上开设了一门新课Knowledge Graphs for RAG,讲解如何利用知识图谱获取多种类型数据之间的复杂关系辅助更准确的检索增强生成。9e6a4533ba0a68522dd064f964a44d89.png

课程链接:https://www.deeplearning.ai/short-courses/knowledge-graphs-rag/

注:本文部分图片源自网络Google images

参考阅读
(1)https://thenewstack.io/3-ways-to-stop-llm-hallucinations/
(2)https://www.simform.com/blog/reinforcement-learning-from-human-feedback/
(3)https://masterofcode.com/blog/hallucinations-in-llms-what-you-need-to-know-before-integration#:~:text=Facilitate%20Domain%20Adaptation%20and%20Augmentation,queries%20and%20generate%20relevant%20responses.
(4)https://medium.com/@cooper.white_86633/ai-hallucinations-the-ethical-burdens-of-using-chatgpt-5e62dd0f75c7
(5)https://www.simform.com/blog/llm-hallucinations/


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

8fa281f42dd38777e65916951f9aa598.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/460718.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

练习题手撕总结

基础篇 1.基础知识(时间复杂度、空间复杂度等) 2.线性表(顺序表、单链表) 3.双链表、循环链表 4.队列 5.栈 6.递归算法 7.树、二叉树(递归、非递归遍历) 8.二叉搜索树(BST) 9.二分查…

FPGA静态时序分析与约束(三)、读懂vivado时序报告

系列文章目录 FPGA静态时序分析与约束(一)、理解亚稳态 FPGA静态时序分析与约束(二)、时序分析 文章目录 系列文章目录前言一、时序分析回顾二、打开vivado任意工程2.1 工程布局路由成功后,点击vivado左侧**IMPLEMENT…

浅易理解:非极大抑制NMS

什么是非极大抑制NMS 非极大值抑制(Non-Maximum Suppression,简称NMS)是一种在计算机视觉和图像处理领域中广泛使用的后处理技术,特别是在目标检测任务中。它的主要目的是解决目标检测过程中出现的重复检测问题,即对于…

家具工厂5G智能制造数字孪生可视化平台,推进家具行业数字化转型

家具制造5G智能制造工厂数字孪生可视化平台,推进家具行业数字化转型。随着科技的飞速发展,家具制造业正迎来一场前所未有的数字化转型。在这场家具制造业转型中,5G智能制造工厂数字孪生可视化平台发挥着至关重要的作用。 5G智能制造工厂数字孪…

深度学习模型部署(十)模型部署配套工具二

上篇blog讲了trtexec和onnx_graphsurgeon两个工具,一个用于将onnx转化为trt模型,另一个用于对onnx模型进行修改。这篇blog讲polygraphy和nsight systems,前者用于进行模型优化以及结果验证,后者用于性能分析。 polygraph polygra…

sqllab第二十三关通关笔记

知识点: mysqli_query() 返回值为资源型或布尔型如果内容为查询语句则返回资源型数据;如果内容为插入、更新、删除等语句则返回布尔类型结果mysql_fetch_array() 从结果集中取出一行作为关联数组或数字数组输入内容为指定查询的结果集单引号闭合绕过联…

hololens2发布unity设置

生成vs工程再向hololens发布时, Architecture选X64或ARM64都可以成功发布

爬虫3_爬取翻页URL不变的网站

之前实现了对大学排数据爬取:爬虫2_2019年549所中国大学排名. 近期复现代码,发现原网站升级,在翻页时,发现URL不改变,修改代码,使用网页自动化工具selenium实现对该类网站数据获取。 #-*- coding: UTF-8 -…

【物联网】Modbus 协议及Qinghub物联网平台应用

Modbus 协议简介 QingHub设计器在设计物联网数据采集时不可避免的需要针对Modbus协议的设备做相关数据采集,这里就我们的实际项目经验分享Modbus协议 你可以通过QingHub作业直接体验试用,也可以根据手册开发相应的代码块。 qinghub项目已经全面开源。 …

MC78L05ACDR2G线性稳压器芯片中文资料规格书PDF数据手册引脚图参数图片价格

产品概述: MC78L00A系列线性稳压器价格便宜,易于使用,适用于各种需要最高100mA的调节电源的应用。与大功率MC7800和MC78M00系列一样,这款稳压器也提供内部电流限制和高温关断,因此非常坚固耐用。在很多应用中&#xf…

MediaBox音视频终端SDK已适配鸿蒙星河版(HarmonyOS NEXT)

2024年1月,HarmonyOS NEXT 鸿蒙星河版系统开发者预览版开放申请,该系统将只能安装为鸿蒙开发的原生应用,而不再兼容安卓应用。对此,阿里云MediaBox音视频终端SDK产品已实现功能的鸿蒙化迁移和重构,全面适配鸿蒙系统Har…

王勇:硬科技的下一站 | 演讲嘉宾公布

一、智能耳机与可穿戴专题论坛 智能耳机与可穿戴专题论坛将于3月27日同期举办! 智能耳机、可穿戴设备已经逐渐融入我们的生活,它们不仅带来了便捷与舒适,更在悄然改变着我们的生活方式和工作模式。在这里,我们将分享最新的研究成果…

前端基础——HTML傻瓜式入门(2)

该文章Github地址:https://github.com/AntonyCheng/html-notes 在此介绍一下作者开源的SpringBoot项目初始化模板(Github仓库地址:https://github.com/AntonyCheng/spring-boot-init-template & CSDN文章地址:https://blog.c…

误分区酿苦果,数据恢复有妙方

一、误操作引发分区混乱 在数字化时代的浪潮中,硬盘分区成为我们管理和存储数据的重要手段。然而,误分区这一操作失误,却时常给许多用户带来不小的困扰。误分区,简单来说,就是在对硬盘进行分区操作时,由于…

P6安装:安装P6提示1433端口无效

错误描述 尝试运行 Microsoft SQL Server 2005 的 Primavera P6 数据库时,遇到以下错误: SQLServerException: The TCP/IP connection to the host [name], port 1433 has failed. Error: “Connection refused: connect. Verify the connection prope…

LCR144翻转二叉树(力扣简单题,Java,递归+非递归)

目录 题目描述: 递归代码1: 递归代码2: 非递归代码(层次遍历): 题目描述: 给定一棵二叉树的根节点 root,请左右翻转这棵二叉树,并返回其根节点。 示例 1:…

vs2022安装番茄助手后无法使用

1.安装番茄助手 兼容性-win7-管理员启动 2.破解 下载附件“VA_X64.dll”、“PiaoYun64.dll”破解文件,使用Everything找到C盘对应的“VA_X64.dll”路径,将两个破解文件拷贝到此路径。 3.命令行键入类似命令:D:\OfficeSoftware\VisualStudi…

mybatis实现动态sql和关联映射以及延迟加载策略

一、动态sql的简述 什么是动态sql:在不同条件下拼接不同的sql Mybatis框架的动态sql技术是一种根据特定条件动态拼接SQl语句的功能,他存在的意义是为了解决拼接SQL语句字符串时的痛点问题。比如我们在用淘宝之类的软件在进行商品属性选择的时候,我们会发…

JAVA22 FFM实战之HelloWorld

前言 JDK22即将发布,Java Foreign Function & Memory API将会退出预览,是时候开始学习一波了。 FFM API介绍 FFM API由两大部分组成,一个是Foreign Function Interface,另一个是Memory API。前者是外部函数接口&#xff0c…

Java双非大二找实习记录

先说结论:2.22→3.6线上线下面了七家,最后oc两家小公司,接了其中一个。 本人bg: 真名不经传双非一本,无绩点无竞赛无奖项无实习,23年12月开始学java。若非要说一点相关的经历,就是有java基础&…