在大模型应用中,如何提升RAG(检索增强生成)的能力?

01、什么是RAG?

RAG简单来说就是给予LLM的一些增强。

• 引入新的信息,这些信息可能不在LLM中。

• 使用RAG控制内容来减少幻觉(模型生成与现实不符的输出),这是RAG的一个常见用途。通常的用例是提供内容给模型,并指示它仅使用该内容来回答问题,不使用LLM自有的知识,以此限制回答来自特定的知识库,减少幻觉。

图片

简单来说,RAG主要是由检索和生成两个阶段组成:

• 检索阶段:在检索阶段,算法搜索并检索与用户提示或问题相关的信息片段,向量数据中查找与Query相关的数据。

• 生成阶段:大模型从增强提示及其训练数据的内部表示中提取信息,以在那一刻为用户量身定制引人入胜的答案。

那么,基于RAG的提升方法也是从这两个极端来实现,接下来会用更简单通俗的方法讲解一下RAG存在的痛点和解决方法。

图片

02、检索阶段:痛点和解决方案

1、痛点一:检索质量低

RAG 模型严重依赖于检索到的上下文文档的质量。如果检索器无法找到相关的事实段落,就会严重妨碍模型根据有用信息并产生准确、深入的响应的能力。

特别是现在,稀疏向量检索在语义匹配和检索高质量文档存在困难。

解决方案:

增强目标域的相关性:通过监督训练信号或模型反馈来微调检索器。

采用 DPR 或 ANCE 等模型的密集检索器模型,以获得更高的召回率和相关性。

尝试使用多向量表示、近似最近邻搜索和最大内积搜索来不影响准确性的情况下提高检索速度。

为了真实性,使用可信度指标检索权威、值得信赖的来源。

2、痛点二:覆盖范围不足

虽然外部知识对于高质量的 RAG 输出是必不可少的,但即使是最大的语料库也无法完全覆盖用户可能查询的实体和概念。如果无法访问全面的知识源,该模型就会返回对利基或新兴主题的无知、通用的响应。

解决方案:

通过集合不同来源的文档来扩展语料库,以增加覆盖的可能性。

设计模块化架构以添加/更新知识源,而无需完全重新培训。

增加实时检索来覆盖运行时候文档覆盖度

3、痛点三:情境调节困难

即使具有良好的检索能力,RAG 模型也常常难以正确地调节上下文文档并将外部知识合并到生成的文本中。如果没有有效的情境调节,就无法产生具体的、真实的反应。

解决方案:

• 通过专用的交叉注意力转换器层加强情境化。

具有自我监督目标的预训练语言模型,用于训练外部文本。

使用更好的情感实体分析方法。

4、痛点四:有效内容划分

对于新增加的文档而言,RAG模型确定所需要检索的内容并用于生成是十分困难的,特别是针对长内容的处理。这就需要针对新增加的信息进行清洗和划分。

解决方案:

更好的数据清洗方法,清理文档无效内容和隐私内容。

调整上下文数据分块大小,较小的块通常可以改善检索,但可能会导致生成过程缺乏周围的上下文

图片

5、痛点五:高质量文本排名

在检索源数据时候,需要有效的方法给检索的数据进行排名,找到最想相关的数据才能更好的得到内容。

解决方案

  • 将元数据添加到块中,使用他们来帮助处理结果,包括日期、标记等

  • 增加多样性和相关性来进行排序器

  • 重新排名是解决相似性和相关性之间差异问题的一种解决方案

图片

03、生成阶段:痛点和解决方案

1、痛点一:幻觉问题

由于过度依赖语言模型先验,RAG 模型经常生成看似合理但完全错误或不忠实的语句,而没有在检索到的上下文中进行验证。

解决方案:

通过训练信号直接最小化产生幻觉文本的可能性。

• 根据与上下文的不匹配自动检测制造。

• 对检索到的文档使用可信度指标,以防止对不可靠来源的限制。

• 通过将优化重点放在上下文基础上来削弱语言模型先验。

2、缺乏可解释性

与传统的 QA 系统不同,RAG 模型无法了解生成文本背后的推理。模型的可解释性仍然是含蓄和不透明的,而不是明确的。

解决方案:

• 设计模型架构,以结构化链/图的形式明确跟踪证据和解释。

• 实施辅助头来预测解释性证据,例如显着数据生成源的内容片段。

• 在每个生成步骤附加有意义的上下文标签以跟踪来源。

• 通过引用内容来源来生成描述推理的自然语言解释。

• 总结查询和上下文之间证明响应合理性的关键语义联系。

图片

3、痛点三:推理速度慢

检索与生成的耦合阻碍了 RAG 模型与标准语言模型的延迟匹配。推理管道缺乏对需要毫秒响应的实时应用程序的优化。

解决方案:

• 优化标记化、编码和检索推理,以最大程度地减少生成之前的开销。

• 使用 NMSLIB、FAISS 或 ScaNN 等库采用高效的近似最近邻索引。

• 利用模型并行性和批量检索+生成来提高管道效率。

• 设计模型蒸馏方法,以最小的质量损失压缩检索器-生成器。

尽可能将检索转移到离线状态,以避免运行时瓶颈。

4、个性化落地难

在通用语料库上训练的 RAG 模型缺乏针对特定用户需求、上下文和查询生成响应的能力。如果没有个人理解,他们无法解决模棱两可的信息请求。

解决方案:

• 设计角色上下文记忆来跟踪对话中的用户配置文件和上下文。

• 在匹配目标用户的标记查询->响应对上微调 RAG 模型。

• 对先前对话和用户反馈进行多任务训练。

• 利用元学习开发少量的个性化技术。

• 构建用户特定的扩展模块来补充检索语料库。

图片

5、痛点五:质量评估难

可能的接地响应的多样性使得使用自动化指标可靠地评估 RAG 模型输出的正确性和质量变得具有挑战性。人类评估也缺乏可扩展性。这阻碍了迭代改进。

解决方案:

• 生成带有专家原理的带注释的测试集,以实现标准化评估。

• 根据语义而不是 n 元语法重叠开发专门的指标。

• 通过有针对性的自动评估,分别量化相关性、连贯性、一致性等关键轴。

• 利用用户反馈信号作为个性化质量判断来设计在线学习方案。

• 构建以注释而不是数字分数为中心的交互式评估界面。

04、RAG的评价指标

图片

在RAG架构中会存在一下评价指标:

• 真实性:判断生成内容是否与事实一致

• 答案相关性:答案与提示的相关性

• 上下文精度:检查相关块的排名是否较高。

• 上下文回忆:比较真实情况与上下文,检查是否检索到所有相关信息

上下文实体召回:评估检索到的上下文中存在的实体数量与真实值

上下文相关性:检索到的上下文与提示的相关性

答案语义相似度:生成的答案与实际答案在语义上的相似程度

答案正确性:评估生成答案与实际答案的准确性和一致性。

05、总结

RAG 是一种很有前途的提高 LLM 准确性和可靠性的方法,具有事实依据、减少偏见和降低维护成本等优点。虽然未知识别和检索优化等领域仍然存在挑战,但正在进行的研究正在突破RAG 功能的界限,并为更值得信赖和信息丰富的LLM应用铺平道路。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/716544.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

11.无代码爬虫八爪鱼采集器抓取网站信息的实操案例——选择目标网站、提取标题、发布时间、评论内容、作者昵称、点赞数量等字段

首先,多数情况下免费版本的功能,已经可以满足绝大多数采集需求,想了解八爪鱼采集器版本区别的详情,请访问这篇帖子: https://blog.csdn.net/cctv1123/article/details/139581468 八爪鱼采集器免费版和个人版、团队版下…

应变玻璃合金是航天产业重要弹性材料 研究开发意义重大

应变玻璃合金是航天产业重要弹性材料 研究开发意义重大 应变玻璃,是一种形状记忆合金,为纳米级材料,其短程有序晶格应变区域呈冻结状态,具有典型的玻璃化转变特征,可以对外界刺激产生应变反应,也称为应变玻…

有没有硅基生命?AGI在哪里?

摘要 随着科技的飞速发展,人工智能(AI)和生命科学的探索逐渐成为人们关注的焦点。其中,关于硅基生命的可能性与AGI(Artificial General Intelligence,即人工通用智能)的实现,更是引…

C++ -- 红黑树的基本操作

目录 摘要 基本规则 基本操作 利用Graphviz 库 总结 摘要 红黑树是一种自平衡的二叉搜索树,它在插入和删除节点时,通过颜色和旋转操作保持树的平衡,确保插入、删除和查找的时间复杂度都是 (O(log n))。红黑树的每个节点都有一个颜色属性…

umijs脚手架

node 16.9.1 注意node版本的问题 node 18.20.0 这个问题其实是node与中端连接出错,无法初始化TTY(终端设备),可以用cmd命令行来创建umi项目 nvm管理node https://github.com/coreybutler/nvm-windows/releases 这是nvm-window…

【CRASH】freelist异常导致的异常地址访问

freelist异常导致的异常地址访问 问题现象初步分析继续深入新的发现沙盘推演寻找元凶分析代码后记 问题现象 项目一台设备几天内出现了两次crash,都是异常地址访问导致。 [66005.261660] BUG: unable to handle page fault for address: ffffff8881575110初步分析…

哪个品牌台灯护眼效果好?几款护眼效果好的专业护眼灯品牌推荐

随着科技的不断发展和生活方式的改变,儿童青少年近视率的增长趋势引起了人们的关注。近视不仅对孩子们的视力健康构成威胁,还可能对他们的学习和日常生活带来不便。因此,如何有效地预防和改善儿童青少年的视力问题成为了一个亟待解决的课题。…

MES里面有质量模块,为什么还要实施质量管理软件(QMS)

为什么一些知名头部的大厂,已经有了MES , 却还都去实施了质量管理软件(QMS)? 答:是这些MES里面的质量模块不能满足客户的需求。 那么来看看,从质量管理的角度来看,QMS软件系统是什么样子的? …

《现代通信原理与技术》码间串扰和​​​​​​​无码间串扰的眼图对比实验报告

实 验:码间串扰和无码间串扰的眼图对比实验报告 摘 要: 在数字通信系统中,码间串扰(Inter-Symbol Interference, ISI)是影响信号质量和系统性能的重要因素之一。本实验通过MATLAB软件生成并对比了受码间串扰影响和未…

MBTI:探索你的性格类型

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

VL53L4CD TOF开发(3)----检测阈值

VL53L4CD TOF开发.3--检测阈值 概述视频教学样品申请完整代码下载实现demo硬件准备技术规格系统框图应用示意图生成STM32CUBEMX选择MCU串口配置IIC配置 XSHUTGPIO1X-CUBE-TOF1app_tof.c详细解释主程序演示结果 概述 最近在弄ST和瑞萨RA的课程,需要样片的可以加群申…

RabbitMQ安装配置,封装工具类,发送消息及监听

1. Get-Started docker安装rabbitmq 拉取镜像 [rootheima ~]# docker pull rabbitmq:3.8-management 3.8-management: Pulling from library/rabbitmq 7b1a6ab2e44d: Pull complete 37f453d83d8f: Pull complete e64e769bc4fd: Pull complete c288a913222f: Pull complet…

第104天: 权限提升-Linux 系统环境变量定时任务权限配置不当MDUT 自动化

目录 案例一:Linux-环境变量文件配合 SUID-本地 案例二:Linux-定时任务打包配合 SUID-本地 案例三:Linux-定时任务文件权限配置不当-WEB&本地 案例四:Linux-第三方软件 MYSQL 数据库提权-WEB&本地 隧道出网 手工提权…

解决外网404:清除DNS缓存并配置host主机使用知名公共DNS服务

在 Windows 上清除/刷新 DNS 缓存 对于所有Windows版本,清除DNS缓存的过程都是相同的。你需要使用管理员权限打开命令提示符并运行ipconfig /flushdns。 浏览器清除DNS缓存 大多数现代的Web浏览器都有一个内置的DNS客户端,以防止每次访问该网站时…

男士穿什么内裤最透气?舒适透气的男士内裤推荐

作为一名专业的测评博主,我深知男士内裤对于日常穿着的重要性。因此,我决定深入挖掘男士内裤的细节之处,为大家带来最真实、最客观的评测体验。通过对比不同品牌、不同材质的男士内裤,我希望能帮助大家找到真正适合自己的那一款。…

Plonky3和Binius中的Brakedown多项式承诺协议解析及优化(3)

3.2 Expander Graph and Linear-Time Encodable Linear Code 线性时间编码是线性纠错码的一种,核心是扩展图(Expander Graph),如下图所示: Figure 3 Expander Graph Expander Graph是一种具有强连通性的稀疏图&#…

CV预测:快速使用DenseNet神经网络

AI预测相关目录 AI预测流程,包括ETL、算法策略、算法模型、模型评估、可视化等相关内容 最好有基础的python算法预测经验 EEMD策略及踩坑VMD-CNN-LSTM时序预测对双向LSTM等模型添加自注意力机制K折叠交叉验证optuna超参数优化框架多任务学习-模型融合策略Transform…

App首页,美不胜收呀,虽说app没落了,但设计思想通用呀。

一个精心设计的首页仍然能够吸引用户的注意力。一个美观而富有创意的首页可以提升用户体验,增加用户的留存率和活跃度。 当我们打开一个app时,首页是用户第一眼看到的界面,因此设计师需要在有限的空间内展示出app的核心功能和特点。一个好的首…

短视频五大要素:成都科成博通文化传媒公司

短视频五大要素:揭秘成功视频的关键 在数字媒体时代,短视频已成为人们生活中不可或缺的一部分。无论是社交平台的日常分享,还是品牌营销的重要工具,短视频都以其短小精悍、内容丰富的特点赢得了广泛的关注和喜爱。然而&#xff0…

《数据安全产品及服务购买决策参考》

“新全球化”下的数据安全威胁态势与挑战 随着中国企业数字化转型和数字经济的高速发展,数据要素和数据安全的战略价值正不断提升。 同时,在“脱钩”与“新全球化”的全球政治经济博弈中,中国作为全球重要的数据安全市场之一,其…