RAG(检索增强生成)原理、实现与评测方法探讨

RAG是什么?

    看一下RAG的英文全称:Retrieval-Augmented Generation,建索、增强、生成;一句话串起来就是通过检索增强模型的生成,是的,这就是RAG。

RAG怎么做?

    目前比较通用的套路是这样的:

    离线数据准备:数据提取->数据切片->创建索引->embedding->落库。

    解释一下embedding:嵌入,它其实就是将高维度的,复杂的、通常是离散的数据(比如文本、图像、音频等)转换为低维度的、连续的向量表示的过程。这些向量表示具有语义上的相似性,意味着在向量空间中,相似的对象会被映射到相近的向量。

在线查询:query->embedding query ->向量检索->送给大模型->LLM归纳生成

当然根据实际业务场景,有各种各样的变体,如:

变体1:在线查询:query->embedding query->向量检索->rank->送给大模型->LLM归纳生成

变体2:在线查询:query->意图识别->embedding query->向量检索->切块->emdedding->rank->送给大模型->LLM归纳生成

变体3:在线查询:query->意图识别->大模型丰富问题->embedding query->向量检索->切块->emdedding->rank->送给大模型->LLM归纳生成

。。。

大家都在根据自己的实际情况在不断的调整rag的策略,上述的每一个环节都有大量的工作值得探索,比如切块、向量检索、rank等等,后面有机会逐步聊一下

RAG(检索增强)评测

今天主要聊一下RAG(大模型检索增强)的评测。

大家一直都在尝试用RAG来解决模型幻觉、数据实效性、数据保密性等等问题,但是RAG作为模型推理中间的一环,如何来评测RAG(检索增强)的有效性值得研究一下。

当然我们期望理论上模型足够强大可以自己从RAG结果中提取有效信息来推理,甚至模型不需要RAG会更好

RAG简单来说其实就是检索相关信息给到大模型,所以很直观的感受是,要评价RAG结果的有效性可以考虑传统检索或推荐系统中召回、排序等相关指标(召回率、精准率、MRR、NDCG等等)有关这些指标的原理大家自行了解一下,后面有机会也可以简单聊一下

要计算这些指标不可避免的需要知道,每次检索到的信息是否相关,以及相关的信息排序是否合理,这些都决定了最终给到大模型的信息是否更有意义,更能帮助到大模型推理

但是如何判断检索到的信息是否相关呢?embedding虽然提供了各种策略、算法,但是embedding后的结果并不一定就是相关的,向量化后可能因为各种原因导致原本不相关的两个text向量是接近的,所以才需要我们来评测。

目前了解到2种方式来做测评:

1、将query和查到的相关信息给到gpt4,让gpt4来评测;

2、人为打标数据,划定数据集及相关性,然后通过脚本对比

我们使用的第二种方式。我们的处理方式大体是这样:

1、首先将原始数据切块

2、然后选择各种场景下的用户提问

3、然后将原始切块进行标注,标记这些块中哪些和用户提问时相关的

4、实时query结果保存下来,然后和标注数据进行对比

5、计算RAG(检索增强)的召回率、精准率等

如何切块也是我们重点评测的一部分,通过数据标记,我们测试不同chunk size下各种指标来评估我们的RAG效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978230.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

表单制作代码,登录动画背景前端模板

炫酷动效登录页 引言 在网页设计中,按钮是用户交互的重要元素之一。一个炫酷的按钮特效不仅能提升用户体验,还能为网页增添独特的视觉吸引力。今天,我们将通过CSS来实现一个“表单制作代码,登录动画背景前端模板”。该素材呈现了数据符号排版显示出人形的动画效果,新颖有…

HBuilder X安装教程(2025版)

一,官网下载最新包: 官网链接:HBuilderX-高效极客技巧 等待工具包,下载好。 二,安装打开工具: 把HBuilderX压缩包进行压缩,然后打开压缩后的文件夹

【算法系列】希尔排序算法

文章目录 希尔排序算法:一种高效的排序方法一、基本思想二、实现步骤1. 初始化增量2. 分组与排序3. 缩小增量4. 最终排序 三、代码实现四、增量序列的选择1. Shell增量序列2. Hibbard增量序列3. Sedgewick增量序列 五、时间复杂度六、总结 希尔排序算法:…

VMware虚拟机Mac版安装Win10系统

介绍 Windows 10是由美国微软公司开发的应用于计算机和平板电脑的操作系统,于2015年7月29日发布正式版。系统有生物识别技术、Cortana搜索功能、平板模式、桌面应用、多桌面、开始菜单进化、任务切换器、任务栏的微调、贴靠辅助、通知中心、命令提示符窗口升级、文…

android keystore源码分析

架构 Android Keystore API 和底层 Keymaster HAL 提供了一套基本的但足以满足需求的加密基元,以便使用访问受控且由硬件支持的密钥实现相关协议。 Keymaster HAL 是由原始设备制造商 (OEM) 提供的动态加载库,密钥库服务使用它来提供由硬件支持的加密服…

视频字幕识别和翻译

下载的视频很多不是汉语的,我们需要用剪映将语音识别出来作为字幕压制到视频中去。 剪映6.0以后语音识别需要收费,但是低版本还是没有问题。 如果想要非汉语字幕转成中文,剪映低版本不提供这样功能。但是,用剪映导出识别字幕&am…

Rust语言基础知识详解【一】

1.在windows上安装Rust Windows 上安装 Rust 需要有 C 环境,以下为安装的两种方式: 1. x86_64-pc-windows-msvc(官方推荐) 先安装 Microsoft C Build Tools,勾选安装 C 环境即可。安装时可自行修改缓存路径与安装路…

mapbox基础,使用geojson加载fill-extrusion三维填充图层

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️fill-extrusion三维填充图层样式二、�…

用Python3脚本实现Excel数据到TXT文件的智能转换:自动化办公新姿势

文章目录 用Python3实现Excel数据到TXT文件的智能转换:自动化办公新姿势场景应用:为什么需要这种转换?技术解析:代码实现详解核心代码展示改进点说明 实战演练:从Excel到TXT的完整流程准备数据示例(data.xl…

llaMa模型的创新

LLaMa介绍 LLaMa是基于transformer encoder的生成式模型。 目前有:LLAMA, LLAMA2, LLAMA3 三个大的版本 论文 LLAMA 2: Open Foundation and Fine-Tuned Chat Models: https://arxiv.org/pdf/2307.09288 LLAMA 3: The Llama 3 Herd of Models https…

神经网络 - 激活函数(Sigmoid 型函数)

激活函数在神经元中非常重要的。为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质: (1) 连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数. (2) 激活函数及其导函数要尽可能的简单&#xff0…

PINN求解固体力学问题——论文加代码

PINN求解固体力学问题——论文加代码 1. 训练2. 可视化论文:Physics-Informed Deep Learning and its Application in Computational Solid and Fluid Mechanics 基本问题: 网格: 1. 训练 # %load Plane_Stress_W-PINNs.py """ Forward Problem for Plan…

ktransformers 上的 DeepSeek-R1 671B open-webui

ktransformers 上的 DeepSeek-R1 671B open-webui 一、下载GGUF模型1. 创建目录2. 魔塔下载 DeepSeek-R1-Q4_K_M3. 安装显卡驱动和cuda4. 显卡 NVIDIA GeForce RTX 4090 二、安装ktransformers1. 安装依赖2. 安装uv工具链3. 下载源码4. 创建python虚拟环境 三、编译ktransforme…

QT:Graphics View的坐标系介绍

在 Qt 的 Graphics View 框架中,存在三种不同的坐标系,分别是 物品坐标系(Item Coordinates)、场景坐标系(Scene Coordinates) 和 视图坐标系(View Coordinates)。这三种坐标系在图形…

医院HIS接入大模型:算力基础设施与训练能力的深度剖析与测算

一、引言 1.1 研究背景与意义 在数字化医疗快速发展的当下,医院信息系统(Hospital Information System,HIS)作为医疗信息化的核心枢纽,承载着患者诊疗信息、医院运营管理等关键数据 ,对提升医疗服务质量、优化医院管理流程起着至关重要的作用。然而,传统 HIS 在面对日…

入门网络安全工程师要学习哪些内容【2025年寒假最新学习计划】

🤟 基于入门网络安全/黑客打造的:👉黑客&网络安全入门&进阶学习资源包 大家都知道网络安全行业很火,这个行业因为国家政策趋势正在大力发展,大有可为!但很多人对网络安全工程师还是不了解,不知道网…

阿里云CDN转https个人测试证书过期更换

网站是http的虚拟主机,微信小程序要求https,所以申请了阿里云CDN和个人测试证书(以前叫免费证书),把http转成https。 但是个人测试证书只有三个月有效期,所以每隔三个月要手动申请更换一次。 在阿里云CDN…

东信营销科技巨额补贴仍由盈转亏:毛利率大幅下滑,现金流告急

《港湾商业观察》施子夫 近期,东信营销科技有限公司(以下简称,东信营销科技)递表港交所,联席保荐机构为海通国际和中银国际。 东信营销科技的国内运营主体为深圳市东信时代信息技术有限公司。尽管期内收入规模有所提…

AOP进阶-04.切入点表达式-@annotation

一.annotation注解 我们在最后一个切入点表达式中要匹配多个无规则的方法,这样的写法有些冗余了。而annotation注解就是来解决这一问题的。 annotation注解使用特定的注解来匹配方法。我们首先自定义一个注解,该注解就相当于一个标签,目标对…

特斯拉 FSD 算法深度剖析:软件层面全解读

一、引言 特斯拉的 FSD(Full Self-Driving)系统作为自动驾驶领域的前沿成果,其软件层面的算法设计至关重要。本文将从软件的角度,深入探讨特斯拉 FSD 所采用的算法,包括感知、规划、控制等多个方面,以期为…