搜索中关于稀疏检索和稠密向量检索的召回效果比较

不同检索方式说明

最近在做搜索召回提升相关的研究工作。对比了稀疏检索和稠密向量检索的效果。其中使用的搜索引擎为elasticsearch8.x版本。稀疏检索包括BM25的检索方式,以及es官方在8.8之后版本提供的稀疏向量模型的方式。稠密向量检索,是指借助机器学习的模型做文本嵌入,然后用es8.x以后版本提供的向量检索。

测试数据说明

测试数据包括了中文和英文,涉及了法律和新闻数据。

 一、先说结论

相比较BM25检索,借助机器学习模型做文本嵌入的向量检索方式,有不错的效果。

同时,ES的稀疏向量模型,在英文场景下,相比较BM25和向量检索,仍然取得了更好的召回率提升效果。

BM25和向量检索以及稀疏向量检索之间的关系?

从测试数据来看,三者之间是互补的。

二、三种不同召回方式成功召回率对比效果

声明:这里取top50,如果命中标准答案则认为召回。

以一个测试集为例(法律数据),该测试集是有人工整理的198个问题,包含了问题和答案,相对质量较高。

在下图中,可以看到BM25成功召回177(89%)。

向量检索成功召回156个(79%)

稀疏向量成功召回187个( 94%)

结论一:稀疏向量召回率 >BM25 > 稠密向量

只看每一种召回方式,召回效果。

稀疏向量成功召回187( 94%)   >  BM25 成功召回177(89%)>  稠密向量成功召回156 (79%)

请注意这个结论!!! 其中向量检索的效果,会和向量模型有着非常密切的关系,会和测试数据集有非常密切的关系。关于BM25的召回效果好于向量检索,我自己也是不认可的。请看结论四。

结论二:三者是可以互补的

再看三路混合检索整体的召回效果,成功召回189,召回率95%,整体大于任何一个单个检索方式。

结论三:BM25 和 稠密向量可以互补。

稀疏向量是收费才能使用的功能,且只针对英文效果出色。所以这里只看Bm25和稠密向量的方式。

统计1:其中BM25召回成功的,向量检索召回失败的有27个。13%

统计2:其中向量召回成功,但是BM25召回失败的有6个。3%

结论四:BM25是否真的好于向量检索?

其中向量检索,严重依赖外部的文本嵌入的模型,假如模型没有训练过某个领域的知识,则在向量embedding过程中,一定会都是语义,所以效果表现不佳,甚至是低于Bm25的召回效果。

于是又对比了不同的测试数据集: 这次是中文的新闻数据。共1704个case。向量召回率98% >bm

25召回率 95%

即使这样,我依然无法下一个结论说向量检索效果比BM25好,或者说差。还是取决于文本嵌入模型的能力,以及测试集样本。但是总是可以得出,而知没有绝对的谁领先,而是互补,1+1 >2的效果!

其中BM25 成功召回 1619,召回率95%。

其中向量 成功召回 1675,召回率98.2%。

 

整体召回率,98.8%。两者可以互补的结论依然成立。

 

三、稀疏向量的提升效果

这是一个全新的测试数据集。也是法律数据和法律问题。与上边的测试集不同的是,这是人工整理的,没有杂质数据的干扰。

在英文场景下,稀疏向量的召回率相比较BM25,提升明显!提升到了100%提升了14%

topK召回率有很大提升,top1提升了31%,top5提升了28.5%,top10提升了22%

四、应该如何选用召回方式

其中Bm25 是花费资源最少得检索方式。向量检索是花费资源最多的方式,因为要使用模型,其并发能力会受到资源限制。稀疏向量需要依赖官方提供的模型,是收费的功能,并且价格昂贵,且只支持英文场景,无法做多语言的混合场景,亲测中英混合的情况下,效果下降明显。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/398567.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

tqdm,Python进度条库快速上手

前言 在编程中,尤其是处理长时间运行的任务时,了解程序的进度是非常重要的。Python中有一个非常实用的库,名为 tqdm ,它能够以极简的方式帮助我们快速创建进度条。本文将向初学者介绍如何在Python中使用 tqdm 库来制作进度条。 …

2、电源管理入门之开机详解

目录 1. 硬件上电 2. ATF运行 3. Linux启动 3.1 内核启动start_kernel 3.2 平台启动setup_arch 3.4 DTS初始化psci_dt_init 3.5 系统rest创建kernel_init线程 3.6 SMP初始化smp_init 3.7 PSCI接口psci_cpu_on 3.8 SMC返回secondary_entry 系统开机牵扯到:“我是…

Springboot 中使用 Redisson+AOP+自定义注解 实现访问限流与黑名单拦截

🏷️个人主页:牵着猫散步的鼠鼠 🏷️系列专栏:Java全栈-专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默&…

python3 flask 实现对config.yaml文件的内容的增删改查,并重启服务

config.yaml配置文件内容 功能就是userpass下的用户名和密码做增删改查,并重启hy2服务 auth:type: userpassuserpass:csdn: csdnlisten: :443 masquerade:proxy:rewriteHost: trueurl: https://www.bing.com/type: proxy tls:cert: /root/hyst*****马赛克******er…

JS文本加密方法探究

在前端开发中,有时候我们需要对敏感文本进行简单的加密,以提高安全性。本文将介绍一种基于 JavaScript 实现的文本加密方法,使用了 Base64、Unicode 和 ROT13 编码。 示例代码 function encodeText(text) {// Base64编码var base64Encoded …

苍穹外卖——第一天nginx

放到全是英文路径的打不开 到安装路径进入cmd,输入nginx -t nginx: the configuration file E:\Astudy\nginx-1.20.2/conf/nginx.conf syntax is ok nginx: [emerg] bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way forbid…

linux部署jenkins,支持jdk1.8

无废话,纯干活安装指令 本文前提条件需安装jdk8,安装参考:Linux配置jdk环境 下载资源 # 创建安装目录 mkdir -p /data/jenkins && cd /data/jenkins# 下载jenkins的war包,v2.346.x支持jdk1.8,高于这个版本的…

板块一 Servlet编程:第六节 HttpSession对象全解 来自【汤米尼克的JAVAEE全套教程专栏】

板块一 Servlet编程:第六节 HttpSession对象全解 一、什么是HttpSessionSession的本质 二、创建Seesion及常用方法三、Session域对象四、Session对象的销毁 在上一节中,我们学习了Servlet五大对象里的第三个Cookie对象,但Cookie是有大小限制和…

ajax 如何从服务器上获取数据?

在Web开发中,AJAX(Asynchronous JavaScript and XML)是一种常用的技术,用于在不重新加载整个页面的情况下,从服务器获取数据并更新网页的某一部分。使用AJAX,你可以创建异步请求,从而提供更快的…

AI:133-基于深度学习的工业质检自动化

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的关键代码,详细讲解供…

Git 关于SSH密钥的生成

一:配置ssh 桌面右键鼠标打开 “Git Bash Here” 键入命令:ssh-keygen -t ed25519 -C "自己邮箱 " 接着就一路回车 打开 C:\Users\Administrator.ssh 目录, 复制 id_xxxxx.pub 内容 文件里面则是一些信息,如下 …

Reliable Visualization for Deep Speaker Recognition - 语音可解释性

MOTIVATION OF READING: 语音任务可解释性 Link: http://arxiv.org/abs/2204.03852 Code:http://project.cslt.org/ 1. Overview Motivation of the work: If any of the visualization tools are reliable when applied to speaker recognition, which makes th…

二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse(分区字段是month或year)

一、目的 对于以month、year为分区字段的数据,不是像day字段分区那样每天增量插入更新即可,而是要以部分字段查询、部分字段更新,但是ClickHouse数据库并不适合更新操作,直接使用Kettle的插入更新控件会导致问题,必须…

数据仓库选型建议

1 数仓分层 1.1 数仓分层的意义 **数据复用,减少重复开发:**规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。数据的逐层加工原则,下层包含了上层数据加工所需要的全量数据,这样的加工方…

JVM对象的创建流程与内存分配

对象的创建流程与内存分配 创建流程对象内存分配方式内存分配安全问题对象内存分配流程【重要】:对象怎样才会进入老年代?重点 案例演示:对象分配过程大对象直接进入老年代02-对象内存分配的过程: 创建流程 加载 验证 解析 准备 初始化 使用 写在 对象内存分配方式 内存分配…

Codeforces Round 928 (Div. 4)( F(dfs+小技巧),G(树上dp) )

CF1926F. Vlad and Avoiding X 题意: 给定一个 7 ∗ 7 7*7 7∗7的网格,网格上的点不是黑色就是白色,要求修改最少的点,使得网格中没有X形状的黑色网格。 思路: 首先看到这个数据范围,很容易想到暴搜&#…

openai chatGPT 原理通俗介绍

引言 近年来,随着深度学习技术的不断发展,自然语言处理(NLP)领域取得了长足的进步。ChatGPT(Generative Pre-trained Transformer)作为一种先进的语言生成模型,在各类对话系统和智能助手中得到…

PHP+vue+mysql网络考试系统成绩学习资料系统7wivi

开发语言:php 后端框架:Thinkphp 前端框架:vue.js 服务器:apache 数据库:mysql 运行环境:phpstudy/wamp/xammp等 随着互联网的发展,教育也迎来了互联网的春天,现代教育更加依托于互联网的应用&a…

php反序列化原理常见的魔术方法

序列化是什么? 要想了解反序列化,就先要知道序列化是什么。下面是是一串序列化数组: a:2:{s:4:"name";s:6:"cike_y";s:3:"age";i:18;}a表示array(数组),2表示这个数组有两…

Maxwell - 增量数据同步工具

前言 今天来学习一个新的大数据小工具 Maxwell ,它和 Sqoop 很像。Sqoop主要用于在 Hadoop (比如 HDFS、Hive、HBase 等)和关系型数据库之间进行数据的批量导入和导出,而 Maxwell 则主要用于监控数据库的变化(通过监控…