为什么要用向量检索

        之前写过一篇文章,是我个人到目前阶段的认知,所做的判断。我个人是做万亿级数据的搜索优化工作的。一直在关注任何和搜索相关的内容。

下一代搜索引擎会什么?-CSDN博客

        这篇文章再来讲讲为什么要使用向量搜索。

在阅读这篇文章之前呢,最好已经知道向量检索是怎么回事。如果还不知道,可以学习这篇文章。

什么是向量数据库

向量数据库的真相


 

大幅提升搜索相关性

        如果你在绞尽脑汁,做搜索内容相关性提升,搜索召回质量提升,以及排序优化的。那么一定要关注一下向量搜索了。因为向量搜索在很大概率上大幅度的为你带来效果提升。如果说的没错的话,你之前一直在提升BM25的相关性。不得不承认,在关键词命中匹配方面。BM25仍然还具有它的优势。并且不是向量搜索能替代的。到目前为止,BM25和向量检索所结合,才是相关性提升的最佳实践。

        问为什么能大幅度提升搜索相关性

        因为向量检索,得益于机器学习的进步,得益于深度学习的进步。利用深度学习NLP模型,去捕获上下文的相关性。将数据映射在更高维度的网络空间。而并非是单纯的关键词匹配。

        如果你还不知道什么是机器学习,已为你准备了这些文章

什么是机器学习
 

什么是大语言模型


什么是向量嵌入

跨模态搜索能力

        如果你想实现多模态搜索,以图搜图,以文搜索图,一图搜文,甚至是通过声音搜索。如果苦于找不到合适的方案,或者效果不好。都可以使用向量检索来实现。同样这项能力,本质上也是依赖深度学习和机器学习的进步,能够提供多模态大模型,例如CLIP等等。

让搜索变得更简单

        在很早很早以前,做搜索还是很复杂的事情。但是随着技术的进步,到了今天,各种问题都已迎刃而解了。例如:搜索意图识别、query改写、同义词扩展、等等用来提升提升搜索相关性的复杂性问题。都能在大模型中,在向量检索中得到很好的解决。随之而来的是新的问题,如何提升模型的空间映射效果、如何embedding的速度、到目前为止,GPU性能还是一个很大的问题。不过不久的将来,随着硬件技术的进步,这些也不会是问题了。

语义检索能力

        在这之前,最好能够先知道什么是语义检索。关于语义检索,可以学习这篇文章。https://elasticstack.blog.csdn.net/article/details/134806320

        不同于BM25算法。BM25是纯粹的利用关键词匹配技术,利用词频和逆文档率来计算相关性。假如你搜索的关键词,在数据中并未出现,则一定不会被搜索到。而向量检索,是依赖大模型的,做的事KNN最邻近搜索。总会给你一个最相关,最相近的答案。在模型中,能够更好的理解query的意图。而这一切在技术实现上,又并不复杂。

        想要用文本搜索图片,原本一定是要获取图片的表示内容的,传统的做法是将图片专为标签。但是标签总是有限的,会让图片损大量的有效信息,所以导致最终检索的效果并不好,召回效果不好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/244334.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

云原生之深入解析网络服务Istio、eBPF和RSocket Broker

一、服务治理 ① “服务治理”简介 在微服务时代,一个复杂的应用程序被分解为多个组件化、协作和连接的单元,服务往往会承担越来越多的业务责任,这使得服务治理的难度前所未有,仅仅依靠微服务框架级的治理是不够的,构…

腾讯云Elasticsearch Service产品体验

基本介绍 产品概述 腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需…

SQL进阶 | 外连接

概述 外连接的进阶用法在行列转换中比较有优势,往往存在需要把数据库中的格式转换成报表格式,但是SQL仅仅只是查询数据的语言,格式转换并不是原本的用途。 全外连接 标准 SQL 里定义了外连接的三种类型,如下所示。 左外连接&…

基于ssm生活缴费系统及相关安全技术的设计与实现论文

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对生活缴费信息管理混乱,出错率高,信息安全性差…

HTTP/2 快速重置 DDOS 漏洞几乎影响所有网站

一种新形式的DDOS的细节,它需要相对最少的资源来发起前所未有的规模的攻击,这使得网站成为一个明显的危险,因为服务器软件公司竞相发布补丁来防范它。 HTTP/2 快速重置漏洞 该漏洞利用了 HTTP/2 和 HTTP/3 网络协议,这些协议允许…

JavaScipt验证URL新方法(2023 年版)

JavaScript诞生以来,一直没有一种简单的方法验证URL,现在JavaScript新增了一个新方法——URL.canParse。 URL.canParse(https://www.stefanjudis.com); // true URL.canParse(www.stefanjudis.com); // falseURL.canParse() 是一种快速验证字符串是否为…

开源 Serverless 框架 Laf 性能优化实践

介绍 Laf 是一个完全开源的 Serverless 框架,Laf 的 Node.js 运行时容器 (以下简称为 Runtime) 是 Laf 的函数执行环境,依托于 Express.js 框架。采用容器进程常驻的方式,每一个应用对应于一个或多个容器 (弹性伸缩下),底层使用了…

雅典娜Athena-signa音频算法源码与麦克风阵列角度定义互换问题

雅典娜Athena-signa音频算法源码与麦克风阵列角度定义互换问题 是否需要申请加入数字音频系统研究开发交流答疑群(课题组)?可加我微信hezkz17, 本群提供音频技术答疑服务,+群赠送语音信号处理降噪算法,蓝牙耳机音频,DSP音频项目核心开发资料, 1 dios_ssp_doa_api.c 2 公…

网站提示不安全

当我们在浏览网站时,可能会遇到浏览器提示网站不安全的情况。这种提示可能源于网站缺乏有效的SSL证书,从而导致用户的个人信息和数据容易受到攻击和窃取。当网站使用SSL证书时,浏览器会显示一个小锁图标,并且网站的URL会以“https…

SQLMAP的使用(rails 为例)

1.启动一个项目&#xff0c;例如rails学习的项目&#xff0c;修改config/database.yml&#xff0c; 假设来一个接口&#xfeff; class YourModel::YourController < ApplicationController def test_sqlisql "select * from your_table_name where id " par…

手写数组去重

说明:以下代码如有考虑不周的bug请评论区留言,我将不断完善或者优化,谢谢 一、看结果 1.执行代码 const arr = [{ id: 1, name: "数据1" },{ id: 1, name: "数据2" },{ id: 2, name: "数据3" },{ id: 3, name: "数据4" },{ id: …

磁盘坏道修复工具-是一款非常方便实用的磁盘坏道修复软件-供大家学习研究参考

1、支持磁盘数据擦除。 2、杜绝因硬盘坏道&#xff0c;而产生个人隐私数据泄露的问题。 3、支持对该磁盘格式化。 下载&#xff1a;https://download.csdn.net/download/weixin_43097956/88625682

解决Java中GB2312字符集缺失的汉字乱码问题

最近在做一个读取CSV文件&#xff0c;解析其中数据并入库的功能&#xff0c;使用的是OpenCSV组件&#xff0c;CSV文件字符集是GB2312&#xff0c;读取文件流时使用的也是GB2312字符集&#xff0c;但最终测试结果发现写入数据库的中文中存在乱码&#xff0c;奇怪的是同一个字段中…

YOLOv8算法改进【NO.93】使用resnet18网络作为主干特征提取网络

前 言 YOLO算法改进系列出到这&#xff0c;很多朋友问改进如何选择是最佳的&#xff0c;下面我就根据个人多年的写作发文章以及指导发文章的经验来看&#xff0c;按照优先顺序进行排序讲解YOLO算法改进方法的顺序选择。具体有需求的同学可以私信我沟通&#xff1a; 第一…

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列 本文着重介绍了在Docker环境下部署Hadoop集群以及实际案例中的集群运行。首先&#xff0c;文章详细解释了Hadoop的基本概念和其在大数据处理中的重要性&#xff0c;以及为何选择在Docker环境下部署Hadoop集群。接着&…

致远互联-OA wpsAssistServlet 任意文件读取漏洞复现

0x01 产品简介 致远互联-OA 是数字化构建企业数字化协同运营中台,面向企业各种业务场景提供一站式大数据分析解决方案的协同办公软件。 0x02 漏洞概述 致远互联-OA wpsAssistServlet 存在任意文件读取漏洞,攻击者可读取系统密码等敏感信息进一步控制系统。 0x03 复现环境…

【开源】基于JAVA语言的农家乐订餐系统

项目编号&#xff1a; S 043 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S043&#xff0c;文末获取源码。} 项目编号&#xff1a;S043&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 用户2.2 管理员 三、系统展示四、核…

陈可之艺术履历

陈可之&#xff0c;中国著名艺术家。国家一级美术师&#xff0c;获国务院政府津贴&#xff0c;中国农工民主党中央书画院院长&#xff0c;北京市政府文史馆馆员&#xff0c;东方油画院院长&#xff0c;北京东方书画研究会会长 &#xff0c;中国国际书画艺术研究会副会长&#x…

部署Kubernetes(k8s)集群,可视化部署kuboard

所需机器 主机名地址角色配置k8s-master192.168.231.134主节点2核4G,centos7k8s-node1192.168.231.135工作节点2核4G,centos7k8s-node2192.168.231.136工作节点2核4G,centos7 主节点CPU核数必须是 ≥2核且内存要求必须≥2G&#xff0c;否则k8s无法启动 1. 集群环境部署【三台…

40G AOC线缆全系列产品知识详解

40G AOC&#xff08;Active Optical Cable&#xff09;线缆作为高速数据传输的重要组成部分&#xff0c;在现代通信和数据中心应用中扮演着重要角色。本期文章我们将从其基本原理、应用领域、优势特点等方面对ETU-LINK 40G AOC全系列产品进行解析。 一、40G AOC全系列产品解析…