向量数据库原理之向量索引

向量索引

在前面的文章中讲解了milvus的源码安装——向量数据库milvus源码剖析之开篇,向量数据库通常具备以下特点:

  • 向量索引:用来支持高效的搜索,快速定位与查询向量相关的数据集。

  • 相似度搜索:支持余弦、欧式距离等的搜索。

  • 分布式架构,存算分离等。

本节将会着重讲向量索引。众所周知,向量数据库的主要目的是提供一种快速有效的方法来存储和高效查询数据,使向量数据类型成为一等公民。两个向量之间的相似性可以通过距离度量来衡量,例如余弦距离或点积。

通常来说,向量索引方法可以按照数据结构与压缩级别来划分。

1.数据结构

索引按照数据结构划分如下:

1.1 基于分区的索引

典型的如倒排文件索引,Inverted file index (IVF) 通常是将向量空间划分为若干个子空间/子分区,每个子空间一个质心,将查询向量与这些执行比较,找到最近质心,然后仅在该质心内进行搜索。

缺点:最接近的质心可能会存在多个子空间(解决办法:通常可以求最近n个质心,然后在这n个质心对应的子空间里面进行搜索)。

1.2 基于树的索引

基于树的索引结构允许通过二叉搜索树在高维空间中快速搜索。树的构造方式使得相似的数据点更有可能出现在同一个子树中,从而可以更快地发现近似的最近邻居。

缺点:它们仅对低维数据表现良好,而对于高维数据则不太准确,容易退化为线性扫描。

1.3 基于hash的索引

基于哈希的索引(例如Locality Sensitive Hashing)将高维数据转换为低维哈希码,旨在尽可能保持原始相似性.使用哈希函数将数据点映射到多个哈希桶中,使得相似的数据点被映射到同一个桶中的概率高,而不相似的数据点被映射到同一个桶中的概率低。

基于哈希的索引的主要优点是它们在扩展到大量数据时速度非常快,但缺点是它们不太准确。

1.4 基于图的索引

基于图的索引其核心思想是:向量空间中的数据点形成一个图,其中节点表示数据值,连接节点的边表示数据点之间的相似性。图的构造方式使得相似的数据点更有可能通过边连接,而 ANN 搜索算法旨在以高效的方式遍历图。

基于图的索引的主要优势在于,它们能够在高维数据中找到近似的最近邻,同时还能节省内存,从而提高性能,例如:HNSW。

当然,除了以上还有基于图树混合的索引之类的。

2.压缩级别

第一种压缩级别是:flat或 brute force index。指以未修改的形式存储向量的索引。当一个query请求到来时,使用暴力的方法与数据库中所有向量进行距离计算,返回最近距离。适合于在小规模,百万级数据集上寻求完全准确和精确的搜索结果的场景。

第二种压缩级别是:quantization。很显然当我们想要提高搜索效率的一个办法便是压缩,这种通常称为量化。而量化索引则是quantization结合上面的索引结构,从而减少内存提高查询效率,例如:IVF-PQ。量化通常有两种类型:标量量化(Scalar Quantization (SQ))和乘积量化(Product Quantization (PQ))。

标量量化(SQ)通过将向量中的浮点数转换为整数来实现,这种方法通过对每个维度的最小值和最大值进行对称划分,将向量分割成多个区间。

乘积量化(PQ)是PQ的核心思想是将向量的所有维度划分为多个子空间,每个子空间一部分维度,将高维向量空间分解成小维度子空间的笛卡尔积,通过对每个子空间进行量化来形成各自的簇。向量由短码表示,这样可以通过这些码(称为再现值)有效地估算向量之间的距离。其中的压缩体现在:对每个子向量进行独立量化。每个子向量使用一个预先计算好的码本(质心集),将子向量映射为一个短码。这个码本是通过对训练数据进行聚类(如K-means)得到的,每个子空间都有自己独立的codebook。

本节就先总结这么多内容吧,后续将会从实践出发去深入编写代码。


跟我一起实践写代码,戳这里呀~

46470852007f330b5e41d795e5b3d783.jpeg

往期推荐:

向量数据库milvus源码剖析之开篇

热度更新,手把手实现工业级线程池


6b86fb31e88d4bdde9b5cb5fc3c41708.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/748631.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL数据库基础练习系列:科研项目管理系统

DDL CREATE TABLE Users (user_id INT AUTO_INCREMENT PRIMARY KEY COMMENT 用户ID,username VARCHAR(50) NOT NULL UNIQUE COMMENT 用户名,password VARCHAR(255) NOT NULL COMMENT 密码,gender ENUM(男, 女) NOT NULL COMMENT 性别,email VARCHAR(100) UNIQUE COMMENT 邮箱 …

@PathVariable注解的使用及源码解析

前言 PathVariable 注解是我们进行JavaEE开发,最常见的几个注解之一,这篇博文我们以案例和源码相结合,帮助大家更好的了解PathVariable 注解 使用案例 1.获取 URL 上的值 RequestMapping("/id/{id}") public Object getId(Path…

Kubernetes Artemis系列 | 使用 ArtemisCloud Operator 部署 artemis

目录 一、ArtemisCloud Operator 介绍二、部署ArtemisCloud Operator三、使用 ArtemisCloud Operator 部署 artemis四、管理队列五、缩减规模时消息迁移 一、ArtemisCloud Operator 介绍 ArtemisCloud Operator 是一个用于管理和部署云端基础设施的工具。它基于 Kubernetes 平…

精益软件开发:从理念到实践

目录 前言1. 精益软件开发的起源与背景1.1 精益制造的起源1.2 精益思想在软件开发中的应用 2. 精益软件开发的核心原则2.1 消除浪费2.2 强调学习和持续改进2.3 快速交付2.4 尊重团队成员 3. 实施精益软件开发的方法3.1 精简流程3.2 持续反馈和迭代3.3 持续集成和持续交付3.4 建…

Vue 学习之 axios

目录 执行安装命令:npm install axios 使用的时候导入 axios以data,params,headers传参方式的区别 axios封装 是一个基于 promise 的 网络请求库,作用于浏览器和 node.js 中。使用Axios可以在前端项目中发送各种方式的HTTP请求…

chromium源码魔改思路

1.首先确定需要要改动的JS的API 比如要改动navigator.webdriver false 2.在官网查找JS的API https://developer.mozilla.org/zh-CN/docs/Web/Guide 3.在chromium源码官网查找源码 https://source.chromium.org/chromium/chromium/src 直接修改webdriver()返回值即可 4.然后…

idea常用配置 | 快捷注释

idea快速注释 一、类上快速注释 (本方法是IDEA环境自带的,设置特别方便简单易使用) 1、偏好设置->编辑器->文件和代码模版 | File-Settings-Editor-File and Code Templates 2、右下方的“描述”中有相对应的自动注注释配置格式 贴…

Actor-agnostic Multi-label Action Recognition with Multi-modal Query

标题:基于多模态查询的非特定行为者多标签动作识别 源文链接:https://openaccess.thecvf.com/content/ICCV2023W/NIVT/papers/Mondal_Actor-Agnostic_Multi-Label_Action_Recognition_with_Multi-Modal_Query_ICCVW_2023_paper.pdfhttps://openaccess.t…

Java研学-Shiro安全框架(二)

四 Shiro 鉴权 1 介绍 授权功能:就是为用户分配相关的权限的过程;鉴权功能:判断当前访问用户是否有某个资源的访问权限的过程。我们的权限管理系统是基于角色的权限管理,所以在系统中应该需要下面三个子模块:用户管理…

Theta方法:一种时间序列分解与预测的简化方法

Theta方法整合了两个基本概念:分解时间序列和利用基本预测技术来估计未来的价值。 每个数据科学爱好者都知道,时间序列是按一定时间间隔收集或记录的一系列数据点。例如,每日温度或经济指标的月值。把时间序列想象成不同成分的组合,趋势(数据…

观测云产品更新 | Pipelines、智能监控、日志数据访问等

观测云更新 Pipelines 1、Pipelines:支持选择中心 Pipeline 执行脚本。 2、付费计划与账单:新增中心 Pipeline 计费项,统计所有命中中心 Pipeline 处理的原始日志的数据大小。 监控 1、通知对象管理:新增权限控制。配置操作权…

PCL 使用列文伯格-马夸尔特法计算变换矩阵

目录 一、算法原理1、计算过程2、主要函数3、参考文献二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 1、计算过程 2、主要函数 void pcl

民用无人驾驶航空器运营合格证怎么申请

随着科技的飞速发展,无人机已经从遥不可及的高科技产品飞入了寻常百姓家。越来越多的人想要亲自操纵无人机,探索更广阔的天空。但是,飞行无人机可不是简单的事情,你需要先获得无人机许可证,也就是今天所要讲的叫民用无…

免费可视化工具为何成为数据分析新宠?

免费可视化工具为何越来越受欢迎?在当今数据驱动的时代,数据分析和展示已成为各行各业不可或缺的核心能力。然而,传统的数据处理和可视化工具往往价格昂贵,且使用门槛较高,这为许多中小企业和个人用户带来了不小的困扰…

微信浏览器自动从http跳转到https的坑

只要访问过同地址的https地址,就只能一直https了,无法再用https访问了,只能全站加上https才行。

电脑怎么设置锁屏密码?这3个方法你知道吗

在日常生活中,电脑已成为我们工作和娱乐的重要工具。为了保护个人信息和数据安全,设置锁屏密码是必不可少的一步。通过设置锁屏密码,您可以有效防止未经授权的访问,确保电脑上的隐私和数据不被泄露。本文将详细介绍电脑怎么设置锁…

【CSS in Depth 2 精译】1.5 渐进式增强

文章目录 1.5 渐进式增强1.5.1 利用层叠规则实现渐进式增强1.5.2 渐进式增强的选择器1.5.3 利用 supports() 实现特性查询启用浏览器实验特性 1.5 渐进式增强 要用好 CSS 这样一门不断发展演进中的语言,其中一个重要的因素就是要与时俱进,及时了解哪些功…

使用Python进行大数据处理Dask与Apache Spark的对比

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 使用Python进行大数据处理Dask与Apache Spark的对比 随着数据量的增加和数据处理需求的增长…

旅游管理系统源码小程序

便捷旅行,尽在掌握 旅游管理系统是一款基于FastAdminElementUNIAPP开发的多端(微信小程序、公众号、H5)旅游管理系统,拥有丰富的装修组件、多端分享、模板消息、电子合同、旅游攻略、旅游线路及相关保险预订等功能,提…

[leetcode]avoid-flood-in-the-city 避免洪水泛滥

. - 力扣&#xff08;LeetCode&#xff09; class Solution { public:vector<int> avoidFlood(vector<int>& rains) {vector<int> ans(rains.size(), 1);set<int> st;unordered_map<int, int> mp;for (int i 0; i < rains.size(); i) {i…