milvus: 专为向量查询与检索设计的向量数据库

1. 什么是milvus?

milvus docs
milvus release

Milvus的目标是:store, index, and manage massive embedding vectors generated by deep neural networks and other machine learning (ML) models.

Milvus 向量数据库专为向量查询与检索设计,能够为万亿级向量数据建立索引。

与现有的关系数据库主要按照预定义的模式处理结构化数据不同,Milvus采用自底向上设计,以处理从非结构化数据转换而来的Embedding向量。
在这里插入图片描述
特点如下:

  • 高性能:性能高超,可对海量数据集进行向量相似度检索。
  • 高可用、高可靠:Milvus 支持在云上扩展,其容灾能力能够保证服务高可用。
  • 混合查询:Milvus 支持在向量相似度检索过程中进行标量字段过滤,实现混合查询。
  • 开发者友好:支持多语言、多工具的 Milvus 生态系统。

2. milvus架构

Milvus 采用共享存储架构,存储计算完全分离,计算节点支持横向扩展。

从架构上来看,Milvus 遵循数据流和控制流分离,整体分为了四个层次,分别为接入层(access layer)、协调服务(coordinator service)、执行节点(worker node)和存储层(storage)。各个层次相互独立,独立扩展和容灾。

Milvus 的内部无状态组件共 8 个,依赖 3 个外部服务/中间件

2.1. 系统层次划分

整个系统分为四个层次

  • 接入层(Access Layer):系统的门面,由一组无状态 proxy 组成。对外提供用户连接的 endpoint,负责验证客户端请求并合并返回结果。
  • 协调服务(Coordinator Service):系统的大脑,负责分配任务给执行节点。协调服务共有四种角色,分别为 root coord、data coord、query coord 和 index coord。
  • 执行节点(Worker Node):系统的四肢,负责完成协调服务下发的指令和 proxy 发起的数据操作语言(DML)命令。执行节点分为三种角色,分别为 data node、query node 和 index node。
  • 存储服务 (Storage): 系统的骨骼,负责 Milvus 数据的持久化,分为元数据存储(meta store)、消息存储(log broker)和对象存储(object storage)三个部分。
    在这里插入图片描述

2.2. 架构实现特点

Milvus2.x版本的架构实现特点

  • 微服务化:Milvus将服务拆成多个角色,每个角色职责划分相对独立,其中IndexNode/QueryNode/DataNode 这些角色是实际工作的Woker节点,IndexCoord/QueryCoord/DataCoord 是负责协调Woker节点,及将任务协调并分派给其他角色的节点。

    • ETCD:负责存储元数据
    • 对象存储:负责存储向量数据
    • Proxy:Milvus统一的访问层
    • DataNode/DataCoord: 负责向量的写入
    • IndexNode/IndexCoord:负责向量索引的构建
    • QueryNode/QueryCoord : 负责向量的查询
    • RootCoord: 负责处理DDL去协调其他Coord,全局时间分发,维护当前元数据快照
  • 支持云原生:Milvus 服务本身是没有状态的,数据存储在对象存储,元数据会存放在ETCD。原生支持K8s部署集群部署,可以根据集群或者个别角色的负载去动态扩缩资源。

  • 向量操作【读/写/建索引】之间进程级别隔离:向量 读/写/建索引都是通过不同的节点完成,这样操作之间都是通过进程之间隔离,不会抢占资源,相互影响。

  • 在查询的时候指定不同的一致性级别:在真实的业务场景中,一致性要求越强,查询对应的响应时间也会变长。用户可以根据自己的需求选择不同的一致性级别。

2.3. Knowhere

如果把 Milvus 比喻为一辆跑车,Knowhere 就是这辆跑车的引擎。

Knowhere是Milvus的核心向量执行引擎,它集成了几个矢量相似度搜索库,包括Faiss, Hnswlib和Annoy。

Knowhere 的定义范畴分为狭义和广义两种:

  • 狭义上的 Knowhere 是下层向量查询库(如Faiss、HNSW、Annoy)和上层服务调度之间的操作接口。同时,异构计算也由 Knowhere 这一层来控制,用于管理索引的构建和查询操作在何种硬件上执行, 如 CPU 或 GPU,未来还可以支持 DPU/TPU/……这也是 Knowhere 这一命名的源起 —— know where。

  • 广义上的 Knowhere 还包括 Faiss 及其它所有第三方索引库。因此,可以将 Knowhere 理解为 Milvus 的核心运算引擎。

从上述定义可以得知,Knowhere 只负责处理数据运算相关的任务,其他系统层面的任务如数据分片、负载均衡、灾备等,都不在它的功能范畴中。另外,从 Milvus 2.0.1 开始,广义的 Knowhere 已从 Milvus 项目中剥离出来,成为了一个单独的项目。

架构特点

  • 最底层是系统硬件
  • 第三方索引库位于硬件之上
  • Knowhere通过CGO与顶部的索引节点和查询节点交互,这允许Go包调用C代码。
    在这里插入图片描述

3. 核心概念

所有概念及术语参见 Milvus glossary

3.1.向量相似度检索

向量相似性搜索是将一个向量与数据库中的数据进行比较,以找到与目标搜索向量最相似的向量的过程。

近似最近邻(ANN)搜索算法用于计算向量之间的相似性

3.2. 记录相关概念

  • collection-集合: 包含一组 entity,可以等价于关系型数据库系统(RDBMS)中的表。
  • entity-实体:包含一组 field。
    • 注意: Milvus 2.0在一个集合中只支持一个主键字段。
      • 可以自定义 primary key,否则 Milvus 将会自动生成 primary key
      • 目前 Milvus 不支持 primary key 去重,因此有可能在一个 collection 内出现 primary key 相同的 entity。
  • field -字段:Entity 的组成部分
    • field 可以是代表对象属性的结构化数据,例如数字和字符串
    • field 可以是代表对象特征的向量。primary key 是用于指代一个 entity 的唯一值。
    • 注意: Milvus 2.0 现已支持标量字段过滤

Milvus与关系型数据库的对应关系如下:
在这里插入图片描述

3.3.Partition-分区

分区是集合(Collection)的一个分区。Milvus 支持将收集数据划分为物理存储上的多个部分。这个过程称为分区,每个分区可以包含多个segment。

3.4.Segment-段

Milvus 在数据插入时,通过合并数据自动创建的数据文件。一个 collection 可以包含多个 segment。一个 segment 可以包含多个 entity。在搜索中,Milvus 会搜索每个 segment,并返回合并后的结果。

3.5.Sharding-分片

Sharding是指将写操作分配到不同的节点上,以最大限度地利用Milvus集群的并行计算潜力来写数据。默认情况下,单个集合包含两个分片。Milvus采用基于主键哈希的分片方法。Milvus未来支持更灵活的分片方法,如随机分片和自定义分片。

3.6. bitset

bitset是位的集合,位是只有两个可能值的元素,最典型的是0和1,或者布尔值true和false。

  • 在Milvus中,bitset是由位数0和1组成的数组,与整型、浮点数或字符不同,bitset可以用来紧凑而高效地表示某些数据。默认为0,只有满足特定要求时才会设置为1。
  • 对bitset的操作使用布尔逻辑进行,在布尔逻辑下,输出值要么有效,要么无效,也分别用1和0表示
    如:逻辑运算符AND可用于基于位于相同索引位置的项比较两个bitset,并使用结果生成一个新的bitset,如果位置上的两个元素相同,则在新的bitset中,1将被写入该位置;如果不相同,则为0。

Bitset是一个简单而强大的机制,可以帮助Milvus执行属性过滤、数据删除和Time Travel查询。

  • Attribute filtering: 满足给定属性过滤器要求的数据被标记为1。
  • Data deletion:bitset作为一种简洁的方式来存储关于段中的一行是否被删除的信息。被删除的实体在相应的bitset中被标记为1,在搜索或查询期间不会计算
  • Query with Time Travel:当您使用Time Travel进行搜索时,Milvus使用bitsets来存储有关某个段中的数据是否满足travel_timestamp中的时间戳要求的信息

4. 业务架构

在实际项目落地时,业务架构图示意如下:
在这里插入图片描述

5.部署模式

5.1.单机版 Milvus

单机版 Milvus 包括三个组件:

  • Milvus 负责提供系统的核心功能。
  • etcd 是元数据引擎,用于管理 Milvus 内部组件的元数据访问和存储,例如:proxy、index node 等。
  • MinIO 是存储引擎,负责维护 Milvus 的数据持久化。
    在这里插入图片描述

5.2.分布式版 Milvus

分布式版 Milvus 由八个微服务组件和三个第三方依赖组成,每个微服务组件可使用 Kubernetes 独立部署。

  • 微服务组件
    • Root coord : 负责处理数据定义语言(DDL)和数据控制语言(DCL)请求。比如,创建或删除 collection、partition、index 等,同时负责维护中心授时服务 TSO 和时间窗口的推进。
    • Query coord:负责管理 query node 的拓扑结构和负载均衡以及从 growing segment 移交切换到 sealed segment。Query node 中的 segment 只存在两种状态:growing 和 sealed,分别对应增量数据和历史数据。
    • Index coord:负责管理 index node 的拓扑结构,构建索引和维护索引元信息。
    • Data coord:负责管理 data node 的拓扑结构,维护数据的元信息以及触发 flush、compact 等后台数据操作。
    • Proxy:
    • Query node: 通过订阅消息存储(log broker)获取增量日志数据并转化为 growing segment,基于对象存储加载历史数据,提供标量+向量的混合查询和搜索功能。
    • Index node:负责执行索引构建任务。Index node不需要常驻于内存,可以通过 serverless 的模式实现。
    • Data node:通过订阅消息存储获取增量日志数据,处理更改请求,并将日志数据打包存储在对象存储上实现日志快照持久化。
  • 第三方依赖
    • etcd 负责存储集群中各组件的元数据信息。
    • MinIO 负责处理集群中大型文件的数据持久化,如索引文件和全二进制日志文件。
    • Pulsar 或 Kafka 负责管理近期更改操作的日志,输出流式日志及提供日志订阅服务。
      在这里插入图片描述

6. Milvus提供的工具

6.1. Milvus Cli

Milvus CLI (Command-Line Interface)是一个命令行工具,提供数据库连接、数据操作、数据导入导出等功能。基于Milvus Python SDK,它允许使用交互式命令行提示符通过终端执行命令。

6.2. Milvus Backup

Milvus Backup是一个允许用户备份和恢复Milvus数据的工具。它同时提供CLI和API,以适应不同的应用场景。

6.3. MilvusDM

MilvusDM (Milvus Data Migration)是一个开源工具,专为使用Milvus导入和导出数据而设计。MilvusDM允许迁移特定集合或分区中的数据。

为了大幅提高数据管理效率,降低DevOps成本,MilvusDM支持以下迁移通道:

  • Milvus to Milvus: Migrates data between instances of Milvus.
  • Faiss to Milvus: Imports unzipped data from Faiss to Milvus.
  • HDF5 to Milvus: Imports HDF5 files into Milvus.
  • Milvus to HDF5: Saves the data in Milvus as HDF5 files.

6.4. Milvus Attu

Milvus的一个高效的开源管理工具。它具有直观的图形用户界面(GUI),允许您轻松地与数据库进行交互。只需单击几下,就可以可视化集群状态、管理元数据、执行数据查询等等。
在这里插入图片描述

7. Milvus 应用场景

可以使用 Milvus 搭建符合自己场景需求的向量相似度检索系统。Milvus 的使用场景如下所示:

  • 图片检索系统:以图搜图,从海量数据库中即时返回与上传图片最相似的图片。
  • 视频检索系统:将视频关键帧转化为向量并插入 Milvus,便可检索相似视频,或进行实时视频推荐。
  • 音频检索系统:快速检索海量演讲、音乐、音效等音频数据,并返回相似音频。
  • 生物化学分子式检索系统:超高速检索相似化学分子结构、超结构、子结构。
  • 推荐系统:根据用户行为及需求推荐相关信息或商品。
  • 智能问答机器人:交互式智能问答机器人可自动为用户答疑解惑。
  • DNA 序列分类系统:通过对比相似 DNA 序列,仅需几毫秒便可精确对基因进行分类。
  • 文本搜索引擎:帮助用户从文本数据库中通过关键词搜索所需信息。

8. Milvus Long Term Roadmap

Milvus Project Roadmap 及时间计划:

版本时间备注
2.22022.10.28Stable
2.2.32023.2.8Stable
2.32023.2.28Experiment
2.42023.5.30Stable
3.0-RC12023.7.30Experiment
3.0-GA2023.8.30Stable

9. 使用教程示例

9.1. text_search_engine

Milvus在自然语言处理(NLP)领域的一个主要应用是文本搜索引擎。这是一个很好的工具,可以帮助用户找到他们正在寻找的信息。它甚至可以显示难以找到的信息。文本搜索引擎将用户输入的关键字或语义与文本数据库进行比较,然后返回符合特定条件的结果。

在本教程中,您将学习如何构建文本搜索引擎。本教程使用BERT将文本转换为固定长度的向量。将Milvus作为向量数据库进行存储和向量相似性搜索。然后使用MySQL将Milvus生成的向量id映射到文本数据。
在这里插入图片描述

9.2 Text to Image Search Engine

本教程使用CLIP模型提取图像的特征并将其转换为向量。然后将这些图像矢量存储在Milvus向量数据库中。当用户输入查询文本时,这些文本也使用相同的ML模型CLIP转换为嵌入向量。随后,在Milvus中进行向量相似性搜索,检索与输入文本向量最相似的图像向量。
在这里插入图片描述

9.3. Question Answering System

本教程讲如何构建一个QA系统:该系统可以将新的用户问题链接到先前存储在向量数据库中的大量答案。

要构建这样一个聊天机器人,需要准备自己的问题和相应答案数据集。将问题和答案存储在MySQL(一个关系数据库)中。然后使用自然语言处理(NLP)的机器学习(ML)模型BERT将问题转换为向量。这些问题向量在Milvus中存储和索引。

当用户输入一个新问题时,BERT模型也会将其转换为一个向量,Milvus会搜索与这个新向量最相似的问题向量。QA系统对最相似的问题返回相应的答案。

在这里插入图片描述

9.4. Recommender System

本教程讲如何构建一个电影推荐系统:该系统可以推荐符合用户兴趣的电影。

要构建这样一个推荐系统,首先下载一个与电影相关的数据集。本教程使用MovieLens 1M。或者你可以准备自己的数据集,其中应该包括用户对电影的评分、用户的人口统计特征和电影描述等信息。使用PaddlePaddle组合用户id和特征,并将它们转换为256维向量。以类似的方式将电影id和特征转换为矢量。

将电影向量存储在Milvus中,并使用用户向量进行相似度搜索。如果用户向量与电影向量相似,Milvus将返回电影向量及其ID作为推荐结果。然后使用存储在Redis或MySQL中的电影向量ID查询电影信息。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/47632.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

无涯教程-jQuery - trigger( event, data )方法函数

trigger(event,[data])方法在每个匹配的元素上触发一个事件。 触发事件不仅限于基于浏览器的事件,还可以触发向bind注册的自定义事件。 trigger( event, [data] ) - 语法 selector.trigger( event, [data] ) 这是此方法使用的所有参数的描述- event…

Numpy

系列文章目录 第一章 python数据挖掘基础环境安装和使用 第二章 Matplotlib 文章目录 系列文章目录一、介绍ndarray优势属性使用 二、ndarray的形状三、ndarray的类型四、创建数组的时候指定类型五、基本操作生成数组的方法生成0和1的数组从现有数组生成生成固定范围的数组生成…

【算法与数据结构】222、LeetCode完全二叉树的节点个数

文章目录 一、题目二、一般遍历解法三、利用完全二叉树性质四、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、一般遍历解法 思路分析:利用层序遍历,然后用num记录节点数量。其他的例如…

(学习笔记-IP)IP协议相关技术

DNS 我们在上网的时候,通常使用的方式是域名,而不是IP地址,因为域名方便人类记忆。 那么实现这一技术的就是DNS域名解析器,DNS可以将域名网址自动转换为具体的IP地址。 域名的层级关系 DNS中的域名都是用句点来分隔的&#xff0…

3.5 Bootstrap 输入框组

文章目录 Bootstrap 输入框组基本的输入框组输入框组的大小复选框和单选插件按钮插件带有下拉菜单的按钮分割的下拉菜单按钮 Bootstrap 输入框组 本章将讲解 Bootstrap 支持的另一个特性,输入框组。输入框组扩展自 表单控件。使用输入框组,您可以很容易地…

多租户分缓存处理

多租户redis缓存分租户处理 那么数据库方面已经做到了拦截,但是缓存还是没有分租户,还是通通一个文件夹里, 想实现上图效果,global文件夹里存的是公共缓存。 首先,那么就要规定一个俗称,缓存名字带有globa…

字符串函数介绍应用

字符串 1.前言 C语言中对字符和字符串的处理很是频繁,但是C语言本身是没有字符串类型的,字符串通常放在 常量字符串中或者字符数组中。 字符串常量适合于那些对他不做修改的函数。 2.库函数及其模拟实现 2.1 strlen函数 size_t strlen ( const char *…

mysql(四)数据备份

目录 前言 一、概述 二、备份的类型 (一)物理与逻辑角度 (二)数据库备份策略角度 三、常见的备份方法 四、完整备份 (一)打包数据库文件备份 (二)备份工具备份 五、增量备份 六、操…

uniapp兼容微信小程序和支付宝小程序遇到的坑

1、支付宝不支持v-show 改为v-if。 2、v-html App端和H5端支持 v-html ,微信小程序会被转为 rich-text,其他端不支持 v-html。 解决方法:去插件市场找一个支持跨端的富文本组件。 3、导航栏处有背景色延伸至导航栏外 兼容微信小程序和支…

用OpenCV图像处理技巧之白平衡算法(二)

1. 引言 在上一节中我们介绍了白平衡算法的原理,并详细实现了基于白色补丁算法的白平衡实现,本文继续就白平衡的其他算法实现进行展开。 闲话少说,我们直接开始吧! 2. Gray-world Algorithm 灰色世界算法(Gray-wor…

【N32L40X】学习笔记11-ADC规则通道采集+dma数据传输

ADC规则通道转换 概述 支持 1 个 ADC,支持单端输入和差分输入,最多可测量 16 个外部和 3 个内部源。支持 12 位、10 位、8 位、6 位分辨率。ADC 时钟源分为工作时钟源、采样时钟源和计时时钟源 仅可配置 AHB_CLK 作为工作时钟源。可配置 PLL 作为采样时…

【大数据之Flume】三、Flume进阶之Flume Agent 内部原理和拓扑结构

1 Flume事务 2 Flume Agent 内部原理 重要组件: 1、ChannelSelector(选择器)   ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。   (1)Replicating ChannelSelector(复制或副本&#x…

【面试题】芯片中的IR drop现象是什么?

这里是尼德兰的喵芯片面试相关文章,欢迎您的访问! 如果文章对您有所帮助,期待您的点赞收藏,也欢迎您对文中存在的问题和疑惑进行评论 此外,gitee仓库尼德兰的喵 (gjm9999) - Gitee.com与微信公众平台也期待您的访问 让我们一起为芯片前端全栈工程师而努力!!!! 今天突然…

C++模拟实现stack

1.前言 stack 遵循的原则是先进后出,那到底是用list 还是 vector呢?其实都可以,但是队列queue就不一样了,他甚至不可以支付vector,因为效率太低了。 但是库里面用了一种新的类型,deque,它的实现…

实战项目——基于多设计模式下的同步异步日志系统

系列文章目录 1.项目介绍 2.相关技术补充 3.日志系统框架 4.代码设计 5.功能测试 6.性能测试 文章目录 目录 系列文章目录 1.项目介绍 2.相关技术补充 3.日志系统框架 4.代码设计 5.功能测试 6.性能测试 文章目录 前言 一、项目介绍 二、开发环境 三、核心技…

BTTES,2101505-88-6,是各种化学生物实验中生物偶联的理想选择

资料编辑|陕西新研博美生物科技有限公司小编MISSwu​ 规格单位:g |货期:按照具体的库存进行提供 | 纯度:95% PART1----​试剂描述: BTTES是铜(I)催化的叠氮化物-炔烃环加成(CuAAC&#x…

佰维存储面向旗舰智能手机推出UFS3.1高速闪存

手机“性能铁三角”——SoC、运行内存、闪存决定了一款手机的用户体验和定位,其中存储器性能和容量对用户体验的影响越来越大。 针对旗舰智能手机,佰维推出了UFS3.1高速闪存,写入速度最高可达1800MB/s,是上一代通用闪存存储的4倍以…

机器学习实战11-基于K-means算法的文本聚类分析,生成文本聚类后的文件

大家好,我是微学AI,今天给大家介绍机器学习实战11-基于K-means算法的文本聚类分析,生成文本聚类后的文件。文本聚类分析是NLP领域的一个核心任务,通过将相似的文本样本分组,可以帮助我们发现隐藏在文本数据中的模式和结…

springboot运行报错Failed to load ApplicationContext for xxx

Failed to load ApplicationContext for报错解决方法 报错Failed to load ApplicationContext for 报错Failed to load ApplicationContext for 网上找了一堆方法都尝试了还是没用 包括添加mapperScan,添加配置类 配置pom文件 [外链图片转存失败,源站可能有防盗链机…