Lucene 和 Elasticsearch 中更好的二进制量化 (BBQ)

作者:来自 Elastic Benjamin Trent

Lucene 和 Elasticsearch 中更好的二进制量化 (BBQ)。

嵌入模型输出 float32 向量,通常对于高效处理和实际应用来说太大。Elasticsearch 支持 int8 标量量化,以减小向量大小,同时保持性能。其他方法会降低检索质量,并且不适用于实际使用。在 Elasticsearch 8.16 和 Lucene 中,我们引入了更好的二进制量化 (BBQ),这是一种新方法,从新加坡南洋理工大学的研究人员提出的一项最新技术 “RaBitQ” 中汲取的见解中发展而来。

BBQ 是 Lucene 和 Elasticsearch 在量化方面的一次飞跃,将 float32 维度缩减为位,在保持高排名质量的同时减少约 95% 的内存。BBQ 在索引速度(量化时间减少 20-30 倍)、查询速度(查询速度提高 2-5 倍)方面优于乘积量化 (Product Quantization - PQ) 等传统方法,并且不会额外损失准确性。

在本博客中,我们将探索 Lucene 和 Elasticsearch 中的 BBQ,重点关注召回率、高效的按位运算和优化的存储,以实现快速、准确的向量搜索。

更好的二进制量化中的 “更好” 是什么意思?

在 Elasticsearch 8.16 和 Lucene 中,我们引入了所谓的 “Better Binary Quantization - 更好的二进制量化”。简单的二进制量化具有极高的损耗,要实现足够的召回率,需要收集 10 倍或 100 倍的额外邻居来重新排序。这根本行不通。

更好的二进制量化来了!以下是更好的二进制量化和简单的二进制量化之间的一些显著差异:

  • 所有向量都围绕质心(centroid)进行归一化。这解锁了量化中的一些良好属性。
  • 存储了多个错误校正值。其中一些校正用于质心归一化,一些用于量化。
  • 非对称量化。在这里,虽然向量本身存储为单个位值(bit value),但查询仅量化为 int4。这显著提高了搜索质量,而无需额外的存储成本。
  • 用于快速搜索的按位操作。查询向量以允许高效按位操作的方式进行量化和转换。

使用更好的二进制量化进行索引

索引很简单。请记住,Lucene 会构建单独的只读段。随着向量进入新的段,质心(centroid)会逐渐计算。然后,一旦段被刷新,每个向量都会围绕质心进行规范化和量化。

这是一个小例子:

当量化到位级时,8 个浮点值会转换为单个 8 位字节。

然后,将每个位打包成一个字节,并与所选向量相似性所需的任何错误校正值一起存储在段中。

对于每个向量,存储的字节是 dims/8 字节数,然后是任何错误校正值;欧几里得的 2 个浮点值,或点积的 3 个浮点值。

让我们快速讨论一下我们如何处理段合并

当段合并时,我们可以利用先前计算的质心。只需对质心进行加权平均,然后重新量化新质心周围的向量。

棘手的是确保 HNSW 图质量并允许使用量化向量构建图。如果你仍然需要所有内存来构建索引,量化有什么意义?!

除了将向量附加到现有最大的 HNSW 图之外,我们还需要确保向量评分可以利用非对称量化。HNSW 有多个评分步骤:一个用于初始邻居集合,另一个用于确保只有不同的邻居连接。为了有效地使用非对称量化,我们创建了一个临时文件,其中包含所有量化为 4 位查询向量的向量。

因此,当将向量添加到图中时,我们首先:

  • 获取存储在临时文件中的已量化查询向量。
  • 使用已经存在的位向量正常搜索图。
  • 一旦我们有了邻居,就可以使用先前的 int4 量化值进行多样性和反向链接评分。

合并完成后,临时文件将被删除,仅留下位量化向量。

临时文件将每个查询向量存储为一个 int4 字节数组,该数组采用 dims/2 字节数、一些浮点误差校正值(欧几里得为 3,点积为 4)以及向量维数和的短值。

非对称量化,有趣的部分

我提到了非对称量化以及我们如何布局查询以构建图形。但是,向量实际上是如何转换的?它是如何工作的?

“Asymmetric - 非对称” 部分很简单。我们将查询向量量化为更高的保真度。因此,doc 值是位量化的,查询向量是 int4 量化的。更有趣的是这些量化向量如何转换为快速查询。

以上面的示例向量为例,我们可以将其量化为以质心为中心的 int4。

有了量化向量,乐趣就开始了。因此,我们可以将向量比较转换为按位点积,位移位。

最好只是直观地了解正在发生的事情:

这里,每个 int4 量化值的相对位置位都移位到单个字节。请注意,所有第一位都是先打包在一起的,然后是第二位,依此类推。请注意上面的各个颜色组成的信的字节。如果你想搞明白,上面的最终字节值是从右向左来进行组织的,比如从右向左,绿色的值依次为 1100 0111

但这实际上如何转化为点积?请记住,点积是组件积的总和。对于上面的例子,让我们完整地写出来:

我们可以看到,它只是查询组件的总和,其中存储的向量位为 1。由于所有数字都只是位,因此当使用二进制扩展表示时,我们可以移动一些位置以利用按位运算。

在 & 之后将被翻转的位将是构成点积的数字的各个位。在这种情况下,15 和 10。

记住我们最初存储的向量:

现在我们可以计算位数,移位并求和。我们可以看到剩下的所有位都是 15 和 10 的位置位。

与直接对维度求和的答案相同。

以下是示例,但简化了 Java 代码:

byte[] bits = new byte[]{6};
byte[] queryBits = new byte[]{202, 14, 26, 199};
for (int i = 0; i < 4; i++) {
  sum += Integer.bitCount(bits[0] & queryBits[i] & 0xFF) << i;
}

好吧,给我看看这些数字

我们已经在 Lucene 和 Elasticsearch 中直接对 BBQ 进行了广泛的测试。以下是一些结果:

Lucene 基准测试

这里的基准测试是在三个数据集上进行的:E5-small、CohereV3 和 CohereV2。这里,每个元素表示召回率@100,过采样率为 [1, 1.5, 2, 3, 4, 5]。

E5-small

这是从 quora 数据集构建的 E5-small 的 500k 个向量。

quantizationIndex TimeForce Merge timeMem Required
bbq161.8442.3757.6MB
4 bit215.1659.98123.2MB
7 bit267.1389.99219.6MB
raw249.2677.81793.5MB
令人惊讶的是,我们仅用一位精度就获得了 74% 的召回率。由于维度较少,BBQ 距离计算并不比我们优化的 int4 快多少。

CohereV3

这是 1M 1024 维向量,使用 CohereV3 模型。

quantizationIndex TimeForce Merge timeMem Required
bbq338.97342.61208MB
4 bit398.71480.78578MB
7 bit437.63744.121094MB
raw408.75798.114162MB
这里,1 位量化和 HNSW 仅通过 3 倍过采样就能获得 90% 以上的召回率。

CohereV2

这是 1M 768 维向量,使用 CohereV2 模型和最大内积相似度。

quantizationIndex TimeForce Merge timeMem Required
bbq395.18411.67175.9MB
4 bit463.43573.63439.7MB
7 bit500.59820.53833.9MB
raw493.44792.043132.8MB
看到 BBQ 和 int4 与此基准同步的程度真的很有趣。BBQ 只需 3 倍过采样就能在内积相似度下获得如此高的召回率,这真是太棒了。

更大规模 Elasticsearch 基准测试

正如我们在更大规模向量搜索博客中提到的,我们有一个用于更大规模向量搜索基准测试的 rally track。

该数据集有 138M 个 1024 维浮点向量。如果没有任何量化,使用 HNSW 需要大约 535 GB 的内存。如果使用更好的二进制量化,估计会下降到大约 19GB。

对于此测试,我们在 Elastic 云中使用了一个 64GB 的节点,具有以下 track 参数:

{
        "mapping_type": "vectors-only",
        "vector_index_type": "bbq_hnsw",
        "number_of_shards": 2,
        "initial_indexing_bulk_indexing_clients": 12,
        "standalone_search_clients": 8,
        "aggressive_merge_policy": true,
        "search_ops": [[10, 20, 0], [10, 20, 20], [10, 50, 0], [10, 50, 20], [10, 50, 50], [10, 100, 0], [10, 100, 20], [10, 100, 50], [10, 100, 100], [10, 200, 0], [10, 200, 20], [10, 200, 50], [10, 200, 100], [10, 200, 200], [10, 500, 0], [10, 500, 20], [10, 500, 50],[10, 500, 100],[10, 500, 200],[10, 500, 500],[10, 1000, 0], [10, 1000, 20], [10, 1000, 50], [10, 1000, 100], [10, 1000, 200], [10, 1000, 500], [10, 1000, 1000]]
}

重要提示:如果你想要复制,下载所有数据将花费大量时间,并且需要超过 4TB 的磁盘空间。需要所有额外磁盘空间的原因是此数据集还包含文本字段,并且你需要磁盘空间来存储压缩文件及其膨胀大小。

参数如下:

  • k 是要搜索的邻居数
  • num_candidates 是 HNSW 中每个分片用于探索的候选数
  • rerank 是要重新排序的候选数,因此我们将收集每个分片的多个值,收集总重新排序大小,然后使用原始 float32 向量对前 k 个值重新评分。

对于索引时间,大约需要 12 小时。这里不显示所有结果,而是显示三个有趣的结果:

k-num_candidates-rerankAvg Nodes Visited% Of Best NDGCRecallSingle Query LatencyMulti-Client QPS
knn-recall-10-100-5036,079.80190%70%18ms451.596
knn-recall-10-2015,915.21178%45%9ms1,134.649
knn-recall-10-1000-200115,598.11797%90%42.534ms167.806

这表明了平衡召回率、过采样、重新排序和延迟的重要性。显然,每个都需要针对你的特定用例进行调整,但考虑到这在以前是不可能的,而现在我们在单个节点中拥有 138M 个向量,这非常酷。

结论

感谢你花一点时间阅读有关 Better Binary Quantization 的文章。我来自阿拉巴马州,现在住在南卡罗来纳州,BBQ 在我的生活中已经占据了特殊的地位。现在,我有更多的理由爱上 BBQ!

我们将在 8.16 中将其作为技术预览版发布,或者现在以 serverless 器形式发布。要使用它,只需在 Elasticsearch 中将你的 density_vector.index_type 设置为 bbq_hnsw 或 bbq_flat。

准备好自己尝试一下了吗?开始免费试用。
Elasticsearch 和 Lucene 提供强大的矢量数据库和搜索功能。深入了解我们的示例笔记本以了解更多信息。

原文:Better Binary Quantization (BBQ) in Lucene and Elasticsearch - Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/915018.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

库打包工具 rollup

库打包工具 rollup 摘要 **概念&#xff1a;**rollup是一个模块化的打包工具 注&#xff1a;实际应用中&#xff0c;rollup更多是一个库打包工具 与Webpack的区别&#xff1a; 文件处理&#xff1a; rollup 更多专注于 JS 代码&#xff0c;并针对 ES Module 进行打包webpa…

2024中国游戏出海情况

01 哪里出海更花钱&#xff1f; 报告显示&#xff0c;中国手游在全球不同市场的获客成本不同&#xff0c;整体来看北美市场竞争更加激烈&#xff0c;其安卓和iOS获客成本是拉丁美洲的12倍和7倍。 按具体市场划分&#xff0c;获客成本最高的TOP 3为韩国、美国和日本&#xff0c…

【达梦数据库】MYSQL迁移到DM字符集转换问题-UTF8mb4|转UTF8(UTF8mb3)

目录 背景现象问题原因原因1&#xff1a;字符集不同原因2&#xff1a;以字节为单位 解决办法方法1&#xff1a;扩大长度 结果验证MYSQLDTSDM 背景 迁移过程环境信息如下&#xff1a; 数据库版本字符集补充MYSQL8.0.xxUTF8mb4DM8.1.3.162UTF8&#xff08;UTF8mb3的简称&#x…

Qt_day10_程序打包(完结)

目录 1. 设置图标 2. Debug和Release版本 3. 动态链接库 4. 打包 5. 联系项目要求 Qt开发的程序最终都是要给用户使用的&#xff0c;用户的电脑上不可能装一个Qt的开发环境导入项目使用。因此项目项目开发完成后需要打包——制作成安装包&#xff0c;用户直接下载并安装即可使用…

RT-DETR融合[ECCV2024]自调制特征聚合SMFA模块及相关改进思路

RT-DETR使用教程&#xff1a; RT-DETR使用教程 RT-DETR改进汇总贴&#xff1a;RT-DETR更新汇总贴 《SMFANet: A Lightweight Self-Modulation Feature Aggregation Network for Efficient Image Super-Resolution》 一、 模块介绍 论文链接&#xff1a;https://link.springer.…

postman变量和脚本功能介绍

1、基本概念——global、collection、environment 在postman中&#xff0c;为了更好的管理各类变量、测试环境以及脚本等&#xff0c;创建了一些概念&#xff0c;包括&#xff1a;globals、collection、environment。其实在postman中&#xff0c;最上层还有一个Workspaces的概…

计算机网络常见面试题(一):TCP/IP五层模型、TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议

文章目录 一、TCP/IP五层模型&#xff08;重要&#xff09;二、应用层常见的协议三、TCP与UDP3.1 TCP、UDP的区别&#xff08;重要&#xff09;3.2 运行于TCP、UDP上的协议3.3 TCP的三次握手、四次挥手3.3.1 TCP的三次握手3.3.2 TCP的四次挥手3.3.3 随机生成序列号的原因 四、T…

约束(MYSQL)

not null&#xff08;非空&#xff09; unique&#xff08;唯一&#xff09; default&#xff08;默认约束&#xff0c;规定值&#xff09; 主键约束primary key&#xff08;非空且唯一&#xff09; auto_increment&#xff08;自增类型&#xff09; 复合主键 check&#xff08…

Cent OS-7的Apache服务配置

WWW是什么&#xff1f; WWW&#xff08;World Wide Web&#xff0c;万维网&#xff09;是一个全球性的信息空间&#xff0c;其中的文档和其他资源通过URL标识&#xff0c;并通过HTTP或其他协议访问。万维网是互联网的一个重要组成部分&#xff0c;但它并不是互联网的全部。互联…

【C++】类与对象的基础概念

目录&#xff1a; 一、inline 二、类与对象基础 &#xff08;一&#xff09;类的定义 &#xff08;二&#xff09;访问限定符 &#xff08;三&#xff09;类域 &#xff08;四&#xff09;实例化概念 正文 一、inline 在C语言的学习过程中&#xff0c;大家肯定了解过宏这个概…

matlab实现主成分分析方法图像压缩和传输重建

原创 风一样的航哥 航哥小站 2024年11月12日 15:23 江苏 为了研究图像的渐进式传输技术&#xff0c;前文提到过小波变换&#xff0c;但是发现小波变换非常适合传输缩略图&#xff0c;实现渐进式传输每次传输的数据量不一样&#xff0c;这是因为每次变换之后低频成分大约是上一…

python成长技能之网络编程

文章目录 一、初识Socket1.1 什么是 Socket?1.2 socket的基本操作1.3 socket常用函数 二、基于UDP实现客户端与服务端通信三、基于TCP实现客户端与服务端通信四、使用requests模块发送http请求 一、初识Socket 1.1 什么是 Socket? Socket又称"套接字"&#xff0c;…

ROM修改进阶教程------安卓14 安卓15去除app签名验证的几种操作步骤 详细图文解析

在安卓14 安卓15的固件中。如果修改了系统级别的app。那么就会触发安卓14 15的应用签名验证。要么会导致修改的固件会进不去系统,或者进入系统有bug。博文将从几方面来解析去除安卓14 15应用签名验证的几种方法。 💝💝💝通过博文了解: 1💝💝💝-----安卓14去除…

[Docker#6] 镜像 | 常用命令 | 迁移镜像 | 压缩与共享

目录 Docker 镜像是什么 生活案例 为什么需要镜像 镜像命令详解 实验 1.一些操作 1. 遍历查看镜像 2. 查看镜像仓库在本地的存储信息 进入镜像存储目录 查看 repositories.json 文件 3. 镜像过滤 4. 下载镜像时的分层 实战一&#xff1a;离线迁移镜像 实战二&…

「QT」几何数据类 之 QVector3d 三维向量类

✨博客主页何曾参静谧的博客&#x1f4cc;文章专栏「QT」QT5程序设计&#x1f4da;全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid…

人工智能(AI)对于电商行业的变革和意义

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/402a907e12694df5a34f8f266385f3d2.png#pic_center> &#x1f393;作者简介&#xff1a;全栈领域优质创作者 &#x1f310;个人主页&#xff1a;百锦再新空间代码工作室 &#x1f4de;工作室&#xff1a;新空间代…

物联网设备研究——分配推理负载的联合学习方法

概述 物联网&#xff08;IoT&#xff09;的最新发展导致人工智能模型被嵌入到传感器和智能手机等终端设备中。这些模型是根据每个设备的存储容量和计算能力定制的&#xff0c;但重点是在终端侧进行本地推理&#xff0c;以降低通信成本和延迟。 然而&#xff0c;与部署在边缘服…

CentOS Stream 9设置静态IP

CentOS Stream 9设置静态IP CentOS Stream 9作为CentOS Stream发行版的下一个主要版本&#xff0c;已经发布有一段时间&#xff0c;但与目前广泛使用的CentOS7有较大区别。安装试用Stream 9的过程中&#xff0c;就发现设置静态IP的方式和CentOS7/8差别较大&#xff0c;在此记录…

【嵌入式】ESP32开发(一)ESP-IDF概述

文章目录 1 前言2 IDF环境配置3 在VS Code中使用IDF3.1 使用ESP-IDF例程3.2 底部按钮的作用【重要!】3.3 高级用法4 ESP-IDF框架分析5 从零开始创建一个项目5.1 组件(component)6 主要参考资料7 遇到的一些问题与解决办法8 对于ESP-IDF开发的一些感受1 前言 对于ESP32的开发…

基于Multisim水箱水位控制系统仿真电路(含仿真和报告)

【全套资料.zip】水箱水位控制系统仿真电路Multisim仿真设计数字电子技术 文章目录 功能一、Multisim仿真源文件二、原理文档报告资料下载【Multisim仿真报告讲解视频.zip】 功能 1.在水箱内的不同高度安装3根金属棒&#xff0c;以感知水位变化情况&#xff0c; 液位分1&…