Elasticsearch:使用 SIMD 指令加速向量搜索

作者:Chris Hegarty, Elastic Principal Engineer, Lucene PMC

翻译:杰瑞朱

多年来,Java 平台上运行的代码一直受益于自动向量化 —— HotSpot C2 编译器中的 superword 优化,将多个标量操作打包到 SIMD单指令多数据)向量指令中。这很好,但是这些类型的优化有些脆弱,具有天然的复杂性限制,并且受到 Java 平台规范的约束(例如,浮点运算的严格排序)。这并不是说这样的优化不再有价值,只是在某些情况下,明确代码的写法可以获得明显更好的性能。Lucene 中支持向量搜索的低级底层操作就是这样一种情况。

本文将介绍 Lucene 向量搜索中使用的底层操作,它们如何在运行时可靠地编译为 SIMD 指令(例如 x64 上的 AVX 指令和 AArch64 上的 NEON 指令),以及这对性能有何影响。

底层操作

Lucene 向量搜索实现的核心在于查找两个向量之间的相似性时使用的三个底层操作:点积、平方和余弦距离。这些操作都有浮点和二进制变体。为了简洁起见,我们只看这些基本操作之一 —— 点积。界面很简单,如下所示:

到目前为止,这些原始操作的背后是用标量(scalar)计算来实现的,并通过使用现有的技术(例如手动展开循环)来优化性能。如果你正在编写 Java 代码,这已经是最好的了 — 其余的我们留给 HotSpot 即时编译器来尽其所能进行优化(例如,自动向量化)。这是 dot 的简化标量实现产品,已删除展开(真正的实现可以在这里看到):

最近的变化是,JDK 现在提供了一个用于表达计算的 API,这些计算可以在运行时可靠地编译为 SIMD 指令。这是 OpenJDK 的项目 Panama 向量API当然,运行时生成的实际指令取决于底层平台支持的内容(例如 AVX2 AVX 512),但 API 的结构是为了满足这一点。同样,这是点积代码的简化版本,但这次使用 Panama 向量 API

你可以看到代码有点冗长,但它是直观易懂的,并且很容易推理出它在运行时如何映射到硬件,因为你可以在代码中看到向量运算。VectorSpecies 包含元素类型(在我们的例子中为浮点数)和形状(向量的位大小)。优选的种类是平台的最大位大小之一。首先,有一个循环迭代输入,相乘并累加 SPECIES::length 一次元素。其次,汇总累加器向量。最后,一个标量循环处理任何剩余的尾部元素。

当我们在支持 AVX 512 CPU 上运行此代码时,我们看到 HotSpot C2 编译器发出 AVX 512 指令。高级向量扩展 (AVX) 已广泛使用,例如基于英特尔 Ice Lake 微架构的 CPU 和基于此类架构的云计算实例(例如 GCP 或 AWS)。AVX 512 指令一次跨过点积计算 16 个值;512 位大小 / 每个值 32 = 每次循环迭代 16 个值。当在支持 AVX2 CPU 上运行时,同一代码的一次循环迭代每次迭代都会跨过 8 个值。同样,NEON128 位)每次循环迭代将跨过 4 个值。

要看到这一点,我们需要查看生成的代码。开始有趣的探索吧!

看看原生代码

以下是 dotProduct  HotSpot C2 编译器在支持 AVX 512 Rocket Lake 上运行时的反汇编。

下面的代码片段包含主循环体,其中 rcx 和 rdx 寄存器保存指向第一个和第二个浮点数组的地址。

  • 首先,我们看到一条 vmovdqu32 指令,该指令将 512 位打包双字值从内存位置加载到 zmm0 寄存器中,即从偏移量到第一个 float[] 16 个值。
  • 其次,我们看到一条 vmulps 指令,它将先前加载到 zmm0 中的打包单精度浮点值与内存位置中相应的打包双字值相乘 - 这是第二个 float[] 中偏移量的 16 个值,并存储生成的浮点值zmm0中的点值。
  • 第三,我们看到 vaddps  zmm0 中的 16 个打包单精度浮点值与 zmm4 相加,并将打包单精度浮点结果存储在 zmm4 中 zmm4 是我们的循环累加器。
  • 最后,有一个小的计算来递增并检查循环计数器。

不要太担心反汇编的具体细节——提供它们是为了让人们更多地了解幕后发生的事情,但不需要非常充分的了解。事实上,上面的内容有些简化,因为实际发生的是 C2 展开循环,一次跨过 4 次迭代。

我们在每次迭代中使用更多的寄存器和指令。好的!更重要的是,我们的 Lucene 代码 手动也展开了循环,又是 4 倍(嗯...展开量很大)。

那么,这样能更快吗?

为了评估重写此类低级操作的影响,我们求助于 JMH,这是对此类 Java 代码执行微基准测试的普遍接受的方法。在这里,我们使用了 Robert Muir 非常好用且方便的一组基准测试使我们能够快速比较代码变体之前和之后。

请记住,SIMD 提供数据并行性,因此我们处理的数据越多,潜在的好处就越大。在我们的例子中,这与向量的维度大小直接相关——我们期望看到更大的维度大小带来的更大好处。让我们看看在支持 AVX 512 CPU 上运行时,具有 1024 维向量的点积的浮点变体;英特尔酷睿 i9-11900F @ 2.50GHz

该基准测试每微秒的操作次数,因此越大越好。在这里,我们看到新点积的执行速度比旧点积快大约八倍。我们看到不同的低级底层操作(无论是浮点数还是二进制)都有类似的性能提升:

我们看到所有原始操作变体以及各种从小到大的维度大小都有显着的改进(这里没有显示,但可以在 Lucene PR 中看到)。这一切都很棒,但这与更高级别的工作负载有何关系?

放到宏观看看

微基准测试对于了解低级基元操作的执行情况非常重要,但这对宏观层面有何影响?为此,我们可以查看 Elasticsearch的向量搜索基准,即 SO Vector 和Dense Vector两个基准测试都显示出显着的改进,但让我们看看 SO Vector,因为它更有趣,因为它比 Dense Vector 具有更高的向量维度。

SO Vector 基准测试使用 200 万个 768 维向量和带过滤的 kNN 来测试向量搜索性能。这些向量基于从 StackOverflow 帖子转储中导出的数据集。Elasticsearch 使用单节点集群在 GCP 上运行,在具有 8 vCPU16GB RAM 1x300GiB SSD 磁盘的自定义 n2 实例上运行。该节点有一个固定到 Ice Lake CPU 平台。

基准测试中存在很多预先存在的差异,但总的来说,我们看到了积极的改进:

  • 索引吞吐量提高了约 30%

  • 合并时间减少了约 40%

  • 查询延迟显著改善。

但是 Panama 向量 API 不是真正孵化中吗?

JDK Vector API 正在 Panama 项目中开发,目前已经孵化了一段时间。孵化状态并不反映其质量,而更多的是依赖 OpenJDK 中其他令人兴奋的工作(即值类型)的结果。Lucene 正在 前沿” 开辟道路,并拥有一种利用 JDK 中非最终 API 的新颖方法 —— 通过构建包含 JDK 版本特定 API 的 apijar”——感谢 Uwe。这是一种务实的做法,我们不会掉以轻心。与生活中的大多数事情一样,这是一个权衡。只有当潜在收益超过维护成本时,我们才会考虑采用非最终 JDK APILucene 仍然具有这些低级底层操作的标量实现版本更快的 Panama 实现可在 JDK 20 和即将推出的 JDK 21 上使用,而我们会在某些不适用的情况下回退到旧版 JDK 的标量实现。同样,在平衡潜在收益与维护成本时,仅支持最新的 JDK 版本是一个务实的选择。

总结

现在,我们可以使用 Panama 向量 API 编写可靠地利用硬件加速 SIMD 指令的 Java 代码。在 Lucene 9.7.0 中,我们添加了更快地实现向量搜索所使用的底层操作的功能。Elasticsearch 8.9.0 默认情况下开箱即用地启用了这种更快的实现,因此你无需执行任何操作即可获得改进的性能优势。我们在向量搜索基准测试中看到了显着的性能改进,并期望这能够转化为用户工作负载。

SIMD 指令并不新鲜,并且已经存在很长时间了。与往常一样,你需要进行自己的性能基准测试,以了解这对你的环境产生的影响。AVX 512 很酷,但它可能会遭受可怕的 降频” 的困扰。总体而言,我们看到这一变化带来了全面的积极改进。

最后,我想感谢 Lucene PMC 成员 Robert Muir 和 Uwe Schindler,感谢他们愉快而富有成效的合作,促成了这一改进,没有他们,这一切就不会发生。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/33551.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Git:git merge和git rebase的区别

分支合并 git merge是用来合并两个分支的。比如:将 b 分支合并到当前分支。同样git rebase b,也是把 b 分支合并到当前分支。他们的 「原理」如下: 假设你现在基于远程分支"origin",创建一个叫"mywork"的分支…

【react全家桶学习】react的 (新/旧) 生命周期(重点)

目录 生命周期(旧) 挂载时的生命周期 constructor(props) componentWillMount()-------------新生命周期已替换 render() componentDidMount()--- 组件…

PACS/RIS医学影像管理系统源码 提供先进图像处理和算法

PACS(医学影像存档与通信系统)主要应用于医学影像的存储、传输和显示。它可以使医生突破胶片的局限,对病人的影像进行全方位的处理和观察,以便得出更准确的诊断。同时,PACS可以节省大量的胶片,降低成本。医…

flex布局瀑布流占位两边对齐不对称

.page{display: flex;justify-content: space-between;flex-wrap: wrap; }.page:after {content: ;width: 400px; // 也可以 flex:1}

jmeter:BeanShell预处理程序获取/设置/引用变量

BeanShell预处理程序 1、局部变量 获取局部变量:vars.get("变量名") 设置局部变量:vars.put("变量名",变量值) 调用 ${变量名} 2、全局变量 获取局部变量:props.get("变量名") 设置局部变量&#xff1a…

KNIME工作流和节点比较功能

KNIME工作流和节点比较功能是一个在 << KNIME 视觉化数据分析 >> 中没有讲到的知识点。 KNIME工作流和节点比较功能在以下几种情况下非常有用&#xff1a; 版本控制&#xff1a;此功能可以跟踪工作流和节点中的更改。如果需要返回到之前的工作流或节点版本&#xf…

Vscode platformio Arduino开发STM32,点灯+串口调试

1.工具 USB-TTL(非常便宜&#xff0c;几块钱)STM32F103C8T6(几块钱) 2.引脚连线 USB-TTLSTM32TXPA10RXPA9VCC3.3VGNDGND 注意事项&#xff1a; 跳线帽位置&#xff1a;BOOT0接高电平(1)&#xff0c;BOOT1接低电平(0)每次上传程序前需要按一下复位键(之后&#xff0c;跳线帽…

2020年全国硕士研究生入学统一考试管理类专业学位联考逻辑试题——纯享题目版

&#x1f3e0;个人主页&#xff1a;fo安方的博客✨ &#x1f482;个人简历&#xff1a;大家好&#xff0c;我是fo安方&#xff0c;考取过HCIE Cloud Computing、CCIE Security、CISP等证书。&#x1f433; &#x1f495;兴趣爱好&#xff1a;b站天天刷&#xff0c;题目常常看&a…

Nginx SSL使用自制证书

1. 生成证书 keytool -genkey -v -alias <Alias别名> -keyalg RSA -keystore <KeyStore文件> -validity <有效期> keytool -genkey -v -alias nginx -keyalg RSA -keystore nginx.keystore -validity 36500 alias别名为 nginxkeystore文件为 nginx.keystore…

【Nginx】第七章 Nginx原理与优化参数配置

7.1 Nginx原理 master-workers的机制的好处 首先&#xff0c;对于每个worker进程来说&#xff0c;独立的进程&#xff0c;不需要加锁&#xff0c;所以省掉了锁带来的开销&#xff0c;同时在编程以及问题查找时&#xff0c;也会方便很多。 其次&#xff0c;采用独立的进程&…

第11节 跟上板块轮动的节奏

板块 文章目录 板块什么是板块板块的分类板块的轮动 板块相关接口本节课任务 什么是板块 股票板块是一些具有相同特征的股票的集合&#xff0c;命名通常也会简单明了的直接按照特征命名。例如沪深300板块&#xff0c;蓝筹板块。对上市公司进行“分班”不论是对于企业还是对于投…

Restful风格笔记

Restful风格知识点 RestController注解 在类上添加RestController可以默认类中的所有方法都带有ResponseBody注解&#xff0c;可以省去一个个添加的麻烦。 RestController RequestMapping("/restful") //CrossOrigin(origins {"http://localhost:8080"…

Linux系统Centos7 安装MySQL8.0详细步骤

MySql安装 1.下载wget命令 yum -y install wget 2. 在线下载mysql安装包 wget https://repo.mysql.com//mysql80-community-release-el7-3.noarch.rpm 3.MySQL的GPG升级了&#xff0c;需要更新&#xff0c;如果是新安装的MySQL&#xff0c;执行以下脚本即可&#xff1…

Python MongoDB复习第一章

Python 可以在数据库应用程序中使用。 最受欢迎的 NoSQL 数据库之一是 MongoDB。 MongoDB MongoDB 将数据存储在类似 JSON 的文档中&#xff0c;这使得数据库非常灵活和可伸缩。 为了能够测试本教程中的代码示例&#xff0c;您需要访问 MongoDB 数据库。 您可以在 https:/…

Vue.js中的状态管理:理解和使用Vuex

目录 前言 Vue.js 样式绑定 Vue.js class class 属性绑定 实例 1 实例 2 实例 3 实例 4 数组语法 实例 5 实例 6 Vue.js style(内联样式) 实例 7 实例 8 实例 9 Vue.js 组件 全局组件 全局组件实例 局部组件 局部组件实例 Prop Prop 实例 动态 Prop Pro…

力扣 98. 验证二叉搜索树

题目来源&#xff1a;https://leetcode.cn/problems/validate-binary-search-tree/description/ C题解1&#xff1a;中序遍历&#xff0c;递归法。获取数组&#xff0c;如果是递增则返回true&#xff0c;否则返回false。 class Solution { public:void zhongxu(TreeNode* node…

vue+leaflet笔记之热力图

vueleaflet笔记之热力图 文章目录 vueleaflet笔记之热力图开发环境代码简介插件简介与安装使用简介 详细源码(Vue3) 本文介绍了Web端使用 Leaflet开发库展示热力图方法 (底图来源:天地图)&#xff0c;结合leaflet.heat插件可以很容易的做出热力图&#xff0c;通过调整其配置参…

房贷计算器——新增选择还款方式

房贷计算器——新增选择还款方式 #!/usr/bin/env python # coding: utf-8# In[4]: 文字‘房贷计算器’ 文字‘贷款总金额’&#xff1a;输入框 文字‘贷款期限’&#xff1a;输入框 文字‘年利率’&#xff1a;输入框 按钮‘开始计算’ 返回&#xff1a; 月供 总利息 from tki…

【工作记录】基于CSS+JS可拖拽改变大小、可吸附到边界的DIV

记录一段实现可拖拽、可自动吸附到边界的代码。 <!DOCTYPE html> <html lang"en"> <head><style>body {overflow: hidden;}#pane {position: absolute;width: 45%;height: 45%;top: 20%;left: 20%;margin: 0;padding: 0;z-index: 99;border…

基于深度学习的高精度塑料瓶检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要&#xff1a;基于深度学习的高精度塑料瓶检测识别系统可用于日常生活中或野外来检测与定位塑料瓶目标&#xff0c;利用深度学习算法可实现图片、视频、摄像头等方式的塑料瓶目标检测识别&#xff0c;另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5目标检…