HNSW算法

From:

  1. HNSW算法(nsmlib/hnswlib)-CSDN博客
  2. HNSW算法的基本原理及使用 - 知乎

HNSW是一种广泛使用的ANN图索引结构,包括DiskANN、DF-GAS、SmartSSD等。本文档主要总结HNSW的结构与工作流程,便于后期研究其工作流程在迁移到CSD中存在的I/O问题

数据结构
  • HNSW在内存中的结构如下图所示。
  • 最下层是0层,越往上层数越大。除了0层外,上层的内存布局结构都相同。
  • 大概来说就是每层中的每个向量都会保存他的邻居数和邻居,不过0层会额外保存原始向量,非0层会额外保存其所在层到1层的所有邻居
  • (不过我不理解的地方是为什么上层的每个向量都要保存自顶向下的每一层的邻居域,不会造成重复存储嘛?只需要该节点在下一层的邻居域不就好了?或者说每个节点在内存中其实值保存了一份,每层之间是共享的?需要进一步调研)。

详细说明:

  1. 首先厘清变量含义:

maxM_:非0层最大的最大邻居数

maxM0_:0层最大邻居数,=2*maxM_

        2. 对于0层索引:

  • header(4 byte):header前2字节指定该向量在0层当前有几个邻居,后面一字节是标记删除位(增量构建用到),为内存对齐header第四字节废弃;
  • 邻居域:构造时就申请好了内存,每个0层向量可以有maxM0_个邻居向量(是非0层的2倍),占用字节数 = maxM0_ * 4 + 4字节(这个+4没解释是什么)
  • 数据域:占用字节数 = dim * sizeof(float) = dim * 4字节,以及label,对于我们就是向量id(如feed_id、video_id),占用8字节,共计dim*4+8字节

        0层全部数据保存在data_level0_memory_,构造索引时通过参数max_elements指定索引最大向量个数,data_level0_memory_一次性申请max_elements * size_data_per_element_字节的内存。

        3. 对于非0层索引:

  • 非0层主要存储每个向量在各个层的邻居表。具体是保存了每个向量丛它所在层向低层的邻居。如向量a构建时落在第3层,那么构建过程会不断更新它在1、2、3层的邻居向量。
  • linkLists_是邻居表存储实体,是一个二维数组,行由max_elements即最大向量个数指定,列由该向量实际落在的层数,在构建该向量时具体分配内存。(但是每个向量落到的层不一样,如果做成一个二维数组怎么根据每个向量实际层数灵活分配内存?做成链表?而且linkLists_是每层都有一个还是整个索引共享一个也不清楚)

个人理解(From SmartSSD中的介绍):

整个HNSW只包含两个表,一个表是存层0的,另一个表是1-N层的(上层的连接信息都存在表)。如图所示。

先说层0表,他有M行,M是总节点数。然后后续操作和数据结构都用这个表里的行数表示这个节点的索引。层0表主要目的是保存一个节点的邻居以及原始向量。邻居数量固定,因此层0表的空间是一开始就预分配好的。层0的邻居数是上层表邻居数的2倍(猜测是提高连通性保证召回率)。

然后是上层表,这个表主要是保存上层的节点间的连通信息。这个表的行数也和层0表相同,每行保存的是每个节点在上面每层的邻居。但是不是每个点都会贯穿所有层,所以需要保存这个点到底最高到几层,也就是每一行开头的第一个元素(这个数据布局和前面的那个图有点不一样,前面那个图没有每行开头的层数信息,不过大的数据结构是一样的)。按照论文的说法,由于不是每个节点都要贯穿每个层,没有延伸到的层就不需要分配空间可以节约内存。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/349069.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算CNN卷积层和全连接层的参数量

计算CNN卷积层和全连接层的参数量 先前阅读 CNN ExplainerA Comprehensive Guide to Convolutional Neural Networks — the ELI5 way 本文主旨意在搞明白2个问题: 第一个问题 一个卷积操作,他的参数,也就是我们要训练的参数,也…

50. Pow(x, n)

分治算法: 从右往左开始递归计算,假设yx^(n/2),那么当n为偶数时,x^ny*y,当n为奇数时,x^ny*y*x。 另外,注意n有可能是负数。 class Solution {public double myPow(double x, int n) {int N n…

Kettle-Docker部署+Sqlserver数据同步Mysql+Start定时任务

一. 背景介绍 1. ETL是什么 ETL(Extract-Transform-Load),即数据抽取、转换、装载的过程。它是一种思想,主要是说,从不同的数据源获取数据,并通过对数据进行处理(格式,协议等转换&a…

ChatGPT 全域调教高手:成为人工智能交流专家

随着人工智能的快速发展,ChatGPT作为一种强大的文本生成模型,在各行各业中越来越受到重视和应用。想要利用ChatGPT实现更加智能、自然的交流,成为 ChatGPT 全域调教高手吗?本文将为您介绍如何通过优化ChatGPT的训练方法&#xff0…

全新5IUX极简搜索主页源码 /自定义浏览器主页

源码介绍: 全新5IUX极简搜索主页源码,专为自定义浏览器主页而设计。厌倦了各种导航首页上满屏幕的广告和资讯,可以自己尝试编写一个个性化的主页。这款源码并非镜像或代理,而是作为浏览器主页使用,同时支持自适应屏幕…

springboot快速写接口

1. 建proj形式 name会变成文件夹的名字,相当于你的项目名称 基础包 2. 基础依赖 3. 配置数据库 这里要打开mysql,并且创建数据库 方法: 安装好数据库,改好账号密码用navicat来建表和账号配置properties.yml文件即可 4.用res…

基于SpringBoot的玩具租赁系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式 🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 &…

腾讯云轻量应用Windows服务器如何搭建幻兽帕鲁Palworld私服?

幻兽帕鲁/Palworld是一款2024年Pocketpair开发的开放世界生存制作游戏,在帕鲁的世界,玩家可以选择与神奇的生物“帕鲁”一同享受悠闲的生活,也可以投身于与偷猎者进行生死搏斗的冒险。而帕鲁可以进行战斗、繁殖、协助玩家做农活,也…

Linux文件管理(上)

因为 Linux中一切皆文件,所以在了解了 Linux基础和会使用一些入门级命令之后,接下来的重点便是 Linux文件管理的学习,就像 Java中一切皆对象一样,面向对象是 Java基础的核心和重点。该部分内容学习的重要性就像面向对象在 Java中重…

为什么时序逻辑电路会落后一拍?

1、时序逻辑电路落后一拍&#xff1f; FPGA初学者可能经常听到一句话&#xff1a;“时序逻辑电路&#xff0c;或者说用 < 输出的电路会延迟&#xff08;落后&#xff09;一个时钟周期。”但在仿真过程中经常会发现不符合这一“定律”的现象–明明是在仿真时序逻辑&#xff…

netstat引发系统负载升高故障案例一则

关键词 linux、centoscpu load、netstat、strace阻塞、卡顿 There are many things that can not be broken&#xff01; 如果觉得本文对你有帮助&#xff0c;欢迎点赞、收藏、评论&#xff01; 在一次线上业务的阻塞故障中&#xff0c;发现罪魁祸首是执行了大量netstat的命令…

使用宝塔面板部署Node.js+Mysql服务和Vue3-Admin项目到云服务器上

准备工作 一台云服务器&#xff0c;可以先用免费试用一个月的服务器进行练手&#xff1b;我这里选择的是腾讯云的轻量云服务器&#xff1b; 1、在云服务器上安装宝塔面板 宝塔面板官网地址&#xff1a;https://www.kancloud.cn/chudong/bt2017/424209 1.1 安装Xshell脚本工…

开源CRM客户管理系统-FeelCRM

FeelCRM客户管理系统 开源项目介绍 FeelCRM客户管理系统&#xff0c;符合中小企业业务流程&#xff1b;支持线索管理、客户管理、商机管理、合同管理、审核管理等多个模块&#xff1b;希望能为广大中小企业以及开发者们提供一个更多的可能性&#xff1b;本版本是我公司跨语言…

C#,打印漂亮杨辉三角形(帕斯卡三角形)的源代码

杨辉 Blaise Pascal 这是某些程序员看完会哭的代码。 杨辉三角形&#xff08;Yanghui Triangle&#xff09;&#xff0c;是一种序列数值的三角形几何排列&#xff0c;最早出现于南宋数学家杨辉1261年所著的《详解九章算法》一书。 欧洲学者&#xff0c;最先由帕斯卡&#x…

Windows10上使Git Bash支持rsync命令操作步骤

rsync命令是linux上常用的工具之一&#xff0c;用于远程以及本地系统中拷贝/同步文件和文件夹。 Windows Git Bash默认并不支持rsync&#xff0c;如下图所示&#xff1a; 使Git Bash支持rsync命令操作步骤&#xff1a; 1.从https://repo.msys2.org/msys/x86_64/ 下…

1.26寒假集训

A: 解题思路&#xff1a; 只有一行一列的时候输出1&#xff0c;多列就输出2 有多行多列的时候&#xff0c;输出4 下面是c代码&#xff1a; #include<iostream> using namespace std; int main() {long long n,m,t;cin >> t;while(t ! 0){cin >> n >&g…

java安装,从java1.8升级到java11.0,java,javac,javaw,javaws,jdk,jre

最近在学习 PyFlink&#xff0c;需要安装Java11环境&#xff0c;但是本机已经安装了java1.8&#xff0c;在升级的过程中遇到了一些问题&#xff0c;在这里记录一下。 windows下安装JDK11 下载JDK11&#xff1a;https://www.oracle.com/java/technologies/downloads/#java11-w…

【SVD生成视频+可本地部署】ComfyUI使用(二)——使用Stable Video Diffusion生成视频 (2023.11开源)

SVD官方主页 &#xff1a; Huggingface | | Stability.ai || 论文地址 huggingface在线运行demo : https://huggingface.co/spaces/multimodalart/stable-video-diffusion SVD开源代码&#xff1a;Github&#xff08;含其他项目&#xff09; || Huggingface 在Comfyui使用&…

[bat]基于msg的弹窗提示

一、方案 1、定时自动消失的弹窗 代码&#xff1a; echo off echo method 1 msg * /time:5 "123456" REM echo method 2 REM msg * "123456"pause 效果&#xff1a; 立即弹窗在5秒后消失。 2、一直存在的弹窗 源码&#xff1a; echo off REM echo m…

方法重载与方法重写差别

写在开头 请聊一聊Java中方法的重写和重载&#xff1f; 这个问题应该是各大厂面试时问的最多的话题之一了&#xff0c;它们几乎贯穿了我们日常的开发工作&#xff0c;在过往的博客中我们多多少少都提到过重载与重写&#xff0c;而今天我们就一起来详细的学习一下这二者的功能与…