发表在SIGMOD 2024上的高维向量检索/向量数据库/ANNS相关论文

前言

SIGMOD 2024会议最近刚在智利圣地亚哥结束,有关高维向量检索/向量数据库/ANNS的论文主要有5篇,涉及混合查询(带属性或范围过滤的向量检索)优化、severless向量数据库优化、量化编码优化、磁盘图索引优化。此外,也有一些其它相关论文,比如FedKNN: Secure Federated k-Nearest Neighbor Search。

下面对这些论文进行一个简单汇总介绍。

SeRF : Segment Graph for Range-Filtering Approximate Nearest Neighbor Search

在这里插入图片描述
这篇论文主要研究带范围过滤的向量检索问题,作者基于HNSW提出了两种范围过滤图索引:SegmentGraph和2DSegmentGraph,它们分别用于处理范围约束是半界范围和任意范围的情况。由于构建一个考虑范围情况的索引会显著增加索引处理时间和索引尺寸,这篇论文主要对离线构建过程做了大量优化,从而大幅减少离线处理开销和显著压缩了索引。比如,SegmentGraph通过无损压缩实现了索引尺寸与原始HNSW相当。

RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search

在这里插入图片描述
这篇论文主要研究了一种新的量化(quantization)方法RaBitQ,讲高维向量编码为等维度的二值向量。与当前流行的PQ及其变体相比,RaBitQ具有如下优势:(1)距离评估是无偏的,具有理论概率误差界;(2)RaBitQ能实现更高的精度且只需更短的编码;(3)距离评估更高效。

Vexless : A Serverless Vector Data Management System Using Cloud Functions

在这里插入图片描述
这篇论文主要研究了在无服务器云函数(Cloud Funtions)下向量数据库的设计和优化,本文主要聚焦在三个方面:(1)Sharding策略;(2)通讯机制;(3)冷启动。本文基于Azure Functions对上述三个方面做了具体的优化,优化系统Vexless具有高弹性、低运营成本、细粒度计费模型等优点。

ACORN: Performant and Predicate-Agnostic Search Over Vector Embeddings and Structured Data

在这里插入图片描述
这篇论文主要研究混合查询问题,即带属性过滤约束的向量检索。当前混合查询技术路线主要有3类:前过滤、后过滤、混合过滤。本文的技术路线是沿着第3种,即为属性和向量构建混合索引,即设计专用于混合查询的索引。对于范围过滤,本文的方案可能仅适用于一些简单范围过滤情况,比如一定数量的年份,可能并不适用于具有非常精细的范围过滤约束的混合查询。

本文方案基于HNSW算法,优化HNSW的索引构建过程从而使构建的HNSW索引融合属性信息,主要思想与之前的NHQ、Filter-DiskANN等类似,都是把属性信息融入到近邻图索引中,从而使索引不仅包含向量近邻关系也考虑顶点之间的属性关系。ACORN构建了一个更“稠密”的HNSW,即邻居数更多了。显然,ACORN需要更多索引构建时间和索引内存占用开销。

执行混合查询时,若谓词的可选择性比较低,可能用前过滤比较适合,本文通过代价模型来根据查询谓词的可选择性来选择具体执行前过滤还是ACORN。

ACORN支持的过滤类型(y是谓词):(1)equals(y); (2)contains(y1,y2,…); (3)between(y1,y2); (4)regex-match(y).

在实验中,(3)过滤类型是年份。

Starling: An I/O-Efficient Disk-Resident Graph Index Framework for High-Dimensional Vector Similarity Search on Data Segment

在这里插入图片描述
本文提出了一种 I/O 高效的磁盘图索引框架Starling,以优化数据段内的数据布局和搜索策略。它有两个主要组成部分:(1)数据布局包含内存中导航图和重新排序的磁盘图索引,这增强了存储局部性并减少搜索路径长度,从而最大限度地减少磁盘带宽浪费; (2) 块搜索策略,旨在最大限度地减少向量查询执行期间昂贵的磁盘 I/O 操作。 在2GB内存和10GB磁盘容量的数据段上,Starling可容纳多达3300万个128维向量,提供超过0.9的平均精度以及低于1毫秒延迟的HVSS。与最先进的方法相比,Starling的吞吐量提高了43.9 倍,查询延迟降低了98%,同时保持了相同的精度水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/737228.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

k8s 部署 ruoyi 前后端分离项目

本文视频版 https://www.bilibili.com/video/BV17ugkePEeN 参考 https://blog.csdn.net/qq_50247813/article/details/136934090 https://gitee.com/nasaa/RuoYi-Vue-cloud https://www.itsgeekhead.com/tuts/kubernetes-129-ubuntu-22-04-3/ https://kubernetes.io/docs/se…

Kimichat使用案例026:AI翻译英语PDF文档的3种方法

文章目录 一、介绍二、腾讯交互翻译TranSmart https://transmart.qq.com/三、沉浸式翻译三、谷歌网页翻译一、介绍 短的文章,直接丢进kimichat、ChatGPT里面很快就可以翻译完成,而且效果很佳。但是,很长的PDF文档整篇需要翻译,怎么办呢? 二、腾讯交互翻译TranSmart https…

示例:WPF中应用DependencyPropertyDescriptor监视依赖属性值的改变

一、目的:开发过程中,经常碰到使用别人的控件时有些属性改变没有对应的事件抛出,从而无法做处理。比如TextBlock当修改了IsEnabled属性我们可以用IsEnabledChanged事件去做对应的逻辑处理,那么如果有类似Background属性改变我想找…

构建未来应用的核心,云原生技术栈解析

🐇明明跟你说过:个人主页 🏅个人专栏:《未来已来:云原生之旅》🏅 🔖行路有良友,便是天堂🔖 目录 一、云原生技术栈 1、容器和容器编排 1.1 Docker 1.2 Kubernete…

如何在Android中实现多线程与线程池?

目录 一、Android介绍二、什么是多线程三、什么是线程池四、如何在Android中实现多线程与线程池 一、Android介绍 Android是一种基于Linux内核的开源操作系统,由Google公司领导开发。它最初于2007年发布,旨在为移动设备提供一种统一、可扩展的操作系统。…

朴素贝叶斯案例

一、朴素贝叶斯算法: 朴素贝叶斯算法,是一种基于贝叶斯定理与特征条件独立假设的分类方法,基于贝叶斯后验概率建立的模型,它用于解决分类问题。朴素:特征条件独立;贝叶斯:基于贝叶斯定理。属于…

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二&a…

数组 (java)

文章目录 一维数组静态初始化动态初始化 二维数组静态初始化动态初始化 数组参数传递可变参数关于 main 方法的形参 argsArray 工具类sort 中的 comparable 和 comparatorcomparator 比较器排序comparable 自然排序 一维数组 线性结构 静态初始化 第一种:int[] a…

[系统运维|Xshell]宿主机无法连接上NAT网络下的虚拟机进行维护?主机ping不通NAT网络下的虚拟机,虚拟机ping的通主机!解决办法

遇到的问题:主机ping不通NAT网络下的虚拟机,虚拟机ping的通主机 服务器:Linux(虚拟机) 主机PC:Windows 虚拟机:vb,vm测试过没问题,vnc没测试不清楚 虚拟机网络&#xff1…

Vue的Router?一个小demo秒了

效果展示 正文 登录页 <template><div><div class"login"><h3>图书管理系统</h3><div class"user"><span>账号&#xff1a;</span><input type"text" v-model"user" /></…

ClickHouse备份方案

ClickHouse备份方案主要包括以下几种方法&#xff1a; 一、使用clickhouse-backup工具&#xff1a; &#xff08;参考地址&#xff1a;https://blog.csdn.net/qq_43510111/article/details/136570850&#xff09; **安装与配置&#xff1a;**首先从GitHub获取clickhouse-bac…

Node.js是什么(基础篇)

前言 Node.js是一个基于Chrome V8 JavaScript引擎的开源、跨平台JavaScript运行时环境&#xff0c;主要用于开发服务器端应用程序。它的特点是非阻塞I/O模型&#xff0c;使其在处理高并发请求时表现出色。 一、Node JS到底是什么 1、Node JS是什么 Node.js不是一种独立的编程…

vue3页面传参

一&#xff0c;用query传参 方法&#xff1a; router.push({path: ‘路由地址’, query: ‘参数’}) 例子&#xff1a;a页面携带参数跳转到b页面并且b页面拿到a页面传递过来的参数 在路由router.ts配置 a页面&#xff1a; <template><div >a页面</div>…

基于YOLOv5的火灾检测系统的设计与实现(PyQT页面+YOLOv5模型+数据集)

基于YOLOv5的火灾检测系统的设计与实现 概述系统架构主要组件代码结构功能描述YOLOv5检测器视频处理器主窗口详细代码说明YOLOv5检测器类视频处理类主窗口类使用说明环境配置运行程序操作步骤检测示例图像检测视频检测实时检测数据集介绍数据集获取数据集规模YOLOv5模型介绍YOL…

测试辅助工具(抓包工具)的使用2 之 抓包工具的基本用法

1.过滤设置: Filters- --- 勾选use Filters- --- 下拉选择show only the following hosts ---- 输入域名或者ip地址(多个地址用;隔开) --- 点击action(Run filterset now) 2.删除数据 方式一:点击Remove all 方式二: 黑窗口输入cls,回车 删除一条数据:选中数据---右键选择Rem…

【硬件开发】共模电感

为什么电源无论直流还是交流的输入端都需要一个共模电感 图中L1就是共模电感&#xff0c;长下面这个样子&#xff0c;两侧的匝数&#xff0c;线径和材料都是一模一样的 共模电感的作用是为了抑制共模信号 抑制共模信号工作原理 http://【共模电感是如何抑制共模信号的】https…

SpringCloud - 微服务

1、微服务介绍 参考&#xff1a; 微服务百度百科 1.1 概念 微服务&#xff08;或称微服务架构&#xff09;是一种云原生架构方法&#xff0c;在单个应用中包含众多松散耦合且可单独部署的小型组件或服务。 这些服务通常拥有自己的技术栈&#xff0c;包括数据库和数据管理模型&…

windows git配置多个账号

window下git多账号配置_百度搜索 (baidu.com) 最重要的是这里生成新的id_rsa文件的时候&#xff0c;bash窗口是在 .ssh路径下 其实就是这个窗口在什么路径下执行的就是生成在什么路径 下面窗口路径不对&#xff0c;不是Desktop&#xff0c;应该是.ssh 如果是Desktop或者任何一…

YOLOv9摄像头或视频实时检测

1、下载yolov9的项目 地址&#xff1a;YOLOv9 2、使用下面代码进行检测 import torch import cv2 from models.experimental import attempt_load from utils.general import non_max_suppression, scale_boxes from utils.plots import plot_one_box# 加载预训练的YOLOv9模型…

CausalMMM:基于因果结构学习的营销组合建模

1. 摘要 在线广告中&#xff0c;营销组合建模&#xff08;Marketing Mix Modeling&#xff0c;MMM&#xff09; 被用于预测广告商家的总商品交易量&#xff08;GMV&#xff09;&#xff0c;并帮助决策者调整各种广告渠道的预算分配。传统的基于回归技术的MMM方法在复杂营销场景…