科技云报道:向量数据库:AI时代的下一个热点

科技云报道原创。

最近,又一个概念火了——向量数据库。

随着大模型带来的应用需求提升,4月以来多家海外知名向量数据库创业企业传出融资喜讯。

4月28日,向量数据库平台Pinecone宣布获得1亿美元(约7亿元)B轮融资;

4月22日,向量数据库平台Weaviate宣布获得5000万美元(约3.5亿元)B轮融资;

4月6日Chroma获1800万美元种子轮融资;

4月19日Qdrant获750万美元种子轮融资。

国内方面,星环科技、北交所云创数据等公司的股价连续异动,其中云创数据自底部以来股价已接近翻倍。

7月4日,腾讯云正式发布向量数据库Tencent Cloud VectorDB,预计8月上线腾讯云官网。

一连串的市场动作,都展示了向量数据库的爆红。那么,什么是向量数据库,到底有啥用?
在这里插入图片描述

什么是向量数据库?

当你在网上看到一张壁纸,你想知道这是哪个国家的美景,却不知道如何搜索;或者,在阅读一篇文章时,你想深入了解这个话题,寻找更多的观点和资料,却不知道该如何精确描述。

这时,你需要的是一个能够理解你的意图,为你提供最相关的结果,让你轻松找到你想要的信息的工具。

这就是向量数据库(Vector Data Base),它就像一个超级大脑,帮助你解决这些问题。

所谓向量数据库,是一种专门用于存储、 管理、查询、检索向量的数据库,可以把复杂的非结构化数据通过向量化,处理统一成多维空间里的坐标值。

目前,向量数据库主要应用于人工智能、机器学习、数据挖掘等领域。

具体来看,向量数据库被广泛地用于大模型训练、推理和知识库补充等场景:

●支撑训练阶段海量数据的分类、去重和清洗,给大模型的训练降本增效;

●通过新数据的带入,帮助大模型提升处理新问题的能力,突破预训练带来的知识时间限制,避免大模型出现幻觉;

●提供一种私有数据连接大模型的方式,解决私有数据注入大模型带来的安全和隐私问题,加速大模型在产业落地。

简而言之,向量数据库可以解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题,突破大模型在时间和空间上的限制,加速大模型落地行业场景。

向量数据库的发展

在向量数据库出现之前,大家普遍使用的是关系型数据库,如MySQL、Oracle等,这些数据库以表格的形式存储数据,适合存储结构化数据。但对于非结构化数据,如文本、图像、音频等,处理起来就相对困难。

此外,关系型数据库在处理大规模数据时,性能会下降,不适合大数据处理。这就像是在一个拥挤的图书馆里找一本书,你知道它在哪个书架上,但是找到它还需要花费大量的时间。

而向量数据库和传统数据库的不同点在于,向量数据库处理的是各种AI应用产生的非结构化数据,通过近似查进行模糊匹配,输出的是概率上的提供相对最符合条件的答案,而非精确的标准答案。

举例来说,传统数据库做图片检索可能是通过关键词去搜索,向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论是向量之间的距离越接近,就说明语意越接近,效果也有最相似。

随着时间的推移,向量数据库开始在不同的领域和应用中不断成长和进化。从20世纪90年代末到2000年初,美国国立卫生研究院和斯坦福大学都开始使用向量数据库。

2005年到2015年间,随着基因研究的深入和加速,向量数据库也在并行中增长,像UniVec 数据库这样的工具在2017年就已经被广泛使用,它们在基因序列比对、基因组注释等领域发挥了重要作用。

2017年和2019年之间,向量数据库开始爆炸式增长,它被应用于自然语言处理、计算机视觉、推荐系统等领域。这些领域都需要处理大量和多样化的数据,并从中提取有价值的信息。

向量数据库通过使用诸如余弦相似度、欧氏距离、Jaccard 相似度等度量方法,以及诸如倒排索引、局部敏感哈希、乘积量化等索引技术,实现了高效和准确的向量检索。

目前各大厂商使用的推荐系统、以图搜图、哼唱搜歌、问答机器人等应用,其内核都是向量数据库。

在今年,向量数据库开始被用于与大语言模型结合的应用。

它为大语言模型提供了一个外部知识库,使得大语言模型可以根据用户的查询,在向量数据库中检索相关的数据,并根据数据的内容和语义来更新上下文,从而生成更相关和准确的文本。

这些大语言模型通常使用深度神经网络来学习文本数据中隐含的规律和结构,并能够生成流畅和连贯的文本。

向量数据库 过使用诸如BERT、GPT等预训练模型将文本转换为向量,并使用诸如FAISS、Milvus等开源平台来构建和管理向量数据库。

总体而言,向量数据库成功地解决了很多挑战,并为人们带来了很多价值。

针对传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域,向量数据库通过数据的向量化来满足特定需求,尤其适用于人工智能领域。

让行业大模型具备know how能力

随着AI大模型的崛起,向量数据库的爆红也就不难理解。

一是,在现实世界里,非结构化数据是“主流”。根据Gartner的数据,非结构化数据占企业生成的新数据比例高达90%,并且增长速度比结构化数据快三倍。

而生成式AI大模型进一步带来了非结构化数据的暴增,也相应推动了对向量数据库的需求。

向量数据库的一大优势在于,能够通过机器学习方法处理和理解来自不同源的多种模态信息,如文本、图像、音频和视频等。

二是,越来越多的大模型从业者认为,所有的行业都值得被AI重新做一遍。

因此,建立在不同行业的垂直大模型,成为大家的切入点,而向量数据库是行业大模型具备“行业knowhow”能力的必经之路。

这背后是,AI大模型的产生,需要经历大量反复的训练和调试。虽然通用AI大模型能回答一般性问题,但在垂直领域服务中,其知识深度、准确度和时效性有限。

而利用向量数据库结合大模型和自有知识资产,可以构建垂直领域的AI能力。向量数据库存储和处理向量数据,提供高效的相似度搜索和检索功能。

正如东北证券观点,AI化的本质则是向量化,向量化计算成本高昂,海量的高维向量势必需要专门的数据库进行存储和处理,向量数据库应运而生。

向量数据库在拓展AI全新应用场景的同时,也将对传统数据库产品形成替代,进而成为AI时代的Killer App。

目前,向量数据库是一个亟待引爆的蓝海市场。

据公开资料显示,向量数据库市场空间巨大,尚处于从0-1阶段,预测到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超过600亿人民币。

未来随着生成式AI大模型开发量和使用量的增长,向量数据库的应用有望快速增长。

而国内外众多玩家如传统数据库厂商、初创数据库厂商、云厂商、跨界厂商等都已跃跃欲试,提前开始布局向量数据库,做好了应对AI大模型时代的准备。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/63724.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

尚品汇总结七:商品详情模块(面试专用)

一、业务介绍 订单业务在整个电商平台中处于核心位置,也是比较复杂的一块业务。是把“物”变为“钱”的一个中转站。 整个订单模块一共分四部分组成: 结算页面 在购物车列表页面中,有一个结算的按钮,用户一点击这个按钮时,跳转到结算页,结算页展示了用…

ROS实现机器人移动

开源项目 使用是github上六合机器人工坊的项目。 https://github.com/6-robot/wpr_simulation.git 机器人运动模型 运动模型如下所示:👇 机器人运动的消息包: 实现思路:👇   为什么要使用/cmd_vel话题。因为这…

2023应急指挥系统总体架构方案 PPT

导读:原文《应急指挥系统总体架构方案PPT》(获取来源见文尾),本文精选其中精华及架构部分,逻辑清晰、内容完整,为快速形成售前方案提供参考。 完整版领取方式 完整版领取方式: 如需获取完整的电…

【JMeter】 使用Synchronizing Timer设置请求集合点,实现绝对并发

目录 布局设置说明 Number of Simulated Users to Group Timeout in milliseconds 使用时需要注意的点 集合点作用域 实际运行 资料获取方法 布局设置说明 参数说明: Number of Simulated Users to Group 每次释放的线程数量。如果设置为0,等同…

AssetBundle学习

官方文档:AssetBundle 工作流程 - Unity 手册 (unity3d.com) 之前写的博客:AssetBundle学习_zaizai1007的博客-CSDN博客 使用流程图: 1,指定资源的AssetBundle属性 (xxxa/xxx)这里xxxa会生成目录&…

Gof23设计模式之组合模式

1.定义 ​组合模式又名部分整体模式,是用于把一组相似的对象当作一个单一的对象。组合模式依据树形结构来组合对象,用来表示部分以及整体层次。这种类型的设计模式属于结构型模式,它创建了对象组的树形结构。 2.结构 组合模式主要包含三种…

【前端实习生备战秋招】—HTML 和 CSS面试题总结(一)

【前端实习生备战秋招】—HTML 和 CSS面试题总结(一) 1. 你做的页面在哪些流览器测试过?这些浏览器的内核分别是什么? IE:trident内核 Firefox:gecko内核 Safari:webkit内核 Opera:以前是presto内核,Opera现已改用Goo…

Java项目作业~ 创建基于Maven的Java项目,连接数据库,实现对站点信息的管理,即实现对站点的新增,修改,删除,查询操作

需求: 创建基于Maven的Java项目,连接数据库,实现对站点信息的管理,即实现对站点的新增,修改,删除,查询操作。 以下是站点表的建表语句: CREATE TABLE websites (id int(11) NOT N…

element-ui分页编辑器的使用

代码: 准备好初始数据; total: ,page: {pageSize: 1,pageNumber: 10,}, 当前显示在第一页,每页10条数据。 一,页码改变的事件 handleCurrentChange(val) { this.page.pageSizeval 通过传入(this.page) 获取当前页的数据 } 二.页容量改变 handleSizeChange(val) …

c++游戏制作指南(三):c++剧情类文字游戏的制作

🍿*★,*:.☆( ̄▽ ̄)/$:*.★* 🍿 🍟欢迎来到静渊隐者的csdn博文,本文是c游戏制作指南的一部🍟 🍕更多文章请点击下方链接🍕 🍨 c游戏制作指南&#x1f3…

Java基础入门篇——IDEA开发第一个入门程序(五)

一、IDEA层级结构分类 IntelliJ IDEA的项目结构主要分为以下几个层级: Project: 项目Module: 模块Package: 包Class: 类 一个项目里面可以有多个模块,一个模块里面又可以有多个包,而每个包又可以存放多个类文件。比…

Eclipse如何自动添加作者、日期等注释

一、创建类时自动添加注释 1、Window->Preferences 2、Java->Code Syle->Code Templates->Code->New Java files->Edit->要添加的注释->Apply 二、选中要添加的类或者方法通过AltShiftJ快捷键添加 1、Window->Preferences 2、Java->Code Syle…

第四章 kernel函数基础篇

cuda教程目录 第一章 指针篇 第二章 CUDA原理篇 第三章 CUDA编译器环境配置篇 第四章 kernel函数基础篇 第五章 kernel索引(index)篇 第六章 kenel矩阵计算实战篇 第七章 kenel实战强化篇 第八章 CUDA内存应用与性能优化篇 第九章 CUDA原子(atomic)实战篇 第十章 CUDA流(strea…

ubuntu 暂时不能解析域名 解决办法

需要修改系统DNS 打开终端:输入 sudo vi /etc/resolv.conf 回车 在打开的配置文件中添加DNS信息 nameserver 114.114.114.114 nameserver 8.8.8.8 保存退出,重启系统即可。

腾讯云-宝塔添加MySQL数据库

1. 数据库菜单 2. 添加数据库 3. 数据库添加成功 4. 上传数据库文件 5. 导入数据库文件 6. 开启数据库权限 7. 添加安全组 (宝塔/腾讯云) 8. Navicat 连接成功

Linux jq 命令讲解与实战操作(json字符串解析工具)

文章目录 一、概述二、jq 命令安装三、jq 命令语法与示例详解1)基本用法2)常用选项3)查询和过滤1、选择字段2、过滤3、遍历数组4、组合操作 4)修改和创建1、修改字段值:2、创建新字段:3、组合操作&#xff…

C#,OpenCV开发指南(01)

C#,OpenCV开发指南(01) 一、OpenCV的安装1、需要安装两个拓展包:OpenCvSharp4和OpenCvSharp4.runtime.win 二、C#使用OpenCV的一些代码1、需要加头文件2、读取图片3、在图片上画矩形框4、 在图片上画直线 一、OpenCV的安装 1、需…

【FIFO IP系列】FIFO IP参数配置与使用示例

Vivado IP核提供了强大的FIFO生成器,可以通过图形化配置快速生成FIFO IP核。 本文将详细介绍如何在Vivado中配置一个FIFO IP核,以及如何调用这个FIFO IP核。 一、FIFO IP核的配置 1、新建FIFO IP 在Vivado的IP Catalog中找到FIFO Generator IP核,双击…

Node.js |(一)Node.js简介及计算机基础 | 尚硅谷2023版Node.js零基础视频教程

学习视频:尚硅谷2023版Node.js零基础视频教程,nodejs新手到高手 文章目录 📚关于Node.js🐇为什么要学Node.js🐇Node.js是什么🐇Node.js的作用🐇Node.js下载安装🐇命令行工具&#x1…

项目优化后续 ,手撸一个精简版VUE项目框架!

之前说过项目之前用的vben框架,在优化完性能后打包效果由原来的纯代码96M变成了56M,后续来啦,通过更换框架,代码压缩到了36M撒花~ 现在就来详细说说是怎么手撸一个框架的! 方案: 搭建一套 vite vue3 a…