图数据库 vs 向量数据库

最近大模型出来之后,向量数据库重新翻红,业界和市场上有不少声音认为向量数据库会极大的影响图数据库,图数据库市场会萎缩甚至消失,今天就从技术原理角度来讨论下图数据库和向量数据库到底差别在哪里,适合什么场景,图数据库会不会消失。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

人工智能思路之争

讨论图、向量,大模型之前先简单说下人工智能发展过程中出现的主义之争。人工智能在过去几十年的发展中,出现了好几种思路,也就分为几大学派,或者主义。分别是:

  • 符号主义(symbolicism),又称为逻辑主义、心理学派或计算机学派,主要就是基于逻辑推理的智能模拟方法,对应到人类智能就是认知能力(学习能力、推理能力、专家能力),知识图谱就是源于符号主义。

  • 连接主义(connectionism),又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法,深度神经网络解决的就是感知智能(人类的眼、耳、鼻、舌、身对环境的感知能力),现在的大模型就是连接主义的产物,但同时因为模型参数足够大,从感知智能又突破到了认知智能,甚至未来会走向 AGI(通用人工智能)。

  • 行为主义(actionism),又称为进化主义或控制论学派,其原理为控制论及感知-动作型控制系统,这一派主要搞机器人。比如机器人的操控,要求机器人不光要认知和感知,还要操作和行动。nvidia的黄教主最近就各种场合讲未来是机器人的时代。

图片

这三种主义是思路之争,其实也代表了对人工智能模拟的三个路径。未来可能会走向大一统和融合。

图数据库适合什么场景

图数据库比起传统的信息存储和组织模式,图数据库能够很清晰揭示复杂的模式,尤其在错综复杂的社交,物流,金融风控行业效果更为明显。典型场景有:

  • 社交网络:数十亿关系查询,传统关系型数据库无法胜任低时延,以及超过 3 层好友关系的查询。

  • 推荐引擎:通过用户的兴趣、好友和阅读历史记录等信息之间的关系,向用户提供推荐。典型用在电商、短视频、新零售场景。

  • 网络&IT 运维:基础设备规模庞大,结构复杂,帮助深入了解设备状态,设备之间的关系,实现网络设备智能监控和管理。

  • 金融风控:提供实时的用户行为检测,识别敏感用户,及时识别欺诈风险,错综复杂的人物关系分析,进行用户分群,识别异常群体等。

图片

向量数据库适合什么场景

向量数据库最早解决非结构化数据相似度检索问题。通过把非结构化数据 embedding 成向量,通过向量的相似度检索来实现非结构化数据的相似度搜索。电销场景有:

  • 相似度检索:可以做多模态检索(文本、图片、音频、视频),推荐系统,分类系统等。典型用在

    • 互联网,如电商的推荐。

    • 政企,如公安的图谱搜索

    • 自动驾驶,质检图谱的搜索等

  • 语义检索:利用文本,向量的混合搜索,实现多路召回,再加上reRanker模型实现语义排序。常用于企业的搜索,实现高质量的搜索

  • RAG:大模型活了,搭配大模型使用,把检索结果给到大模型,实现高质量的总结。最常用的是知识库,客服,大模型记忆问答等场景。这块各行各业都在实验和创新的 copilot 就是用到了 RAG 技术。

用一张表格总结如下:

分类

说明

能做什么业务

典型场景和行业

相似度检索

向量传统应用场景,向量检索为主

  • 多模态检索(文本、图片、音频、视频)

  • 推荐系统

  • 分类系统

  • 互联网,电商的推荐

  • 政企,如公安的图片搜索

  • 网盘,自动驾驶里面的图片搜索

语义搜索

文本和向量混合索引

替代 ES 的一些搜索场景

  • 文档,向量混合搜索,多路召回

  • reranker 模型一般有Cohere Rerank(闭源)和BGE-Reranker(开源)

  • 企业搜索,行业不限

RAG

搭配大模型使用,检索结果给大模型总结

  • 知识库

  • 客服

  • 大模型记忆问答

  • 各种copilot,行业不限

图片

两者对比

图数据库擅长推理能力,但是图实体模型建立本身门槛高,需要大量专业人员。向量数据库人工介入较少,但是结果准确度就差一些,各有各合适空间。下面是两者的对比:

向量数据库+大模型

图数据库+知识图谱

性能

数据量大,性能更好

数据量大,性能受挑战

复杂问题

复杂问题,查询结果不一定完整

复杂问题,可以取得更可靠的内容

建模难度

适合处理非结构化数据,文本转换成高维向量

实体关系建模,构建知识图谱

建模工作难度和工作量很大

适合场景

智能推荐系统:找出相似的,不需要精确

决策支持系统,需要梳理特定关系,保证逻辑关系正确性

因此我们可以看出,向量和知识图谱还是有各自适合的范围。

选型考虑条件

如果一个业务到底要选型向量还是知识图谱,就要从多个维度去考虑,下面是建议参考和选型的维度:

向量数据库

知识图谱

问题复杂度

非结构化,无复杂关系的选向量

大量相互关联知识实体

使用场景

简单相似度搜索,用向量数据库

基于实体关系的,复杂推理

数据量考量

扩展性高,数据量大

数据增长,关系复杂,维护难度会变高

团队能力

人力缺乏,选向量

事件建模,开发,算法技能

未来趋势

目前市面上看到各个厂家都在纷纷探索向量+图的融合演进,可见的未来,大概率两者会取各自长处,进行融合解决更复杂的问题。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/753211.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

昇思25天学习打卡营第3天|数据集全攻略:加载、操作与自定义

导入数据集相关库和类 首先,导入了 NumPy 库,并将其简称为 np 。要知道,NumPy 乃是用于科学计算的关键库,作用非凡。接着,从 mindspore.dataset 当中导入了 vision 模块。此外,还从 mindspore.dataset 里引…

C++使用Poco库封装一个HTTP客户端类

0x00 前言 我们在使用HTTP协议获取接口数据时,通常需要在Header和Query中添加参数,还有一种就是在Body中追加XML或者JSON格式的数据。本文主要讲述使用Poco库提交HTTP Post请求的Body中附加XML格式的数据,JSON格式的数据类似。 0x01 HttpCl…

禹神electron学习~

最近时间比较富裕 咱们浅浅来学习下electron 视频在这禹神:一小时快速上手Electron,前端Electron开发教程_哔哩哔哩_bilibili 先看下流程模型 先决条件 首先第一步 查看你的node和npm版本 创建你的应用 创建一个文件夹 我创建的名称为my-electron-…

人工智能期末复习思维导图,参考人工智能及其应用(第6版)和柴玉梅老师教材

其中第一、六、七、八、九章不用重点看,计算题一般会考1.语义网络、谓词逻辑,2.可信度,3.主观贝叶斯,4.一般合一置换,5.证据理论,6.盲目搜索。 第一章:绪论 第二章:知识表示方法 第…

MQ - RabbitMQ、SpringAMQP --学习笔记

什么是MQ? MQ 是消息队列(Message Queue)的缩写,它是一种应用程序间异步通信的技术。消息队列允许应用程序或服务间通过发送消息来交换数据,而不是直接调用对方,从而实现解耦、异步处理和负载均衡等目的。…

无需高配置 怎么获得超流畅的VR体验?

传统VR眼镜在使用中存在一些显著不足,而实时渲染技术又是如何解决的?接下来与大家共同探讨遇到的问题以及实时渲染在VR眼镜中的实际应用。 1、高配置要求 目前主流VR一体机的眼镜需要较高配置才能运行普通VR内容,且受限于VR眼镜的算力限制&…

工作纪实51-手撸AB实验分流策略

前几天写了一篇关于哈希算法的文章,起源就是在构思AB实验平台的时候,用到了哈希,所以对其做了深入的了解 AB实验平台是一般互联网做策略、样式实验会用到的一个系统,一般开启某个实验之后,需要对线上流量进行分流&…

太速科技-FMC144 -八路 250MSPS 14bit AD FMC子卡

FMC144 -八路 250MSPS 14bit AD FMC子卡 一、板卡概述   FMC144是一款具有8通道模数转换器(ADC)的FMC卡,具有14bit分辨率,最大采样速率达250Msps。时钟配置芯片为AD9516-1,可由板载10MHz时钟提供参考,也可…

[游戏开发][UE5]引擎学习记录

C Log和蓝图Log C Log 方法 UE_Log(参数1,参数2,参数3) //举例: UE_LOG(LogTemp, Error, TEXT("Log Info: %s"),"Test Log"); 三个参数的作用 参数1:输出窗口归类使用,你写什么它就显示什么 参数2&#x…

node.js安装

下载地址 https://nodejs.org/en/download 安装教程

Stable Diffusion初体验——提示词指南

前言 Stable Diffusion是一种深度学习模型,它能够根据提示词生成高质量的图像。在Stable Diffusion模型中,提示词起着至关重要的作用,因为它们为模型提供了关于所需输出的指导。本文将探讨Stable Diffusion关于提示词的原理,包括…

k8s集群node节点加入失败

出现这种情况: [preflight] FYI: You can look at this config file with kubectl -n kube-system get cm kubeadm-config -o yaml [kubelet-start] Writing kubelet configuration to file "/var/lib/kubelet/config.yaml" [kubelet-start] Writing kub…

计算机网络——数据链路层(数据链路层概述及基本问题)

链路、数据链路和帧的概念 数据链路层在物理层提供服务的基础上向网络层提供服务,其主要作用是加强物理层传输原始比特流的功能,将物理层提供的可能出错的物理连接改造为逻辑上无差错的数据链路,使之对网络层表现为一条无差错的链路。 链路(…

sheng的学习笔记-AI-K均值算法

ai目录:sheng的学习笔记-AI目录-CSDN博客 需要学习前置知识:聚类,可参考 sheng的学习笔记-聚类(Clustering)-CSDN博客 目录 什么是k均值算法 流程 伪代码 数据集 伪代码 代码解释 划分示意图 优化目标 随机初始化 选择聚类数…

酣客的“FFC模式”|白酒商业模式|分润制度顶层架构设计

酣客公社摒弃传统商业模式,提出“心联网”及“FFC模式”的商业模式。 坐标:厦门,我是肖琳 深耕社交新零售行业10年,主要提供新零售系统工具及顶层商业模式设计、全案策划运营陪跑等。 今天和大家分享“酣客”的营销模式&#xff…

Parallels Toolbox for mac(pd工具箱) 6.0.2激活版

Parallels Toolbox 是由 Parallels 公司开发的一款实用工具集合软件,它主要面向使用 Parallels Desktop 的用户,提供了许多方便用户在 macOS 和 Windows 之间进行切换和管理的工具。Parallels Desktop 是一款流行的虚拟化软件,允许用户在 mac…

【24医学顶刊】GANDALF:主动学习 + 图注意力变换器 + 变分自编码器,改善多标签图像分类

GANDALF:主动学习 图注意力变换器 变分自编码器,改善多标签图像分类 提出背景子解法1:多标签信息样本的选择子解法2:生成信息丰富且非冗余的合成样本 例子:胸部X射线图像分析传统方法的操作和局限GaNDLF方法的优势 工…

理解ABP的领域驱动设计

大家好,我是张飞洪,感谢您的阅读,我会不定期和你分享学习心得,希望我的文章能成为你成长路上的垫脚石,让我们一起精进。 关于玩转ABP框架相关的文章,之前在博客园陆续写了《ABP vNext系列文章和视频》&…

电路仿真王者之争:SmartEDA如何领跑业界,打破传统仿真软件格局?

在电子设计领域,电路仿真软件一直扮演着至关重要的角色。它们为工程师们提供了一个虚拟的实验室,可以在不耗费大量实际资源的情况下,进行电路设计、优化和测试。在众多电路仿真软件中,SmartEDA以其独特的优势,逐渐崭露…

嵌入式开发十九:SysTick—系统定时器

在前面实验中我们使用到的延时都是通过SysTick进行延时的。 我们知道,延时有两种方式:软件延时,即CPU 循环等待产生的,这个延时是不精确的。第二种就是滴答定时器延时,本篇博客就来介绍 STM32F4 内部 SysTick 系统定时…