图数据库 2 | 大数据的演进和数据库的进阶——从数据到大数据、快数据,再到深数据

时至今日,大数据已无处不在,所有行业都在经受大数据的洗礼。但同时我们也发现,不同于传统关系型数据库的表模型,现实世界是非常丰富、高维且相互关联的。此外,我们一旦理解了大数据的演进历程以及对数据库进阶的强需求,就会真正理解为什么“图”无处不在,以及为什么它会具有可持续的竞争优势,并最终成为新一代主流数据库标准。

大数据的发展方兴未艾。我们通常把大数据元年定为2012年,但是大数据相关技术的出现远早于2012年。例如Apache Hadoop是由Yahoo!在2006年发布并捐赠给Apache基金会的,而Hadoop这个项目肇始则是受到了谷歌2003年的GFS(Google File System,谷歌文件系统)与2004年的MapReduce两篇论文的启发。如果我们再往前追溯,那么GFS与MapReduce之所以能出现是因为谷歌的互联网搜索引擎业务的发展,而其搜索引擎最核心的技术大概要属PageRank算法了。以谷歌联合创始人Larry Page名字命名(且与Web Page一语双关)的PageRank算法是一种典型的图算法。很显然,我们回到了终点,它同时还是起点——大数据技术的发展竟然源自一种图计算技术,而它的发展趋势也伴随着图计算技术的全面发展——从大数据到快数据,最终到深数据(图数据)​。

从宏观来看,大数据的发展史基本上就是数据科技(Data Technology)的发展史,纵观过去近半个世纪的发展历程,大体可以分为三个阶段:

1)以关系型数据库为核心的传统数据库时代(1975年至今)​。

2)以非关系型数据库框架涌现为代表的时代(2010年至今)​。

3)超越关系或非关系型数据库的新时代——后关系型数据库时代(2015年后)​。

这三个阶段都产生了用于高效进行数据库、数据仓库查询与计算的查询语言,对应关系如下:

·关系型数据库:SQL。

·非关系型数据库:NoSQL。

·后关系型数据库时代:NewSQL、GQL……

如果按每个阶段所对应的数据特征和维度来衡量,可以这样解读图1-19:

·关系型数据库=数据、前大数据时代

·非关系型数据库=大数据、快数据时代

·后关系型数据库时代=深数据、图数据时代

图1-19 大数据发展史

 

显然,每一代都是对前一代的超越。当我们说大数据的时候,它包含了数据时代的特征,但是又出现了IBM提出的被业界广泛传播的)4V特性,即Volume(规模)​、Variety(多样性)​、Velocity(时效性、速度)和Veracity(真实性)​。

在深数据时代,在4V基础上还要加上“深度关联关系”​(Deep penetration and correlation)这一条,可以总结为:4V+D

为什么我们会这么在意数据之间的关联关系,而且是深度关联关系呢?有两个维度可以很好地解释各行各业遇到的挑战。

·商业维度:关联关系=商业价值;

·技术维度:传统数据库<>关联发现的能力。

随着大数据的发展,越来越多维度的数据被采集,而越来越多的商用场景需要分析这些多维的数据,例如反洗钱、反欺诈这类的风控场景,以及智能推荐、营销、用户行为模式分析的场景,只有将数据以网络的方式组合起来并深度分析它们之间的关联关系,我们才能摆脱之前传统数据库算力缺失的束缚——传统架构无法通过多表关联来快速发现实体之间的深层关联关系

还以上面提到的Hadoop为例,在Yahoo!内部孵化Hadoop项目的2004—2006年间,并行于Hadoop还有其他的海量数据处理项目,在2004年的时候,Yahoo!仍旧拥有世界上最大的服务器集群,有数万台Apache Web服务器,每天生产的海量Web日志需要被分析处理。有趣的是,从分布式系统的处理能力(数据吞吐率、操作延时、功能性等)上来看,Hadoop较其他系统而言并没有优势(需要澄清的一点是,Hadoop创立伊始的目标就是用一堆廉价、低配置的机器来分布式地处理数据,它从来不是高效的,很多所谓的分布式系统都缺乏高效、及时处理数据的能力)​,这直接导致了Yahoo!在2006年初决定把在内部找不到出路的Hadoop项目捐献给Apache基金会开源社区。这件事情告诉我们,一个有内在生命力、高性能、能创造巨大商业价值的系统,几乎是不会被开源的。当然,从另一个维度来分析,Hadoop解决了数据量与数据多样性存储和分析的问题,尤其对低配置机器的集群化利用,是Hadoop最大的优势,但是它在数据的处理速度和深度方面则极度欠缺。

2014年,Apache Spark横空出世,很显然Spark背后的加州大学Berkeley分校的开发团队对于业界广为诟病的Hadoop性能问题颇有心得,在分布式系统处理性能上,通过内存加速的Spark可以达到Hadoop的100倍,Spark还集成了GraphX等组件来实现一些图分析能力,例如PageRank(网页排序)​、Connected Component(连通子图)​、TriangleCounting(三角形计算)等。Spark相对于Hadoop框架而言,在速度上有很大进步,特别是对浅层的图计算与分析颇有意义。然而Spark过于学院派的设计思路导致系统不可以实时更新,也就是说不善于处理动态、实时变化的数据集,这样就限定了它只能作为一款仅具有离线分析能力的OLAP系统。距离我们所说的实时、动态、深数据处理的终极目标仍有很大的差距。

所谓深数据,就是在最短时间内通过挖掘多层、多维数据间的关联关系,挖掘出数据间所蕴藏的价值。特别是在这个数据互联的时代,可以以一种通用的方式实现深数据关联分析与计算的平台就是笔者一直强调的主角——图数据库在不同的场景下,我们也称其为图分析系统、图中台、图计算引擎等

所有的这些其实都是指一件事——按照图论的方式构造关联数据所形成的高维网络,并在其上进行计算与分析。例如鲁汶(Louvain)社区识别算法在实时图数据库上运行后,隶属于不同社区的实体间所构成的社区通过3D可视化的方式直观地呈现在我们面前,如图1-20所示。你无法从其他类型的NoSQL、大数据框架或关系型数据库中找到类似的实时、深度数据关联的解决办法,即便存在,那个方法的代价肯定不小,而且不会以一种通用化的方式完成。

也就是说,每当业务诉求改变的时候,就需要大幅调整底层架构来支撑,这种模式如何能够有长久的生命力呢?键值存储、列数据库、Hadoop分布式计算或Spark集群计算、MongoDB文档数据库在处理数据关联问题上都是不完善的。正是以上提到的这些瓶颈和挑战,才使图数据库得以诞生并蓬勃发展。

图1-20 通过鲁汶社区识别算法实现的客群识别可视化

·  END · 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/908382.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java版询价采购系统 招投标询价竞标投标系统 招投标公告系统源码

在数字化时代,企业需要借助先进的数字化技术来提高工程管理效率和质量。招投标管理系统作为企业内部业务项目管理的重要应用平台,涵盖了门户管理、立项管理、采购项目管理、采购公告管理、考核管理、报表管理、评审管理、企业管理、采购管理和系统管理等…

golang通用后台管理系统02(RSA加密解密,登录密码加密解密)

参考:https://blog.csdn.net/lady_killer9/article/details/118026802 1.加密解密工具类PasswordUtil.go package utilimport ("crypto/rand""crypto/rsa""crypto/x509""encoding/pem""fmt""log"&qu…

性能小钢炮,核显玩3A,最值得买的 8745HS 迷你主机『零刻SER8』,2099的价格是真的香

性能小钢炮,核显玩3A,最值得买的 8745HS 迷你主机『零刻SER8』,2099的价格是真的香 哈喽小伙伴们好,我是Stark-C~ 前一个多月的时候我评测了零刻最新最强大的迷你主机『零刻 SER9』的时候,评论区很多小伙伴都说贵。 …

采购退料单集成方案:从旺店通到金蝶云的API实现

14-采购退料单集成方案:旺店通旗舰奇门数据集成到金蝶云星空 在企业的供应链管理中,采购退料单的高效处理至关重要。为了实现这一目标,我们采用了轻易云数据集成平台,将旺店通旗舰奇门的数据无缝对接到金蝶云星空。本次分享的案例…

Java设计模式(代理模式整理中ing)

一、代理模式 1、代理模式定义: 代理模式:由于某些原因要给某对象提供一个代理以控制对该对象的访问,这时访问对象不适合或者不能够直接引用目标对象,代理对象作为访问对象与目标对象之间的中介进行连接调控调用。 2、代理模式的…

大模型的常用指令格式 --> ShareGPT 和 Alpaca (以 llama-factory 里的设置为例)

ShareGPT 格式 提出背景:ShareGPT 格式起初来自于用户在社交平台上分享与聊天模型的对话记录,这些记录涵盖了丰富的多轮对话内容。研究者们意识到,这类真实的对话数据可以帮助模型更好地学习多轮对话的上下文保持、回应生成等能力。因此&…

AI问答:Google Authenticator(谷歌动态口令) / 设置及操作过程记录

Google Authenticator,即谷歌身份验证器,是谷歌推出的一款基于时间的一次性密码(Time-based One-time Password,简称TOTP)验证工具。以下是关于Google Authenticator验证的详细解释。 一、工作原理 Google Authentic…

PD虚拟机问题:“无法连接到 Parallels 服务” 解决方法

在使用Parallels Desktop 虚拟机的时候,启动时出现以下错误消息: a. Parallels Desktop 无法启动 b. 无法连接至 Parallels服务 c. 在该虚拟机中没有安装操作系统 遇到以上3种问题怎么解决呢?可能的原因如下: 过时的 macO…

干掉复杂的工具类,Hutool 工具库确实香!

Hutool 是一个超全的 Java 工具库,深受国内开发者的喜爱。目前确实是成为了国内使用最广的工具库之一了, Gitee 上的 Star 数也到了 23k 。最近新版本有所改动,这里分享一下最新版本的介绍。 一、Hutool简介 Hutool 真心是一个不错的国产 J…

Rust 力扣 - 2461. 长度为 K 子数组中的最大和

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 我们遍历长度为k的窗口,用一个哈希表记录窗口内的所有元素(用来对窗口内元素去重),我们取哈希表中元素数量等于k的窗口总和的最大值 题解代码 use std::collecti…

LeetCode 684.冗余连接:拓扑排序+哈希表(O(n)) 或 并查集(O(nlog n)-O(nα(n)))

【LetMeFly】684.冗余连接:拓扑排序哈希表(O(n)) 或 并查集(O(nlog n)-O(nα(n))) 力扣题目链接:https://leetcode.cn/problems/redundant-connection/ 树可以看成是一个连通且 无环 的 无向 图。 给定往…

数字IC后端实现之Innovus Place跑完density爆涨案例分析

下图所示为咱们社区a7core后端训练营学员的floorplan。 数字IC后端实现 | Innovus各个阶段常用命令汇总 该学员跑placement前density是59.467%,但跑完place后density飙升到87.68%。 仔细查看place过程中的log就可以发现Density一路飙升! 数字IC后端物…

项目管理软件:5款甘特图工具测评

在项目管理中,甘特图作为一种直观且高效的任务进度展示工具,被广泛应用于各个行业。以下是几款功能强大、易于使用的甘特图工具,它们能够帮助项目经理更好地规划、跟踪和管理项目进度。 1、进度猫 进度猫是国内项目管理新秀,是…

MYSQL 真实高并发下的死锁

https://pan.baidu.com/s/1nM3VQdbkNZhnK-wWboEYxA?pwdvwu6 下面是风控更新语句 ------------------------ LATEST DETECTED DEADLOCK ------------------------ 2023-08-04 01:00:10 140188779017984 *** (1) TRANSACTION: TRANSACTION 895271870, ACTIVE 0 sec starting …

CTFshow之信息收集第11关到20关。详细讲解

得而不惜就该 --小阁老 新篇章的接续! 一、实验准备 1、ctf网站:ctf.show 2、工具:chrome浏览器、hackbar插件 3、burpsuite抓包工具 二、实验技巧 (一)域名与子域名的dns解析记录 (二&#xff09…

【论文复现】语言模型中的多模态链式推理

📕作者简介:热爱跑步的恒川,致力于C/C、Java、Python等多编程语言,热爱跑步,喜爱音乐、摄影的一位博主。 📗本文收录于论文复现系列,大家有兴趣的可以看一看 📘相关专栏C语言初阶、C…

Docker:网络 Network

Docker:网络 Network Docker 网络架构CNMLibnetwork驱动网络类型 命令docker network lsdocker network inspectdocker network createdocker network connectdocker network disconnectdocker network prunedocker network rm 网络操作bridgehostcontainernone Doc…

局部敏感哈希(LSH)简介

0. Intro \textbf{0. Intro} 0. Intro 1️⃣ LSH \text{LSH} LSH的优势:在 λ \lambda{} λ较大的度量空间,也可以高效回答 c-ANN \text{c-ANN} c-ANN查询问题 2️⃣一些预备知识 多重集并集 (multi-set union): \text{(multi-set union): } (multi-set…

论文 | Evaluating the Robustness of Discrete Prompts

论文《Evaluating the Robustness of Discrete Prompts》深入探讨了离散提示(Discrete Prompts)的鲁棒性,即离散提示在自然语言处理任务中面对不同扰动时的表现。研究特别关注离散提示在自然语言推理(NLI)任务中的表现…

Linux 之 信号概念、进程、进程间通信、线程、线程同步

学习任务: 1、 信号:信号的分类、进程对信号的处理、向进程发送信号、信号掩码 2、 进程:进程与程序的概念、进程的内存布局、进程的虚拟地址空间、fork创建子进程、wait监视子进程 3、 学习进程间通信(管道和FIFO、信号、消息队列…