当数据成为关键生产要素,许多企业开始面临利用海量数据辅助企业复杂决策的现实难题。而在数据爆发式增长,关联复杂度激增的趋势下,图数据库成为企业加工关联数据、挖掘隐藏价值、智能决策升级的关键技术之一,在全球范围内开始被使用。因此,如何越来越多的人开始关注图技术的价值和应用。
无论是数据分析师、数据库管理人员还是应用开发人员,只要你从事大数据相关职业,充分利用互联数据,建立完整的图关联分析方法论都将成为你的关键技能,更好地提升工作效率,拓宽能力边界!
所以,继续往下看吧,本文讲为你详细讲解什么是图数据库。
什么是图数据库
图是一种用以描述现实世界中个体与个体之间网络关系的数据结构,而图数据库起源于图论,是一个基于图结构进行语义操作的在线数据管理系统,使用顶点(vertex)、边(edge)来表示和存储数据,并支持数据的增删改查操作。
与传统的关系型数据库(RDBMS)不同,图数据库直接存储实体关系,在做关联查询时不必像关系型数据库那样借助外键(foreign key)进行昂贵耗时的JOIN操作。和传统表结构存储模型相比,图数据库这种存储方式更加自然,专注于对象之间的关联关系,是对客观世界的直观表达。
下图用Galaxybase图数据库表示导演、电影、演员、电影类型等各类实体之间的关联关系,例如导演冯小刚导演了甲方乙方、天下无贼两部电影,在电影点上存有类型、上映时间、票房等属性,在演员点上存有出生日期、籍贯、片酬等属性。
简单理解图数据库工作原理
区别于其它数据库管理系统,关系在图数据库中具备第一优先级,甚至比数据本身更重要。这种设计原理使得关系在数据全生命周期内都持久化:从业务构思到逻辑模型设计→物理模型中的实现→使用查询语言的操作→在可扩展的图数据库系统中持久化。这意味着基于图数据库构建的应用程序不必使用外键或创建索引的方式来推理数据连接关系。
因此,与使用关系型数据库或NoSQL数据库存储生成的数据模型相比,图数据库模型更加简单直观并富有表现力,契合大脑对现实世界的理解方式。
图数据库技术特点
与市面上各类数据库管理系统一样,图数据库也具备其独特技术路线,下文为其中最重要的两项属性:
- 原生图存储
图数据库根据底层存储实现的不同,可分为原生和非原生两种。如下图所示,原生图存储的图数据库,其数据存储模式专门为存储和处理图而设计优化,可支持各类图算法的快速遍历,是保证图数据库完整性和性能优异的基础。它将现实世界的实体和关系提取为数据,以图结构直接存储在底层,并根据业务场景,将存储数据直接映射至所需的图数据模型。这样的存储方式,数据层和处理层数据结构上下一致,无需经过二次转换,使得应用程序的开发变得十分直观和高效。
非原生图存储的图数据库,在数据层采用关系型、文档型、多模数据库等进行数据存储,在处理层构建多表之间的索引,在业务层以图的呈现方式模拟图功能。此类图数据库的内核设计方案无需对数据层与处理层进行重构,只需在业务接口层构建图语义即可赋能一些简单的图应用。优点在于当面对数据量较小的场景时,数据表间关系简单,解决方案的开发成本会很低。但面对数据量庞大、关联关系复杂的场景,数据表之间存在大量全局索引,将造成额外的开销,导致查询效率极大下降,甚至查询失败。
- 原生图处理
原生图处理的判断依据——是否在存储层实现免索引邻接。免索引邻接允许快速遍历复杂的图数据集,数据库内存储有从当前节点指向下一个节点的指针,无需通过中间节点转跳的方式。非原生图存储的图数据库采用第三方存储组件,在处理层利用数据转化模拟图功能,近似实现了免索引邻接,虽然具备原生图处理能力,但仍牺牲了其部分系统性能。而采用原生图存储的图数据库,可在存储层直接实现免索引邻接,极大释放图数据库性能。
谈到图数据库技术路线时,Galaxybase图数据库是原生图存储和图处理的代表性产品,读者想了解更多图数据库技术内容,可阅读《图数据库评估难?一篇教你搞定图数据库产品评估》。
总结
种一棵树最好的时间是十年前,其次是现在。学习图技术,掌握全新数据分析方法、铺垫未来职业上升道路,最好的时间也正是现在!
目前,创邻科技已推出Galaxybase培训认证体系,系统化教学图技术理论知识和实操方法,帮助企业和个人更轻松、更快速、更深入地掌握面向关联复杂、变化迅速、查询频繁场景的图技术处理方案,感兴趣的朋友可以前往创邻科技官网进行学习。