数仓建设学习路线(二)模型建设(1)

OLTP VS OLAP

OLTP

概念

全称OnLine Transaction Processing,中文名联机事务处理系统,主要是执行基本日常的事务处理,比如数据库记录的增删查改,例如mysql、oracle。

OLAP

概念

全称OnLine Analytical Processing,中文名联机分析处理系统,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,例如、ClickHouse、Doris、Kylin

种类

MOLAP

MOLAP将OLAP分析所用到的多维数据物理上存储的形式,形成“立方体”的结构(cube),更注重预计算,常见组件如下

  • Kylin

不够灵活,无二级索引

需要cube与计算,后期维护成本大

支持离线数据规模大

支持标准sql,性能高,查询速度快

  • Druid

维度之间不能随意组合,不能自由查询

不支持join,sql支持很弱

支持大规模数据

高性能,列存压缩,预聚合

ROLAP

ROLAP无需预计算,直接在构成多维数据模型的事实表和维度表上进行计算,常见组件如下

  • ClickHouse

易用性较弱,SQL语法不标准,join的支持不好,维护成本高

列式存储,通过数据引擎使得数据存储本地化来提高性能,具有单机版超高性能

  • Spark/Impala/Presto

当查询复杂度高且数据量大时,可能分钟级别的响应。同时其不是存储引擎,因此没有本地存储。

支持的计算数据规模大(非存储引擎)

灵活性高,随意查询数据

易用性强,支持标准SQL以及多表join和窗口函数

处理方式简单,无需预处理,全部后处理,没有冗余数据

HOLAP

由于MOLAP和ROLAP有着各自的优点和缺点,为此一个新的OLAP结构——混合型OLAP(HOLAP)被提出,它能把MOLAP和ROLAP两种结构的优点结合起来,常见组件如下

  • Doris

发展不够成熟,稳定度待提升

支持高并发场景、秒级/毫秒级查询

支持标准化sql,支持大款表和多表join

OLTP VS OLAP两者对比

对比

数仓分层

为什么要分层?

  1. 清晰数据结构:数仓每一层都有对应的作用,方便在使用时更好定位与了解

  2. 数据血缘追踪:清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护

  3. 减少重复开发:完善数仓好中间层,减少后期不必要的开发,从而减少资源消耗,保障口径、数据统一

  4. 把复杂问题简单化:将复杂任务拆解成多个步骤来完成,每一层处理单一步骤,当数据问题出现时候,只需从问题起点开始修复

分层具体内容

ODS(接入层)

全称Operational Data Store,ODS层是最接近数据源的一层,从数据源(api、数据库等)将数据同步数仓中,中间不做任何处理操作

DWD(明细层)

全称Data Warehouse Detail,是数仓明细数据层,对ODS层的数据进行关联,清洗,维度退化(将维度表中维度数据放入明细表中),转换,主题域建设等操作

DWM(轻度汇总层)

全称Data WareHouse Middle,轻度汇总层数据仓库中DWD层和DWS层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计(可以把复杂指标前置处理),提升公共指标的复用性,减少重复加工

DWS(汇总层)

全称Data WareHouse Servce,按照主题域、颗粒度(例如买家、卖家)划分,按照周期粒度、维度聚合形成指标较多的宽表,用于提供后续的业务查询,数据应用,最重要一点需要在DWS层完成指标口径统一及沉淀

ADS(应用层)

全称Applacation data service,按照应用域,颗粒度划分(例如买家、卖家)划分,按照应用主题将对应数据标签补充至应用层,最终形成用户画像及专项应用

什么是数据模型

数据特征的抽象,通常包括数据结构、数据操作、数据约束。

业务模型

也称企业模型,它为企业提供一个框架结构,以确保企业的应用系统与企业经常改进的业务流程紧密匹配,它是从纯业务角度对企业进行业务建模,特指某业务具体流程环节例如客服业务-客服评价的数据模型。

概念模型

对业务模型进行抽象处理成一个个业务概念实体,最常见的就是E-R模型,与具体数据库系统无关,必须转化为逻辑或者物理数据模型才能在数据库系统中实现,概念模型就像是er图记录整体概览,包括了每一步操作,像是大图展示。

逻辑模型

概念模型中的概念实体以及实体之间的关系在关系型数据库上的逻辑化。

物理模型

面向计算机的,因此与具体的数据库系统、操作系统以及计算机硬件都相关的,是逻辑数据模型在这个物理平台上的物理化,例如存储的元数据信息(表名、字段名、存储信息、路径等等)。

数据模型建设方法

维度建模(新)

按照事实表、维表来构建数据仓库模型的方法,称为维度建模。根据维度表与事实表之间的链接方式,分为星型模型 和 雪花型模型。

星型模型

概念

因为数据的冗余所以很多查询不需要做外部连接,因此一般情况下效率比雪花模型高,设计与实现比较简单

特点

只需要确定主键

不需要在外部进行连接,大大提高性能实现高度并行化

容易理解,只需要看关联条件和血缘关系就能确定模型

雪花模型

概念

由于去除了冗余,有些统计就需要通过表的连接才能产生,所以效率不一定有星型模型高。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率

特点

需要主外键来确立管理

雪花模型在维度表、事实表之间的连接很多,因此性能方面会比较低,不能并行化

过多的连接使得开发和后期维护都增大难度

三范式建模(旧)

遵循三范式建模(第一范式:每个属性都不可再分,第二范式:非主字段都完全依赖于主键,第三范式:非主键字段不能依赖于其他非主键字段)

二者区别

考虑角度不同

  • 三范式严格遵循每一范式内容,按照范式内容建模

  • kimball建模(维度维度),按照多个维度进行分析,更多按照星形模型

出发点不一样

  • 3NF建模(三范式建模),考虑自上而下建模(这里的上指的是上游数据源,先拥有dw层再往上进行设计,瀑布模型,不易于后期扩展)

  • kimball建模(维度维度),考虑自下而上建模(这里的下指的是数据集市),先拥有数据集市来设计dw层,敏捷模型,易于扩展易于后期维护及使用)

  • 模型精度不一样

  • 三范式模型由于没有分层概念冗余低数据精度高

  • kimball建模(维度维度),由于多层建设导致冗余高数据精度低

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/302051.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】一种状态超时阻塞循环查询的办法

【C语言】一种状态超时阻塞循环查询的办法 文章目录 【C语言】一种状态超时阻塞循环查询的办法1.方法12.方法21.方法1 static void wait_notify_async(notify_type_t notify_type) {static rt_tick_t exit_tick;exit_tick = rt_time_get_msec();lb_int32 notify_success = RT_F…

有没有比较好的制造业工单管理系统?

制造业公司由于要处理大量的售前售后工作,常常会使用不同的管理系统来协助管理,比如客户管理用的crm系统,人事管理的HR系统,设备管理和报修管理的工单系统等等。不同类型的系统,都有做得比较好的行业佼佼者&#xff0c…

哈夫曼编码理解

今天学到了哈夫曼编码,简单理解记忆一下。 举个例子: 这里有个文本 aaaabbbcce其中a出现的概率为0.4,b为0.3,c为0.2,d为0.1 首先我们先定义两个规则: 1.上支路为0,下支路为1 2.概率相等时,合并…

请问下大家PMP证书值得考嘛?

做项目的去考,项目经理、产品经理这些,或者有往项目管理领域发展的去考。其他行业有空可以学习下 不一定要考证了。 PMP证书更多的是“敲门砖”作用,大部分公司招聘的门槛都要去了这个证书。 当然现在PMP管理模式也很热门,各大企…

2019数据结构----单链表真题

思路&#xff1a; (1)找到中间节点,将原链表一分为二 (2)后半段链表原地逆置 (3)合并链表 #include <stdio.h> #include <stdlib.h>//定义节点类型 typedef struct LNode {int data;//数据域struct LNode *next;//指针域 } LNode, *LinkList;void tailList(Link…

Mysql 下载与安装教程(详细介绍与总结)

一&#xff1a;版本介绍 首先&#xff0c;我们需要先进入官网进行下载&#xff0c;在官网中有好几个版本&#xff0c;那么这里我分别简述一下MySQL各个版本区别&#xff1a; 1&#xff1a;企业版&#xff0c;MySQL Enterprise Edition 需要付费的&#xff0c;可以免费试用30天…

安全典型配置(六)配置IPSG限制非法主机访问内网案例(静态绑定)

相关文章学习&#xff1a; 安全典型配置&#xff08;一&#xff09;使用ACL限制FTP访问权限案例 安全典型配置&#xff08;二&#xff09;使用ACL限制用户在特定时间访问特定服务器的权限案例 安全典型配置&#xff08;三&#xff09;使用ACL禁止特定用户上网案例安全典型配置…

【REST2SQL】06 GO 跨包接口重构代码

【REST2SQL】01RDB关系型数据库REST初设计 【REST2SQL】02 GO连接Oracle数据库 【REST2SQL】03 GO读取JSON文件 【REST2SQL】04 REST2SQL第一版Oracle版实现 【REST2SQL】05 GO 操作 达梦 数据库 对所有关系数据的操作都只有CRUD&#xff0c;采用Go 的接口interface{}重构代码…

特斯拉难挽倒退?比亚迪为中国汽车市场改写历史

对于电动汽车这个新兴产业&#xff0c;特斯拉长期以来一直处于领头羊的位置&#xff0c;近年来也面临诸多测试。去年底欧洲报道特斯拉在瑞典遭遇罢工冲击&#xff0c;运营陷入诸多困扰&#xff0c;实在出人意料。更让人讶异的是&#xff0c;年终宣布新王者比亚迪在全球销量首次…

C语言——结构体类型(一)【结构体定义,创建,初始化和引用】

&#x1f4dd;前言&#xff1a; 在实际编程过程中&#xff0c;我们可能会希望把一些关联的数据存放在一起&#xff0c;这样方便我们使用。但是这些数据的类型有时候并不一致&#xff0c;例如一个学生的信息&#xff1a;有名字&#xff08;字符串&#xff09;&#xff0c;有年龄…

各大厂急招鸿蒙开发员,争抢鸿蒙工程师

去年9月&#xff0c;余承东宣布鸿蒙原生应用全面启动&#xff0c;华为开始了全面抛弃安卓的进程。 多家互联网公司也发布了鸿蒙OS的App开发工程师的岗位&#xff0c;开启了抢人大战。 有的企业开出了近百万的年薪招聘鸿蒙OS工程师&#xff0c;而华为甚至为鸿蒙OS资深架构师开…

python 各级目录文件读取

目录结构 import pytestdef test_01():# 同级文件with open(1.txt, r, encodingutf-8) as file:content file.read()print(content)def test_02():# 同级目录的下的文件with open(rupfile/2.txt, r, encodingutf-8) as file:content file.read()print(content)def test_03():…

大数据StarRocks(四) :常用命令

这次主要介绍生产工作中使用Starrocks时的常用命令 4.1 连接StarRocks 4.1.1 Linux命令行连接 [roothadoop1011 fe]# yum install mysql -y [roothadoop1011 fe]# mysql -h hadoop101 -uroot -P9030 -p4.1.2 Windows客户端 DBeaver 连接 4.2 常用命令 4.2.1 查看状态 1. 查…

低代码快速构建管理系统的实践思路

目录 一、前言 二、创建数据表 三、添加数据表属性 四、配置功能 五、数据筛选 六、数据集显示&功能发布 一、前言 很多时候&#xff0c;市场上的管理软件鱼龙混杂&#xff0c;找一些外包团队在实际应用中效果并不理想&#xff0c;项目中存在的问题也比较棘手。后面了…

视频如何制作微信表情?仅需一招在线制作

Gif动画表情包是当下一种非常流行的图片展示格式&#xff0c;能够通过gif格式的图片来调节聊天氛围或是传递信息&#xff0c;非常有趣。而gif动图现在也被各行各业的商家用作宣传使用&#xff0c;很吸引大众的目光。 那么&#xff0c;这种非常吸引人的gif动图是怎么制作的呢&a…

民营企业合规管理建设,重点有哪些?

民营企业在当前经济发展中占据着重要地位&#xff0c;但随之而来的是更多的法律法规和监管要求。因此&#xff0c;民营企业合规建设成为保障企业合法运营、稳定发展的关键。 首先&#xff0c;民营企业应重视法律遵从。确保企业各项经营活动符合国家法律法规和相关政策要求&…

rhel8安装

1. 2. 3. 4. 5. 6.默认 7.默认 8. 9.默认 10. 11. 12. 13.默认 14.默认 15.添加镜像 16.双击后&#xff0c;通过上下键选择第一个 &#xff08;第二个是测试镜像并安装&#xff0c;就是比较慢&#xff0c;建议选择第一个&#xff09; 17. 18. 19.让他自动分区就行了 20.开始安…

抖店入驻资质是什么?

我是电商珠珠 抖店的入驻资质是什么&#xff1f;这是很多新手关心的问题。 今天&#xff0c;我就来详细的跟大家讲一下。 一、营业执照 对于新手来说&#xff0c;准备一张个体的营业执照即可。营业执照可以去当地工商局免费办理&#xff0c;也可以去找代办。 代办的话需要…

《实战AI大模型》从入门到精通

文章目录 编辑推荐内容简介作者简介前言/序言入手传送门&#xff1a;参加抽奖 人工智能领域资深专家尤洋老师倾力打造&#xff0c;获得了李开复、周鸿祎、颜水成三位大咖鼎力推荐&#xff0c;一经上市就登上了京东“计算机与互联网”图书排行榜Top1的宝座。 编辑推荐 《实战AI…

10 分钟搞定 1 个门店,「沉浸式巡检」让巡查整改更身临其境

门店巡检起着确保品牌运营的标准性和规范性的作用&#xff0c;同时也是为了发现门店存在的问题和不足&#xff0c;为后续运营优化提供数据支撑。 不过&#xff0c;在实际的巡检过程中&#xff0c;效率问题却总是悬而未决。要让巡检真正发挥它的价值&#xff0c;就需要设置系统、…