2、数仓理论概述与相关概念

1、问:数据仓库 建设过程中 经常会遇到那些问题?

        模型(逻辑)重复建设

        数据不一致性

                维度不一致:命名、维度属性值、维度定义

                指标不一致:命名、计算口径

        数据不规范(字段命名、表名、分层、主题命名规范)


2、OneData数据建设核心方法论?


3、OneData数据建设体系架构?


4、数据仓库中经常用到的概念?

4.1 什么是 业务过程

        指的是 企业活动中的一个行为事件,如 下单、支付、退款都是业务过程

        业务过程是一个不可拆分的行为事件,也可以说 业务过程 = 企业活动中的事件

4.2 什么是 数据域/主题域

        指定是 将业务过程或者维度进行抽象的集合

        为保证数仓的稳定性,数据域需要抽象提炼,并且长期维护和更新,但不轻易变动。

4.3 什么是 度量/原子指标

        原子指标和度量含义相同,是基于某个业务过程下的度量值,表示不可再拆分的指标

        经常以数值的形式出现,具有明确的业务含义的名称,如支付金额

4.4 什么是 修饰词

        业务过程中对业务场景限定的抽象(除维度以外),例如 流量域中有修饰词 PC端、APP端

4.5 什么是 修饰类型

        对修饰词抽象划分,修饰类型从属于某个业务域

        如流量域中有访问终端类型,该类型下有 PC端、移动端       

4.6 什么是 维度

        维度是业务过程中度量的环境,也可以称为实体对象

4.7 什么是 维度属性

       维度属性隶属于一个维度,是维度的组成部分

       如 地理维度包含(国家、地区、省份、城市等级等属性)

4.8 什么是 时间周期

        用来明确数据统计的时间范围或者时间点,如最近30天、自然周、历史至今

4.9 什么是 派生指标

        派生指标 = 一个原子指标 + 修饰词(可选多个) + 时间周期

        可以理解为 对原子指标按照业务统计范围的圈定

        例如:原子指标:支付金额

                  派生指标:最近1天海外买家的支付金额

                                (最近一天为时间周期、海外为修饰词、买家为维度)


5、指标体系的构成是什么?

原子指标:

        含义:某个业务过程中不可拆分的度量

        构成:动作 + 度量

        示例:支付金额、借款金额

派生指标:

        含义:将原子指标按照业务范围的圈定(聚合)

        构成:多个修饰词(可选) + 时间周期 + 原子指标

        示例:最近一天海外买家的支付金额

派生指标分类:

        事务型指标、存量型指标、复合型指标

事务型指标:

        含义:对某个业务活动进行衡量的指标

        示例:订单支付金额、新增会员数

存量型指标:

        含义:对实体对象(如商品、会员)某些状态的统计

        示例:商品总数、注册会员数

复合型指标:

        含义:在 事务型指标和存量型指标的基础上复合而成

        示例:流量UV-下单买家数的转化率


6、数仓中模型设计时的指导理论?

        设计数据模型时,主要以维度建模为理论基础,基于维度数据模型总线架构,构建一致性的维度和一致性的事实。


7、问:数据仓库为什么要分层设计(分层的好处)?

        分层能够使数据有秩序的流转,数据的生命周期能够清晰的被数仓开发人员和使用人员感知到

        数据结构清晰:

                每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解

        减少重复开发:

                规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算

        统一数据口径:

                通过数据分层,提供统一的数据出口,统一对外输出的数据口径

        复杂问题简单化:

                将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题

通过构建全域的公共层数据,极大地控制了数据规模的增长,同时也能提高数据研发的效率

,解约成本,提高性能。


8、问:数据仓库应该如何分层?

ODS_数据操作层:

        存储数据特点:各个业务系统的原始数据、日志数据、第三方数据

        数据加工方式:几乎无处理(基础清洗数据)

        作用:数据同步(增量、全量),清洗,保存历史

CDM_公共维度模型层:

        存储数据特点:存放明细事实数据、维度数据、公共指标汇总数据

        细分: DWD、DWS

        作用:提升公共指标的复用性,减少重复加工

DWD_明细数据层:

        存储数据特点:存放明细事实数据

        数据加工方式:

                以维度建模为理论基础,将业务相同或相似且粒度相同的数据放到同一个模型中

                采用维度退化的手段,来构建明细宽表,基于ODS和DIM表加工而成

        作用:

                1、整合业务相同或相似数据:

                        构建明细宽表,复用关联计算,减少数据扫描(DWD)

                2、公共指标统一加工:

                        基于 OneData体系构建 命名规范、口径统一、算法统一的统计指标

                        为上层数据产品、应用、服务提供公共指标,并建立汇总宽表

                3、构建一致性维度:

                        建立一致性的维表,降低多维度分析时计算口径、算法不统一的风险                       

DWS_汇总数据层:

        存储数据特点:公共指标汇总数据

        数据加工方式:

                加强指标的维度退化,采用宽表化手段,构建公共指标数据层

                常基于DWD和DIM表加工而成

        作用:

                存放公共指标汇总数据,构建公共指标宽表,提升公共指标的复用性、减少重复加工

ADS_应用数据层:

        存储数据特点:存储个性化的统计指标数据

        作用:计算个性化的指标(没有公用性,复杂)、基于应用的数据组装(跨主体构建宽表)


9、问:下游使用数仓模型时,应该遵循哪些原则?

        优先使用公共维度模型层(CDM)数据,当公共层没有数据时,需要评估是否需要创建公共层数据,当不需要建设公共层数据时,方可直接使用操作数据层数据(ODS)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/176726.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

报表控件Stimulsoft 操作演示:空数据和 Dock 样式

在今天的文章中,我们将讨论如何避免报告中出现空行。我们不仅会介绍在没有数据时禁用组件;还会介绍在没有数据时禁用组件。我们还将探索消除禁用组件时可能出现的空行。但在我们深入探讨之前,让我们检查一下数据带的零数据样本。 Stimulsoft…

关于ego-planner里面的GridMap

浙大这套开源的代码写得很nice 很值得借鉴 , 对于 GridMap 类的实现。该类通过智能指针的封装简化了 GridMap 实例的创建和管理过程。一旦通过 GridMap::initMap(ros::NodeHandle &nh) 方法初始化,就可以方便地调用 GridMap 及其所有相关功能 它主要…

智能化学习打破资源障碍 成为英语学习新趋势

智能化学习是一种基于互联网和人工智能技术的学习行为,通过网络,学习者可以随时随地进行学习,真正打破了时间和空间的限制。与传统线下学习方式相比,智能化学习更加方便、资源更加丰富,使海量英语学习资源唾手可得,智能化学习正逐渐成为中国孩子习得英语的重要方式。 随着全球…

通过AX6000路由器,实现外部访问内网的任意主机

概述 这里遇到一个场景,就是需要外部的人员,访问我内网的一台设备,进行内外部的设备联调。 这也是实际环境中,很常见的一种场景。 之前的做法是子设备上运行edge节点,可以直接访问。 但有的设备无法运行edge节点,那么可以参考一下这个方案来实现。 此方案可以摒弃了…

分享-Spss下载含spss25.spss26.spss27等版本

为了学习spss买的,分享安装程序给大家 SPSS 27是一款用于统计分析和数据挖掘的软件,以下是SPSS 27的功能介绍和配置建议: 功能介绍: 数据管理:SPSS 27可以对数据进行管理和清洗,包括数据输入、缺失值处理…

什么是开关电源测试系统?如何用它进行测试?

开关电源测试系统是针对开关电源测试而开发的一种智能自动化测试系统,打破传统测试程序与缺陷,满足客户新的测试需求,助力客户解决测试难点,顺利完成开关电源测试,提高测试效能。那么开关电源自动化测试方案的流程是什…

【漏洞复现】DPTech VPN存在任意文件读取漏洞

漏洞描述 DPtech是在网络、安全及应用交付领域集研发、生产、销售于一体的高科技企业。DPtech VPN智能安全网关是迪普科技面向广域互联应用场景推出的专业安全网关产品,集成了IPSec、SSL、L2TP、GRE等多种VPN技术,支持国密算法,实现分支机构…

监控摄像头连接NAS,实现监控管理一体化

嗯?你问干嘛要把摄像头连到NAS? 小马给家里安了个监控摄像头 本意是想家里有啥事也能查监控 却没想到这些监控不仅存储回放有限制 要想更多功能还是得多花钱 恰好,我有铁威马NAS 打开Surveillance Manager 轻松搭建网络摄像头管理系统 …

一键去水印免费网站快速无痕处理图片、视频水印

水印问题往往是一个大麻烦。即使我们只想将这些照片保留在我们的个人相册中以供怀旧,水印也可能像顽固的符号一样刺激我们的眼睛。为了解决这个问题,我们需要不断探索创新的解决方案,让我们深入研究一款强大的一键去水印免费网站“水印云”。…

ubuntu下docker环境使用GPU配置

本文主要讲述整个命令流程,具体讲解请看官网nvidia-容器工具包和一篇总结得很详细的博文docker使用GPU总结 docker的版本必须安装19.0版本以上的,这里也只讲19.0版本以上的使用方法 首先设置一下网络信息 curl -fsSL https://nvidia.github.io/libnvi…

Less精简直接上手,纯干货教程

目录 介绍 安装插件 入门使用测试 ​编辑 less变量 介绍 less作为一门CSS扩展语言,也就是说CSS预处理器。(Leaner Style Sheets)简称less,它只不过是为css新增这些的功能,比如说:变量、函数、作用域等等…

【高级网络程序设计】Week3-2 Servlet

一、 What are servlets? 1. 定义 (1)Servlets are Java’s answer to CGI: programs that run on a web server acting as middle layer between HTTP request and databases or other applications.Used for client requests that cann…

Tekton — 通过tekton-operator部署tekton组件

文章目录 版本信息部署准备安装卸载tekton组件 Tektoncd Operator 作为一个 Kubernetes 的扩展,可以方便快捷地在 Kubernetes 集群上安装、升级和管理 Tekton Pipelines、Dashboard、Triggers 等组件。 那么本篇文章介绍在K8S集群中如何通过tekton-operator部署Tekt…

如何使用ArcGIS Pro进行坐标转换

不同来源的数据坐标系可能是不同的,为了统一使用这些数据就需要进行坐标转换,ArcGIS Pro作为专业的GIS软件,坐标转换功能肯定也是包含的,这里为大家介绍一下ArcGIS Pro如何进行坐标转换,希望能对你有所帮助。 数据来源…

OFI libfabric原理及应用解析

Agenda 目录/议题 编译通信软件硬件和软件带来的挑战为什么需要libfabriclibfabric架构API分组socket应用 VS libfabric应用区别GPU数据传输示例 编译通信软件 可靠面向连接的TCP和无连接的数据报UDP协议高性能计算HPC或人工智能AI 软硬件复杂性带来的挑战 上千个节点的集群, …

【算法-哈希表4】 三数之和(去重版)

今天,带来哈希相关算法的讲解。文中不足错漏之处望请斧正! 理论基础点这里 三数之和 分析题意 这就是三数之和去重版嘛。 题意转化 求三元组, 满足每个元素相加为0,其中每个元素下标不同;而得到的三元组不能重复。 构成三元…

【20年扬大真题】删除字符串s中的所有空格

【20年扬大真题】 删除字符串s中的所有空格 代码思路&#xff1a; 可以定义一个辅助的字符数组tmp&#xff0c;一边遍历字符串s&#xff0c;一边用tmp暂存s中的非空格元素。 遍历完s之后&#xff0c;再把tmp中的元素赋给字符串s即可 #include<stdio.h> #define MaxSize…

栈和队列【详解】

目录 一、栈 1.栈的定义 2.栈的初始化 3.入栈 4.出栈 5.获取栈顶元素 6.获取栈元素的个数 7.判断栈是否为空 8.销毁栈 二、队列 1.队列的定义 2.入队 3.出队 4.获取队头元素 5.获取队尾元素 6.判断队列是否为空 7.获取队列的元素个数 8.销毁队列 前言&#xf…

el-input限制输入整数等分析

文章目录 前言1、在 Vue 中&#xff0c;可以使用以下几种方式来限制 el-input 只能输入整数1.1 设置input 的 type为number1.2 使用inputmode1.3 使用自定义指令1.4 使用计算属性1.5 使用 onafterpaste ,onkeyup1.6 el-input-number 的precision属性 总结 前言 input 限制输入…