离线数仓-数据治理

目录

一、前言

1.1 数据治理概念

1.2 数据治理目标

1.3 数据治理要解决的问题

1.3.1 合规性

元数据合规性

数据质量合规性

数据安全合规性

1.3.2 成本

存储资源成本

计算资源成本

二、数据仓库发展阶段

2.1 初始期

2.2 扩张期

2.3 缓慢发展期

2.4 变革期

三、数据治理内容

3.1 元数据治理

3.2 数据质量治理

3.3 数据安全治理 

3.4 计算资源治理

3.5 存储资源治理

四、数据治理总结

4.1 模型合规治理

4.2 数据质量合规治理

4.3 数据安全合规治理

4.4 存储资源治理

4.5 计算资源治理

4.6 数据价值治理

五、数据治理如何推动

六、思考与沉淀


一、前言

1.1 数据治理概念

       数据治理包含了数据生命周期(从获取、使用到处置)内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。通常是在是数仓发展的中后期开展数据治理活动。

1.2 数据治理目标

       数据模型合规,数仓内部及下游易用且有保障,提升开发及使用效率,发挥数据价值, 降本增效。最大化数据使用的ROI(投资回报率)

1.3 数据治理要解决的问题

1.3.1 合规性

  • 元数据合规性

       各模型、表,子字段等未按照数据标准规范制作

  • 数据质量合规性

       数据质量问题发生频繁,缺少链路保障

  • 数据安全合规性

      模型、表/字段未做权限管控,被下游随意引用

1.3.2 成本

  • 存储资源成本

      无用数据模型较多,某些表存在不必要存储周期

  • 计算资源成本

      存在无效任务,数据倾斜任务,高读写任务(运行时间长)

   数据治理的实施可以借助云平台,例某商业版的数据治理工作台的功能如下截图:

二、数据仓库发展阶段

2.1 初始期

  • 业务特点:单一、少量的业务模式探索
  • 数据诉求:支持统一数仓内部规范,通过核心数据模型支撑下游应用(数据分析、运营、风控、产品、算法)

2.2 扩张期

  • 业务特点:快速扩张
  • 数据诉求:大量的复合指标,派生指标需要在BI看板、算法等多个场景重复使用。该阶段重点投入数据应用建设、支撑数仓内部和业务方更快定位指标、数据模型、用户数据等,实现自助查询。

2.3 缓慢发展期

  • 业务特点:稳增长
  • 数据诉求:对原有数据仓库进行治理优化,包括数据质量全链路保障、元数据管理、数据安全等基建的建设,还包括指标体系建设(指标定义、指标口径、指标地图)、计算/存储资源治理等内容。(该阶段可以进行集中化数据治理)

2.4 变革期

  • 业务特点:发现新的机会,精细化运营
  • 数据诉求:快速支持业务创新

三、数据治理内容

3.1 元数据治理

       这里的元数据治理主要介绍数据表合规治理,文章指路:

数仓治理-数据表合规治理-CSDN博客文章浏览阅读808次,点赞19次,收藏22次。数仓治理-数据表合规治理https://blog.csdn.net/SHWAITME/article/details/135749389?spm=1001.2014.3001.5502

3.2 数据质量治理

        数据质量治理文章指路:

数仓治理-数据质量治理-CSDN博客文章浏览阅读936次,点赞27次,收藏29次。数仓数据治理-数据质量治理https://blog.csdn.net/SHWAITME/article/details/135737631?spm=1001.2014.3001.5501

      数据质量文章指路:

数仓-数据质量-CSDN博客文章浏览阅读1k次,点赞19次,收藏15次。数仓-数据质量https://blog.csdn.net/SHWAITME/article/details/135732154?spm=1001.2014.3001.5501

3.3 数据安全治理 

      数据安全治理文章指路:

数仓治理-数据安全治理-CSDN博客文章浏览阅读343次,点赞9次,收藏7次。数仓治理-数据安全治理https://blog.csdn.net/SHWAITME/article/details/135832433?spm=1001.2014.3001.5502     数据安全文章指路:

数仓-数据安全-CSDN博客文章浏览阅读758次,点赞24次,收藏15次。数仓-数据安全https://blog.csdn.net/SHWAITME/article/details/135830159?spm=1001.2014.3001.5502      上述的元数据治理、数质量治理、数据安全治理属于合规治理的范畴。

3.4 计算资源治理

        计算资源治理见文章:

数仓治理-计算资源治理-CSDN博客文章浏览阅读1.1k次,点赞34次,收藏18次。数仓治理-计算资源治理https://blog.csdn.net/SHWAITME/article/details/135760673?spm=1001.2014.3001.5501

3.5 存储资源治理

       存储资源治理见文章:

数仓治理-存储资源治理-CSDN博客文章浏览阅读64次,点赞3次,收藏3次。数仓治理-存储资源治理https://blog.csdn.net/SHWAITME/article/details/136000702?spm=1001.2014.3001.5502

四、数据治理总结

4.1 模型合规治理

  • 数据标准重制定:包括对原来数据域重构,表字段命名体系重构,按照新标准对原来的模型进行合规改造;
  • 元数据信息补充:包括添加元数据owner,对元数据的使用说明,颗粒度声明,主键声明以及字段中文名具体内容等进行完善,便于数仓内部或下游使用;
  • 制度建设:完善模型评审机制,代码提交强审核,保障内容合规后上线;
  • 分层合理性:治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表等;
  • 数据链合理性:重构因快速支撑业务而产生的烟囱模型,消除链条冗长,数据产出耗时长等问题;

4.2 数据质量合规治理

  • 流程化:包括制定任务上线/变更流程,指标变更流程等;
  • dqc管控:对4大基础dqc进行补充,对核心业务模型dqc补充,对经常触发的dqc进行调整(例如:表行数波动等,可借助算法对近7天的dqc波动率进行监测,动态评估阈值;
  • sla及基线治理:上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份的快恢能力;
  • 针对上游问题的数据治理(数据源出现问题):建设数据质量的长期监测体系;

4.3 数据安全合规治理

  • 角色权限管控:对不同的使用者/开发者提供不同的使用权限。划分不同的报表、大屏看板的权限等级,使得在同一个图表中,不同等级的用户查看的数据内容也不一样;
  • 数据脱敏,防止数据泄露;
  • 表/字段分级:对每个表及字段进行打标签,保障每张表都有数据安全管控;
  • 数据权限使用:表/字段走审批流程 ,设置数据使用申请时的卡点负责人/负责组;
  • 其他的数据下载管控:例如:最多下载 1000行/次, 离职数据的风险管控等;

4.4 存储资源治理

  • 设置统一的表/分区的生命周期,对当前表按照新标准进行裁剪,对未分区表进行重制定分区;
  • 长期未引用/被使用/临时的表进行下线处理;
  • 压缩格式优化/存储格式优化
  • 根据业务场景对表的存储重划分:对较大数据量的表,评估是否可以采取全量转增量的存储策略,对用户表可以采取拉链表等;

4.5 计算资源治理

  • 数据倾斜任务治理;
  • 针对消耗大量的cpu/内存的任务进行治理;
  •  无效监控项,重复开发的模型、数据价值低的模型及时下线;
  • 梳理数据链路并对任务调度进行治理;
  • 规划核心任务,分配任务优先级,非核心的任务靠后运行;
  • 小文件治理

4.6 数据价值治理

  • 烟囱数据模型及对应的任务,模型粒度成功的任务及时下线处理;
  • ads公共逻辑下沉到dws,实现逻辑复用;
  • 建立模型价值度量指标,逐步下线低价值的模型;
  • 下线ads层未被下游引用的场景模型(不再支撑具体的业务,没有存在的 意义)

五、数据治理如何推动

  • 跟下游协同配合最重要的是调动他们的积极性,让下游感觉到治理能对他们带来价值
  • 实施奖惩措施,让下游积极参与其中。
  • 和bi一起做治理,可将治理成效的月报/周报发送全技术/业务部门,使他们也能感知到数仓治理的价值。

六、思考与沉淀

代补充~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/370227.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Chapter Two - Understanding Computer Hardware

Chapter Two - Understanding Computer Hardware 第二章 - 理解计算机硬件 Introduction: Today we embark on a journey to unravel the intricate world of computer hardware. As we delve into the heart of computing, we will explore the fundamental components that m…

初始vue3

文章目录 Vue3简介Vue3带来了什么性能的提升源码的升级拥抱TypeScript新的特性 Vue3.0工程使用vue-cli创建使用 vite 创建 什么是vite? Vue3简介 2020年9月18日,Vue.js发布了3.0版本,代号:One Piece(海贼王)耗时2年多…

中科大计网学习记录笔记(六):应用层概述 | 应用层原理

前言: 学习视频:中科大郑烇、杨坚全套《计算机网络(自顶向下方法 第7版,James F.Kurose,Keith W.Ross)》课程 该视频是B站非常著名的计网学习视频,但相信很多朋友和我一样在听完前面的部分发现信…

路由引入路由过滤

目录 路由引入 什么是路由引入? 为什么需要路由引入? 路由引入的规划分为两种 路由过滤 路由过滤的工具 前缀列表格式 filter-policy router-policy 路由引入 什么是路由引入? 将一种协议导入到另一种协议或在同种协议的不同进程…

06:原生云K8S解密|K8S集群安装部署|K8S网络插件

原生云K8S解密|K8S集群安装部署|K8S网络插件 K8SK8S集群架构图解 K8S部署仓库初始化kube-master安装计算节点的安装token管理 配置flannel网络(master主机操作) K8S 有大量夸主机的容器需要管理,快速部署应用&#xff…

求职调整换工作 多刷刷职业性格测试准没错

跳槽我们都经历过,就算没经历过也看见过,身边的同事、朋友、家人,有成功的也有失败的,那么由此可见,跳槽不仅可以给我们带来新机遇,同时也要承担一定的失业风险,那么成功与否,究竟取…

【开源】基于JAVA+Vue+SpringBoot的河南软件客服系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统管理人员2.2 业务操作人员 三、系统展示四、核心代码4.1 查询客户4.2 新增客户跟进情况4.3 查询客户历史4.4 新增服务派单4.5 新增客户服务费 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的河…

修改照片尺寸好用的工具,分享4款!

在数字时代,照片已成为我们生活的一部分,而如何调整照片尺寸以满足不同的需求,则显得至关重要。今天,我们就来探讨那些可以修改照片尺寸的工具,让你轻松应对各种尺寸需求。 茄子水印相机 这是一款功能强大、操作简单的…

【目标跟踪】相机运动补偿

文章目录 一、前言二、简介三、改进思路3.1、状态定义3.2、相机运动补偿3.3、iou和ReID融合3.4、改进总结 四、相机运动补偿 一、前言 目前 MOT (Multiple Object Tracking) 最有效的方法仍然是 Tracking-by-detection。今天给大家分享一篇论文 BoT-SORT。论文地址 &#xff0…

LeAPI 后端接口开发 - 发布、下线接口

一、上线接口(仅管理员) 1. 校验请求参数 2. 判断(测试)接口是否可以调用 引入调用接口的客户端(自己写的 SDK)注入客户端实例调用接口 3. 修改数据库中接口的状态 /*** 上线(发布&#xff…

27. 云原生流量治理之kubesphere灰度发布

云原生专栏大纲 文章目录 灰度发布介绍灰度发布策略KubeSphere中恢复发布策略蓝绿部署金丝雀发布流量镜像 灰度发布实战部署自制应用金丝雀发布创建金丝雀发布任务测试金丝雀发布情况 蓝绿部署创建蓝绿部署测试蓝绿部署情况 流量镜像创建流量进行任务测试流量镜像情况 灰度发布…

【Docker】Docker Registry(镜像仓库)

文章目录 一、什么是 Docker Registry二、镜像仓库分类三、镜像仓库工作机制四、常用的镜像仓库五、常用命令镜像仓库命令镜像命令(部分)容器命令(部分) 六、docker镜像仓库实战综合实战一:搭建一个 nginx 服务综合实战二:Docker hub上创建自己私有仓库综…

【SpringBoot】权限系统与RBAC模型

📝个页人主:五敷有你 🔥系列专栏:SpringBoot⛺️稳重求进,晒太阳 权限系统与RBAC模型 权限 为了解决用户和资源的操作关系, 让指定的用户,只能操作指定的资源。 权限功能 菜单权限&a…

OJ_整数奇偶排序

题干 c实现 #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<algorithm> using namespace std;//compare函数不交换返回true bool compare(int a, int b) {//1.a奇数&#xff0c;b偶数&#xff0c;不交换//2.a奇数&#xff0c;b奇数&#xff0c;a比b…

使用java -jar命令运行jar包提示“错误:找不到或无法加载主类“的问题分析

用maven把普通java项目打包成可运行的jar后&#xff0c;打开cmd用java -jar运行此jar包时报错&#xff1a; 用idea运行该项目则没有问题 。 其实原因很简单&#xff0c;我们忽略了2个细节。 java指令默认在寻找class文件的地址是通过CLASSPATH环境变量中指定的目录中寻找的。我…

【IoC控制反转】看完必定强大!立刻奏效!

1. 前言 假如你学过Spring框架&#xff0c;那么你肯定会听说过 Spring 的IoC(控制反转) 、DI(依赖注入)这两个概念&#xff0c;当然&#xff0c;对于初学者而言&#xff0c;我相信也只是听说过&#xff0c;仅此而已。我在学习关于这个概念的时候&#xff0c;看了很多课&#x…

110.乐理基础-五线谱-五线谱的速度

内容参考于&#xff1a;三分钟音乐社 上一个内容&#xff1a;五线谱的附点、休止符、连线、延音线-CSDN博客 上一个内容里练习的答案&#xff1a; 五线谱里的情绪与速度也是跟简谱里一样&#xff0c;详情看&#xff1a;音乐的速度 专栏里的内容&#xff0c;根据创建时间&…

文件内容读写-数据流

前言&#xff1a; 在Java中操作文件主要分为&#xff1a;1.文件系统的操作&#xff08;File类&#xff09;、2.文件内容的操作&#xff08;流对象&#xff09;。 在上一节内容中针对File类进行了介绍&#xff0c;本节主要介绍Java中对File类对象内容的读与写操作&#xff08;数…

AcWing算法学习笔记:搜索与图论1(DFS + BFS + 树与图的深度优先遍历 + 树与图的广度优先遍历 + 拓扑排序)

搜索与图论 一、DFS① 排列数字② n-皇后问题&#xff08;还没写&#xff09; 二、BFS① 走迷宫② 八数码&#xff08;还没写&#xff09; 三、树与图的深度优先遍历&#xff08;树的重心&#xff09;四、树与图的广度优先遍历&#xff08;图中点的层次&#xff09;五、有向图的…

VUE3+TS使用OpenSeadragon学习之旅,实现多图片切换效果

1.官方网站&#xff1a;OpenSeadragon 2.使用npm下载插件&#xff1a;npm install openseadragon 3.在 index.html文件引入资源 <link rel"stylesheet" href"node_modules/openseadragon/build/openseadragon/openseadragon.css" /><script src…