数据治理8大核心模块建设

数据治理是一个去中心化、多元参与的系统工程。一个全面且明确的数据治理体系,可以帮助组织构建生态式、协同化治理路径,最大化地提升整体数据质量,实现数据战略,激活新型生产力。

本文以元数据、主数据、数据标准、数据质量、数据资产、数据交换、数据安全、数据生命周期八大模块为核心脉络,梳理了一份全面数据治理体系指南,希望能为政企数据治理提供参考。

01、元数据

1. 定义

元数据是描述数据相关信息的数据。

元数据管理则是指与确保正确创建、存储和控制元数据,以便在整个企业中一致地定义数据有关的活动。

2.类型

元数据分为业务元数据、技术元数据和操作元数据。

3.元数据管理五大步骤

1)定义元数据战略:企业需要启动元数据战略计划,把关键利益相关方和部门都参与进来,评估现有的元数据资源和信息架构,对关键员工重点访谈,制定合理的战略目标。

2)理解元数据需求:元数据管理解决方案,需要由更新频次,同步情况,历史信息,访问权限,存储结构,继承要求,运维要求,管理要求,质量要求和安全要求等具体功能需求点满足。

3)定义元数据架构:元数据架构,通常分为3类,包括集中式,分布式和混合式,不同技术框架满足不同情境需求,企业根据自身情况因地制宜选择。

4)创建和维护元数据:数据系统要从企业范围内梳理和整合元数据,把技术元数据,与业务,流程和管理元数据集成在一起,使元数据处理变得规范统一,方便理解和分析。

5)查询、报告和分析元数据:元数据存储库应具有前端应用程序,并支持查询和获取功能,从而满足各类数据资产管理的需求。

4.元数据管理应用

1)数据资产地图:是由元数据字典自动生成的企业数据资产的全景地图,用可视化方式展示各类元数据和数据处理过程,满足不同业务分析需求。

2)元数据血缘关系:指的是不同数据之间的联系。当我们发现一个下游的错误数据,可以通过血缘关系追本溯源,快速找到上游的数据来源,了解数据处理过程,找到数据错误的原因。

3)元数据影响度分析:可以告诉我们数据去了哪里,经过哪些加工和处理,哪些应用,数据库,或者部门使用了这个数据。当数据出现问题的时候,可以迅速了解错误数据的传播链条,快速解决错误数据导致的错误结果。

02、主数据

1.定义

主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。

主数据管理是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。

2.主数据项目管理实施架构

通过现状分析与评估、规划管理体系、建设实施方案,平台落地部署这四个步骤,进行主数据项目管理的落地实施。

3.主数据项目实现阶段的十大重要环节

1)主数据标准化体系

以物料为例, 完整的物料标准化体系主要包括物料数据标准的制定和物料数据标准化管理相关基础能力建设两大部分内容。

2)分类设计原则

四大分类设计原则:不重不漏;粗细颗粒度合理;满足业务需求;符合行业习惯

3)编码设计

编码设计需遵守全局性,唯一性、适度性、灵活性、扩展性等原则。不同编码方式各有优缺点。

4)属性标准梳理:可以从业务标准、技术标准、管理标准三个层面来梳理。

5)管控流程设计:在业务系统建设过中进行流程审核以及校验。

6)历史数据整合、清洗:分为数据接入、初步标记、分类清理、先分后合、整理清洗、检查反馈6个步骤。

7)数据切换策略:以下是三种数据切换策略各自优缺点。

8)数据生产与维护策略:有集中式和分布式两种。

9)主数据分发策略:主数据的分发方式有以下三种。

10)主数据集成示例

03、数据标准

1.定义

数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。数据标准管理则是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

2.分类

1)业务标准规范:一般包括业务的定义,标准的名称,标准的分类等。

2)技术标准规范:是从技术角度看待数据标准,包括了数据的类型,长度,格式,编码规则等。

3)管理标准规范:比如数据标准的管理者是谁,如何增添,如何删减,访问标准条件等,都属于管理角度的数据规范要求。

3.数据标准管理实施步骤

数据标准实施流程图

1)制定目标和界定范围:组织首先需要制定数据标准目标,明确战略方向,然后根据企业自身的管理和业务发展需求制定数据标准。

2)数据标准调研:对整个组织的数据标准管理情况进行调研和汇总。通过调研企业数据标准现状,弄清哪些系统的数据标准问题比较严重,哪些字段不符合标准,为后续的数据标准落地提供支撑和指导。

3)明确组织和流程:通过确定数据治理管控委员会,数据标准管理岗,数据标准管理专员,IT项目组等数据标准管理角色,和制定标准变更、落地、管理流程,来保障数据标准项目推进落实。

3)数据标准编制与发布:通过收集国标、行标要求,结合企业自身管理和业务要求,经过业务、技术和管理等各部门的协调沟通后,制定出初版的数据标准管理文档。经过数据标准审核后,发布定版数据标准。

4)数据标准宣贯:向内部组织数据标准宣贯会,提升企业内部人员对数据标准管理的重视程度,提高使用人员的熟练度,让数据标准可以更好更快实行,从而发挥价值。

5)数据标准平台落地运营:将制定好的数据标准录入相应数据标准平台系统,通过管理、技术、业务的维度查看效果,进行适当修改满足大部分要求后,投入使用到实际场景中。此外,对于数据标准还需定期评估、不断完善,达到更加适应企业管理经营的目的。

04、数据质量

1.定义

数据质量是指在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。

数据质量管理是对数据从计划、获取、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

2.四种常见数据质量问题

1)数据缺失:指的是一些重要数据未被填充。

针对缺失数据,企业可以通过简单统计分析,找到未填写数据,相关属性,对可能值进行插补填充。

2)数据异常:指的是数据与平时的业务,管理数据有很大差别,影响数据分析得出的结论。

针对异常数据,需要用之前数据作为基础,确定最大值和最小值,判断数据变量是否超出合理的范围,如果数据异常,系统会自动报警提醒。

(3)数据不一致:指的是在数据集成汇总的时候,多个系统分布的相同数据,出现不一致的现象。

针对不一致的数据,企业系统可以注意数据抽取的规则,对于大部分相同但不一致的数据,进行鉴别,修改,合并。

4)数据重复或错误:指的是一些数据出现重复统计,数据填写错误。

针对重复数据,企业可以在系统中设置过滤限定条件,清除重复数据。

3.数据质量评判六大维度

全国信息技术标准化技术委员会提出了数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面,分别是完整性,一致性,准确性,时效性,唯一性和可访问性。

4.数据质量管理七部曲

(1)定义高质量数据

通过全面了解相关痛点、风险和业务驱动因素,以及业务流程系统情况、技术结构和数据依赖关系,对数据质量改进的目标和优先级事项达成一致。

2)定义数据质量战略

数据质量优先级必须与业务战略一致,定义数据质量框架有助于指导战略及开展数据质量管理活动。

3)识别关键业务和质量规则

可以根据监管要求、财务价值和对客户的直接影响等因素对数据重要性进行优先级排序。在确定关键数据后,识别梳理数据质量特征要求的业务规则。

4)执行初始数据质量评估

确定关键的业务需求和数据后,通过执行初始数据质量评估了解数据,定义可操作的改进计划,通过评估结果确认问题及优先级,并作为数据质量规划的基础。

5)识别改进方向并确定优先级

在经过初步数据质量评估后,识别潜在的改进措施,并确定优先顺序,可以通过对大数据集进行全面的数据分析来了解问题的广度,或与利益相关方进行沟通,分析问题的业务影响,最终讨论确定优先顺序。

6)定义数据质量改进目标

根据数据质量改进带来的业务价值进行量化,设定具体的、可实现的目标。

7)开发和部署数据质量操作

为了保证数据质量,围绕数据质量方案制定实施计划,管理数据质量规则和标准、监控数据与规则的执行一致性,识别和管理数据质量问题,并报告质量水平。

05、数据资产

1.定义

数据资产是能够为组织产生价值的数据资源,数据资产的形成需要对数据资源进行主动管理并形成有效控制。数据资产管理是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。

2.数据资产盘点

1)自上而下梳理

以业务视角,通过对企业的相关制度文件、职能体系、业务流程、业务单据等进行全面分析,逐层分解,梳理数据资产的三级目录、业务属性和相关管理属性。

2)自下而上盘点

以技术视角,从IT系统——数据库表——数据结构出发,进行自下而上归纳,逐步明确数据资产相关的技术属性。

通过自上而下和自下而上两种盘点方式,建立起业务视角和技术视角的映射关系,这样一个完整的数据资源目录就成型了。

3.数据资产目录

通过数据资产目录,可以解决数据在哪里、数据谁负责,数据如何用等一系列问题。一个实用友好的数据资产目录,能够打通查数/取数环节、打通基础类数据和指标类数据的联系,并通过人工智能和机器学习等先进技术,更好地支持数据的探查和关联推荐。

4、数据资产管理4大步骤

1)统筹规划:数据资产管理实施第一阶段是统筹规划,包括评估管理能力、发布数据战略、建立企业责任体系三个步骤,为后续数据资产管理和运营锚定方向、奠定基础。

2)管理实施:第二阶段的目标主要是通过建立数据资产管理的规则体系,依托数据资产管理平台工具,以数据生命周期为主线,全面开展数据资产管理各项活动,以推动第一阶段成果落地。第二阶段管理实施的开展主要包括建立规范体系、搭建管理平台、全流程管理、创新数据应用四个步骤。

3)稽核检查:稽核检查阶段是保障数据资产管理实施阶段涉及各管理职能有效落地执行的重要一环。这个阶段包括检查数据标准执行情况、稽核数据质量、监管数据生命周期等具体任务。

4)资产运营:通过前三个阶段,企业已经能够建立基本的数据资产管理能力,在此基础上,还需要具备以实现业务价值为导向,以用户为中心,为企业内外部不同层面用户提供数据价值的能力。资产运营阶段是数据资产管理实现价值的最终阶段,该阶段包括开展数据资产价值评估、数据资产运营流通等。

06、数据交换

1.定义

数据交换共享就是让不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。

2.数据交换与共享方法

1)电子或数字文件传输

数据可以通过电子或数字文件传输进行交换,通过文件传输(通信)协议在两个系统之间传输文件(数据)。各组织需要考虑与使用不同文件传输协议带来的安全风险;文件传输协议包括FTPSHTTPSSCP

2)便携式存储设备

在某些情况下,可能需要使用便携式存储设备交换数据, 例如可移动磁盘(数字视频光盘 (DVD))或通用串行总线 (USB)等)。组织需要考虑被传输数据的影响级别以及数据将要传输到的系统的影响级别,以确定所交换的数据是否采取了足够的措施。

3)电子邮件

组织经常通过电子邮件以附件的形式共享数据。组织需要考虑参与组织的电子邮件基础设施的影响级别和已经实施的安全控制,以确定是否实施了足够的控制措施来保护正在交换的数据,例如,在中等影响级别受保护的电子邮件基础设施不足以保护高影响级别的数据。

4)数据库

数据库共享或数据库事务信息交换,包括来自另一个组织的用户对数据的访问。组织需要考虑的是提供数据访问而不是传输数据的可行性,以减少重复数据集以及数据机密性和完整性损失的风险。

5)文件共享服务

文件共享服务包括但不限于通过基于 Web 的文件共享或存 储共享数据和访问数据(例如 Drop BoxGoogle DriveMS Teams MS One Drive)。使用基于Web的文件共享或存储系统,该系统无法让数据所有者了解服务器所在位置,或对设施、服务器和数据的物理和逻辑访问。

3.数据交换共享的五个原则

1)一致性原则:提供数据共享服务前,要确定每项数据的源头单位, 由源头单位对数据的准确性、一致性负责。减少数据搬家,从而减少向下游二次传递所造成的数据不一致问题。

2)黑盒原则:数据使用方不用关注技术细节,满足不同类型的数据共享服务需求。

3)敏捷响应原则:数据共享服务一旦建设完成,并不需要按数据使用方重复构建集成通道,而是通过订阅该数据共享服务快速获取数据。

4)自助使用原则:数据共享服务的提供者并不需要关心数据使用方怎么消费数据,避免了供应方持续开发却满足不了数据使用方灵活多变的数据使用诉求的问题。

5)可溯源原则:所有数据共享服务的使用都可管理,数据供应方能够准确、及时地了解使用了自己的数据,确保数据使用的合理。

07、数据安全

1.定义

数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。

数据安全治理是基于数据安全合规要求、用户的业务发展需要和风险承受能力等多种因素,以数据安全管理和技术能力为依托,实现业务与安全融合发展的安全建设机制。

2.数据安全管理能力

1)组织治理

数据安全治理组织可采取5层组织结构,即决策层、管理层、执行层、监督层和参与层。

2)制度治理

数据安全制度体系主要从4个层面进行建设。

3.数据安全技术能力

数据安全技术能力治理主要是对技术措施的建设,围绕数据全生命周期的各个阶段采取相应的安全防护措施,包括智能识别、分类分级、数据库审计、加密传输、数据防泄露、数据脱敏、数据水印、用户行为分析、知识图谱等。

4.数据安全运营能力

通过构建数据安全隐患发现及处置机制、数据安全风险评估机制、数据安全突发事件应急响应机制、数据安全监控与审计机制,形成规范化、流程化、智能化运营的长效安全运营体系。

08、数据生命周期

1.定义

数据的生命周期是指某个集合的数据从产生或获取到销毁的过程。数据生命周期分为:采集、存储、整合、呈现与使用、分析与应用、归档和销毁几个阶段。

数据生命周期管理是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从数据创建和初始的存储,直到它过时被删除或销毁。

2.常见的数据生命周期管理模型

数据生命周期管理模型定义了一个宏观的框架,它是从生产阶段到消亡阶段的数据生命的全景视图。在数据管理领域,学术界和企业界的许多研究人员提出了不同的数据生命周期管理模型,如下图所示。

3.数据生命周期管理的四个阶段

1

该阶段不仅仅指数据的创建与接收,有效的数据资产管理应在数据的产生之前开始。首先应该做好规划和计划,包括数据资产盘点、数据治理计划、数据需求计划等;然后对数据标准进行定义,制定数据管理规范,确保数据按照标准产生,从源头抓起。

2

需要对结构化、半结构和非结构化多样化的数据结构,批数据和流数据多种数据形式进行存储和处理。面对不同数据结构、数据形式、时效性、性能要求和存储与计算成本等因素,应该使用适合的存储形式与计算引擎。

3

数据因使用而升值,该阶段是数据真正产生价值的周期。在这个期间要特别强调数据复用,这对于节省成本,提高效率非常重要。未来企业或组织在评估一个数据产品值不值得开发很重要的一个指标应该看能不能复用。

4

期是将那些生命周期步入尾声的数据保存到低性能廉价的存储介质或直接销毁,是数据生命周期管理必不可少的步骤。对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/26662.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jenkins主从节点安装及pipeline构建

一、背景 通过Jenkins主节点配置的pipeline下发给从节点执行,从而兼容容器化执行 二、安装主节点 docker-compose.yml jenkins:user: rootrestart: alwaysimage: jenkinsci/blueoceancontainer_name: jenkins# network_mode: hostports:- "8081:8080"-…

【算法与数据结构】209.长度最小的子数组

文章目录 题目一、暴力穷解法二、滑动窗口法完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 题目 一、暴力穷解法 思路分析:这道题涉及到数组求和,那么我们很容易想到利用两个for循环来写,…

移动端浏览器性能优化探索

目录 前言 如何衡量卡顿 FPS 与卡顿的关系 新的衡量指标 浏览器动画渲染 GPU扮演的角色 合理避免回流和重绘 浏览器工作流程 解决方案 在移动端的页面开发过程中,我们经常提及页面性能优化、消除页面卡顿的话题,如何确定优化策略,我…

“老年养生”APP的设计与开发

摘要:我国人口老龄化呈上升趋势,老年人口比重增加。这是我国经济发展的一大挑战,也是老年健康产业的一大机遇。随着我国经济发展,越来越多的人开始关注自己的身体,这导致各种关于健康的网络应用层出不穷。但是经过分析…

【python技能树】python简介

1 Python定义 Python 是一种简单易学并且结合了解释性、编译性、互动性和面向对象的脚本语言。Python提供了高级数据结构,它的语法和动态类型以及解释性使它成为广大开发者的首选编程语言。 Python 是解释型语言: 开发过程中没有了编译这个环节。类似于…

Python中打印彩色信息的方法

在Python中,可以使用print()函数打印出彩色信息。在使用print()打印之前,需要调用os标准库对系统进行设置。 1 os标准库 1.1 简介 os是Operating System的简写,即“操作系统”。os标准库是一个操作系统接口模块,提供了使用操作…

学生成绩管理系统(Java)

目录 ​编辑 需求分析: 登录界面(LoginPanel) 主界面(MainApp) 重写 1.班级重写(cs.practics.bean.BjBean.java) 2.课程重写(cs.practics.bean.CourseBean.java) 3.成绩重写(cs.practics.bean.MarkBean.java) 4.学生重写(cs.practics.bean.StudentBean.java…

Spring Cloud 容错机试 Hystrix 服务降级 RestTemplate:

Ribon的服务降级操作 雪崩效应: 如果短信服务炸了后面的所有服务就会起连锁反应造成全部服务挂掉,这就是雪崩效应,那么其实短信服务又不是我们主要业务,这个时候我们可以采用服务降级,服务降级就是暂时的把短信服务停…

springboot服务端接口公网远程调试 - 实现HTTP服务监听【端口映射】

文章目录 前言1. 本地环境搭建1.1 环境参数1.2 搭建springboot服务项目 2. 内网穿透2.1 安装配置cpolar内网穿透2.1.1 windows系统2.1.2 linux系统 2.2 创建隧道映射本地端口2.3 测试公网地址 3. 固定公网地址3.1 保留一个二级子域名3.2 配置二级子域名3.2 测试使用固定公网地址…

安装CHATGPT保姆级教程(windows版)

ai包链接: 链接:https://pan.baidu.com/s/1tKuG4OfkewlDRU292vx8mw?pwdtw8t 提取码:tw8t 一、安装篇 安装python,使用软件包中的python安装程序安装后检查是否安装成功,cmd窗口运行命令: python –vers…

python自动化爬虫实战

python自动化爬虫实战 偶然的一次机会再次用到爬虫,借此机会记录一下爬虫的学习经历,方便后续复用。 需求:爬取网站数据并存入的csv文件中,总体分为两步 爬取网站数据存到到csv文件中 1、配置爬虫环境 1.1、下载自动化测试驱动 …

【2023最新】Python + Pycharm + Anaconda安装配置一条龙

【2023最新】Python Pycharm Anaconda安装配置一条龙 文章目录 【2023最新】Python Pycharm Anaconda安装配置一条龙1. Python1.1 Python下载1.2 Python安装1.3 测试 2. Pycharm2.1 Pycharm下载2.2 Pycharm安装配置2.3 你好Pycharm 3. Anaconda3.1 Anaconda下载3.2 Anacond…

【网络】TCP通讯(三次握手、四次挥手;滑动窗口;TCP状态转换;端口复用;TCP心跳检测机制)

前言:建议看着图片,根据文字描述走一遍TCP通讯过程,加深理解。 目录 TCP通信时序: 1)建立连接(三次握手)的过程: 2)数据传输的过程: 3)关闭连…

opencv4 傅里叶变换

傅里叶变换 ① 高频:变化剧烈的灰度分量,例如边界礁石。 ② 低频:变化缓慢的灰度分量,例如一片大海。 ③ 高通滤波器:只保留高频,会使得图像细节增强。高频边界锐化了,增强了,细节…

网瘾少年转行软件测试,月薪20k? 叛逆少年终归成长...

前言: 高中住校期间沉迷游戏(DNF),尤其是高三那年,晚上翻墙出去通宵,白天上课睡觉,高考自然是考了个稀碎,高考结束那个暑假刚开始觉得整个人都自由了,爸妈看我没考上大学,知道我心情…

Sql Server 自动备份

Sql Server 自动备份 文章目录 Sql Server 自动备份1. 打开SQL Server,在管理下找到”维护计划”,右键点击”维护计划向导”,如图;2. 再次点击维护计划向导3. 在选择维护任务下勾选”备份数据库”、”清楚维护任务”4.选择需要备份…

北邮22信通:二叉树显示路径的两种方法 递归函数保存现场返回现场的实例

北邮22信通一枚~ 跟随课程进度每周更新数据结构与算法的代码和文章 持续关注作者 解锁更多邮苑信通专属代码~ 获取更多文章 请访问专栏~ 北邮22信通_青山如墨雨如画的博客-CSDN博客 一.讲解 要想实现二叉树的路径显示,我们要按照…

每日一题——三数之和(双指针)

每日一题 三数之和 题目链接 思路 解析函数原型 首先我们来看一下题目给的函数原型: int** threeSum(int* nums, int numsSize, int* returnSize, int**returnColumnSizes)题目要求我们返回一个二维数组,数组的行数代表着存在多少个满足条件的三元组&…

基于SVM的鸢尾花数据集回归分析

目录 1. 作者介绍2. SVM支持向量机算法2.1 鸢尾花数据集2.2 鸢尾花数据集可视化2.2.1 散点图2.2.2 箱型图2.2.3 三维散点图(3D) 3. SVM算法实现3.1 完整代码3.2 运行结果3.3 问题与分析 1. 作者介绍 张佳伦,男,西安工程大学电子信…

Cuda | Cudnn安装及其配置

文章目录 👉引言💎一、Cuda安装1 选择Cuda版本2下载及运行安装程序3 测试 二、Cudnn安装1、进入官网下载对应cuda版本的cudnn2、下载好相应版本并进行解压安装3、解压完成后4、测试 👉引言💎 学习的最大理由是想摆脱平庸&#xf…