数据质量和数据治理的关系 | 京东云技术团队

很多不太了解的人会认为:数据治理就是干数据清洗的。

近两年,在我们公司,数据治理团队在数据降本方面做的比较多,效果还不错,我们很多人可能以为:数据治理就是做数据清理的。

在京东科技集团数据治理工作组第一次全体会议上,我就讲过数据治理和数据清洗之间的关系:

数据清洗只是指通过识别和纠正数据中的错误、缺失、重复或不一致等问题,确保数据质量的过程。

我的观点是数据质量和数据治理是一体的,没有数据治理,就不可能有良好的数据质量。通过进行数据治理,我们实现了数据质量。怎么会这样?那是什么意思?让我们来了解一下。

1 数据质量管理

更准确地说,数据质量或数据质量管理侧重于确保数据符合我们的数据质量维度。数据质量有很多维度,比如:

完整性:是否填写了所有相关字段?

有效性:所有值都符合吗?地址字段是否在正确的顺序和正确的拼写?

准确性:数据是否反映了现实世界中的人或物体? 米老鼠可能不是一个真正的销售对象。

一致性:数据是否与理解的模式一致?例如,出生日期的数据格式应为 YYYY/MM/DD/。

唯一性:是否有重复的记录?

及时性:它是最新的吗?

数据质量确保我们的数据符合这些维度。或者简单地说,数据质量管理确保我们拥有高质量的数据,干净的数据。

让我们扩展我们对数据质量管理的理解,并从DAMA国际的角度来看待它。数据质量是国际数据管理协会确定的11个数据管理领域之一:

1.数据治理通过建立一个考虑到企业需求的数据决策系统,为数据管理提供指导和监督。

2.数据架构定义了管理数据资产的蓝图,通过与建立战略数据需求的组织策略保持一致,并设计满足这些需求。

3.数据建模和设计是一个发现、分析、表示和交流精确形式的数据需求的过程。

  1. 数据存储和操作包括设计、实现和支持使其价值最大化。操作在整个数据生命周期中提供支持,从规划数据到处理数据。

5.数据安全确保数据隐私和机密性得到保护,数据不被破坏,数据被适当访问。

6.数据集成和互操作性包括与数据存储、应用程序和组织内部之间的数据移动和整合相关的过程。

7.文档和内容包括计划、实施和控制活动,用于管理在一系列非结构化媒体中发现的数据和信息的生命周期,特别是支持法律和法规遵从性要求所需的文档。

8.参考数据和主数据包括核心关键共享数据的持续核对和维护,使系统能够一致地使用关于基本业务实体的最准确、最及时和最相关版本的真相。

9.数据仓库和商务智能包括计划、实施和控制过程,以管理决策支持数据,并使知识工作者能够通过分析和报告从数据中获取价值。

10.元数据包括规划、实施和控制活动,以便能够访问高质量的综合元数据,包括定义、模型、数据流和其他对理解数据及其创建、维护系统至关重要的信息并访问。

11.数据质量包括质量管理技术的计划和实施,以测量、评估和提高数据在组织内的适用性。

根据DAMA的说法,数据质量包括质量管理技术的计划和实施,以测量、评估和提高数据在组织内的适用性。

实际上,数据质量在大多数其他数据管理领域中都发挥着作用。要保证数据安全,就不可能没有好的数据质量,元数据与数据质量的关系也是双向的,数据架构也会对数据的质量起到一定的作用,反之亦然。处于中心地位的数据治理确保所有这些数据管理领域结合在一起。

2 无论治不治理,数据质量都在那里

到现在为止,你可能会说:“好吧,我有点明白了,但我们没有做数据治理,数据质量也挺好。”如果是这样的话,我认为有两种可能的现实:

•真的没有数据治理

•有隐形的数据治理

让我们更详细地看一下这两个案例。

2.1 真的没有数据治理

如果数据治理不存在,那么我们可能会遇到以下一种、部分或全部情况:

数据质量不是企业级全域的:你也可能认为是覆盖企业范围的,比如ERP,这并不意味着数据质量是企业范围的。尤其是在像我们这样的大型组织中,因为可能存在数据质量规则,这些规则仅根据该企业系统的利益相关者的输入创建,但这可能会影响那些不是系统利益相关者或用户的人,比如有集成相关的系统用户,也可能是数仓或者下游数据用户。

缺乏通用标准:可能会创建数据质量标准,但前提是它们与特定部门、业务单位或系统的需求有关。一旦其他部门或系统加入到数据质量计划的工作中,这些标准就会发生冲突,需要解决方法或完全更改。

没有明确的角色和职责:可能会分配负责清洗和维护数据的资源,但资源类型因团队而异。当标准、定义和优先级发生冲突时,也可能不清楚谁拥有所有权,谁负责解决。

数据质量管理大多是被动的:这主要是数据质量管理处于早期阶段,也意味着缺乏数据治理。数据质量问题是以被动的方式识别和处理的,并不总是解决问题的根本原因。

2.2 有隐形的数据治理

就目前我们公司的现状开看,作为产研、数仓、数据集市、数据分析等团队成员,你实际上可能会说:“好吧,我们并没有像你上面描述的那样糟糕”。您实际上可能有:

•数据质量要求

•数据质量校验规则

•数据质量测试,甚至是监控

•数据质量问题处理

那么,你可能就有了我喜欢称之为“卧底数据治理”的东西。你可能有很多数据治理的工作内容,但没有正式、正规和专业化的数据治理。

3 数据质量和数据治理关系

我想我已经从上一节中明确指出,数据治理和数据质量是共生关系。它们是同一枚硬币的两面。没有数据治理,就不可能有良好的数据质量,而数据治理实施必须非常有效,才能从根本上解决数据质量问题。

实际上,数据质量和数据治理之间存在相当多的重叠,如下图所示:

数据治理描述了谁需要做什么、在什么条件下对什么数据执行操作,以及使用哪些流程、程序、工具和总体最佳实践。因此,很多因素都会对数据质量产生有益的影响,但不仅如此。业务规则、数据标准、指标、角色和职责等都有利于数据质量,因此是重叠的,但不仅仅是数据质量。主数据管理、数据可访问性、数据集成、元数据管理、BI,甚至数据安全等等都有直接的好处。

当然,也有一些领域只与数据质量有关,例如:数据概要分析、数据匹配、根因分析和数据清洗。

4 总结

很多时候,数据质量是数据治理的驱动因素之一,这是数据治理计划的最初重点,因此两者之间可能会混淆。但它们并不相同,它们是同一枚硬币的两面,而不是两枚硬币。

作者:京东科技 李然辉

来源:京东云开发者社区 转载请注明来源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/360682.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何使用Docker部署JSON Crack

文章目录 1. 在Linux上使用Docker安装JSONCrack2. 安装Cpolar内网穿透工具3. 配置JSON Crack界面公网地址4. 远程访问 JSONCrack 界面5. 固定 JSONCrack公网地址 JSON Crack 是一款免费的开源数据可视化应用程序,能够将 JSON、YAML、XML、CSV 等数据格式可视化为交互…

链接脚本常用命令(KEEP、MEMORY、PROVIDE、ENTRY、AT、ALIGN等)

1、命令介绍 命令作用KEEP保证该段一定在输出文件里,不会被丢弃MEMORY描述目标设备的内存情况,内存分几个区域,每个内存区域的属性PROVIDE从链接脚本导出符号给C语言或者汇编语言使用ENTRY程序入口AT指定段的加载地址ALIGN指定地址的对齐LOA…

入门产品经理详细教程!PM常用工具|岗位职责|学习书单|能力模型|与项目经理的区别

移动互联网和AI时代,产品经理无疑是备受瞩目的工作,产品经理负责提出各种创意,同时协调各种资源,推动创意落地实现产品从0到1,而且互联网上对产品经理这个职业也有诸多赞誉—— 产品经理是最接近CEO的岗位产品经理是站…

解密Sentinel中流控规则的阀值奥秘

欢迎来到我的博客,代码的世界里,每一行都是一个故事 解密Sentinel中流控规则的阀值奥秘 前言阀值类型基础:Sentinel中的数字量规1. QPS(每秒查询率)阀值:2. 线程数阀值:3. 关联规则阀值&#xf…

Java基于SpringBoot的学科竞赛系统,附源码,文档

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

【HarmonyOS应用开发】ArkUI 开发框架-基础篇-第一部分(七)

常用基础组件 一、组件介绍 组件(Component)是界面搭建与显示的最小单位,HarmonyOS ArkUI声明式开发范式为开发者提供了丰富多样的UI组件,我们可以使用这些组件轻松的编写出更加丰富、漂亮的界面。组件根据功能可以分为以下五大类…

活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路

导读 近日,由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”在上海市四行仓库举行,吸引了数百位业界精英的参与。 本次论坛以“小趋势大未来”为主…

专业138总分420+中国科学技术大学843信号与系统考研经验中科大电子信息通信

**今年中科大专业课843信号与系统138分,总分420顺利上岸,梦圆中科大,也是报了高考失利的遗憾,总结一下自己的复习经历,希望可以给大家提供参考。**首先,中科大843包括信号与系统,和数字信号处理…

怎样选择多线程多进程和多协程?

有这么多可以实现并发的方式方法,那么,我们怎么确定在合适的时机采用合适的实现方法呢?这就需要我们对各个实现并发的方式方法有一个全面的概念性的理解,以及他们的内在执行逻辑优缺点有一个清晰的认识! 如下图所示,首先我们需要对单进程、多进程、多线程及多协程之间有…

华为配置在用户物理位置变化时部署业务随行示例(V200R006C00、V200R007C00、V200R008C00)

配置在用户物理位置变化时部署业务随行示例(V200R006C00、V200R007C00、V200R008C00) 业务随行简介配置注意事项组网需求需求分析数据规划配置思路操作步骤配置文件 组网图形 图1 组网图 业务随行简介配置注意事项组网需求需求分析数据规划配置思路操作步…

记录 | ubuntu nm命令的基本使用

什么是nm命令 nm命令是linux下针对某些特定文件的分析工具,能够列出库文件(.a、.lib)、目标文件(*.o)、可执行文件的符号表。 nm命令的常用参数 -A 或 -o 或 --print-file-name:打印出每个符号属于的文件…

跟着pink老师前端入门教程-day14+15

2.6 main 主体模块制作 HTML&#xff1a; <div class"w"><div class"main"><!-- 焦点图模块 --><div class"focus"><ul><li><img src"./images/banner_bg.png" alt""></li>…

【Midjourney】关于标准模型的几个按钮都有什么用

当用户在Midjourney Bot所在的服务发送/settings命令时就能调出设置窗口&#xff0c;本文将介绍该窗口中的各个按钮都有什么作用。 1.RAW Mode 依照官方的描述来看V5.2模型似乎带有自动优化功能&#xff0c;会对用户输入的关键词空白描述进行补全和优化&#xff0c;以便修复所…

ansible 常用命令 基本说明 个人备忘

linux下设置一台机器的名称为ansible hostnamectl set-hostname ansible //设置一台机器的名称为master-01 hostnamectl set-hostname master-01 hostnamectl set-hostname master-02 hostnamectl set-hostname node01 hostnamectl set-hostname node02 hostnamectl set-…

Linux 入门基础知识(一)—— Linux的基本使用

Linux 入门基础知识 一、Linux的基本使用和配置1.1、终端1.2、消耗内存1.3、运行级别1.6、登录前欢迎语1.5、登录后欢迎语1.6、shell1.7、ps aux1.8、设置主机名1.9、whoami和who am i1.10、命令提示符 二、Linux执行命令的过程详解和命令类型2.1、命令执行2.2、hash缓存表2.3、…

MySQL的原生API实现插入数据后在可视化工具上不显示的问题解决

显示表中有两行数据&#xff0c;该表也设置了主键和唯一索引 点进表里看却没有数据 问题原因出现在这里&#xff0c;虽然很多常用的数据库连接池都会开启自动提交&#xff0c;但ibatis的SqlSession使用sessionFactory.openSession()创建时&#xff0c;默认的自动提交是false&am…

晶相光电 JX-A05 车规级 200万 像素图像传感器

晶相光电推出的 JX-A05 是一款 1/2.7英寸、3.0m、90fps12bit 的车规级 200万 像素图像传感器。JX-A05 拥有三段曝光 HDR 30fps 技术&#xff0c;实现高达 120dB 的高动态范围。汽车在夜间行驶复杂多变恶劣的光线环境下&#xff0c;JX-A05 拥有优异的夜视全彩成像性能。JX-A05 具…

CTFHub | DOM反射

0x00 前言 CTFHub 专注网络安全、信息安全、白帽子技术的在线学习&#xff0c;实训平台。提供优质的赛事及学习服务&#xff0c;拥有完善的题目环境及配套 writeup &#xff0c;降低 CTF 学习入门门槛&#xff0c;快速帮助选手成长&#xff0c;跟随主流比赛潮流。 0x01 题目描述…

java大文件分片上传

1.效果图 2.前端html <!DOCTYPE html> <html> <head></head> <body> <form><input type"file" id"fileInput" multiple><button type"button" onclick"upload()" >大文件分片上传&l…

iOS17使用safari调试wkwebview

isInspectable配置 之前开发wkwebview的页面的时候一直使用safari调试&#xff0c;毕竟jssdk交互还是要用这个比较方便&#xff0c;虽说用一个脚本插件没问题。不过还是不太方便。 但是这个功能突然到了iOS17之后发现不能用了&#xff0c;还以为又是苹果搞得bug&#xff0c;每…