数据治理基础知识

文章目录

    • 基本概念
    • 相关名词术语
    • 数据治理对象

基本概念

1)从管理者视角看数据治理

数据治理是企业发展战略的组成部分,是指导整个集团进行数字化变革的基石,要将数据治理纳入企业的顶 层规划,各分/子公司、各业务部门都需要按照企业的顶层战略要求进行工作部署,以实现企业数字驱动的转型的目标。

2)从业务人员视角看数据治理

这个痛点需求恰好击中了数据治理的三大要害:

  • 第一,要定义数据,让抽象的数据变成可读、可理解的信息;
  • 第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产,
    方便用户随时找到想要的数据;
  • 第三,要做好数据质量管理,提升数据质量并提升数据的使用率。

3)从技术人员视角看数据治理

数据治理应包含三部分:

  • 一是ETL,即数据的抽取、转换、加载,保障数据仓库内有数据可用;
  • 二是对数据的处理、转换和融合,保障数据仓库内的数据准确、可用;
  • 三是元数据管理,保障数据仓库内的数据可进行血统溯源和影响分析。

企业数据治理的重点是对数据源中数据的治理,也就是需要对业务系统实施治理,而数据仓库只是数据的应用端,只有业务系统的数据质量高了,数据仓库才能获得高质量的数据,进而获得高质量的洞察。

数据治理还得看数据湖的,从源头治理虽然好,但是操作起来太复杂,周期长,成本高。而我们在数据湖中治理就不一样了,我们的数据湖已经接入企业90%以上的数据,数据统一在”湖“中管理。所有的用数需求都需要通过数据湖调取,因此我们只需要将数据湖中的数据治理好,就什么问题都没有了。

国际数据管理协会(DAMA)给出的定义是:数据治理是对数据资产管理行使权力和控制的活动集合。

国际数据治理研究所(DGI)给出的定义是:数据治理是一个通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。

所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。

相关名词术语

1)数据元

数据元:一组属性描述定义、标识、表示和允许值的数据单元。数据元由对象、特性和表示三部分组成。数据元是组成实体数据的最小单元,或称原子数据。如性别为数据元,“男”和“女”为数据元的值。

作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。

2)元数据

元数据:描述数据的数据或关于数据的结构化数据。通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。

3) 主数据

主数据:企业内需要在多个部门、多个信息系统之间共享的数据,如客 户、供应商、组织、人员、项目、物料等。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。

主数据具有3大特性、4个超越。

  • 3大特性:高价值性、高共享性、相对稳定性。
  • 4个超越:超越业务,超越部门,超越系统,超越技术。

主数据用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。

4)业务数据

业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。业务数据来自三个方面。

  • 业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。
  • 系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。
  • 自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。

业务数据的共同特点是:时效性强,数据量大。

业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。

5)主题数据

主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据。

主题数据是按照一定的业务主题域组织的,服务于各种数据分析或应用开发。如某生产制造企业 定义了12大主题数据,包括综合服务、人力资源、财务管理、质量管理、生产 管理、工艺管理、库存管理、销售管理、采购管理、设备管理、能源管理和安 全环保。

6)数据仓库

数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定 的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加 庞大的数据集。本质上,数据仓库与数据库并没有什么区别。

数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用。

  1. 数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
  2. 数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
  3. 数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。

数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。

为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。

7)数据湖

数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、 XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如 图形、音频、视频)。

数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。

数据仓库与数据湖的区别:

image

数据治理对象

数据治理的对象必须是重要的数据资源,是关乎企业商业利益的数据资源,这样的数据资源方可称为“数据资产”。

资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”其中,“由企业拥有或者控制”是指企业享有某种资源的拥有权或者控制权,“预期会给企业带来经济利益”是指直接或者间接导致现金和现金等价物流入企业的潜力。

数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源,并且其价值和成本是可计量的。

数据要成为资产,首先要具备可利用性,这样才能给企业带来可预期的经济收益,否则就不是资产。另外,如果数据的获取、管理和维护成本大于其实际产生的收益,或者企业无法通过自用或外部商业化对数据进行有效的变现,那么这些数据也不能视为资产。

成本或价值可衡量。数据成本一般包括采集、存储和计算的费用(人工费用、IT设备等直接费 用和间接费用等)以及运维费用(业务操作费、技术操作费等),这是相对容 易计量的。数据价值主要从数据资产的分类、使用频次、使用对象、使用效果 和共享流通等维度计量。

数据资产的利益相关方包括以下几类:

  • 数据的生产者,即通过业务交易或事项产生数据的人或组织。
  • 数据的拥有者或控制者,生产数据的人不一定拥有数据。
  • 数据价值和经济利益的受益者。

数据治理就是对数据生产者、拥有者或控制者、数据价值受益者进行规范
和协调,让数据能够规范化、高质量输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/666973.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智慧园区整理技术方案(ppt,软件全套建设方案)

智慧园区管控平台整体技术方案 1.平台概述 2.公共安全 3.物业管理 4.综合管理 5.企业服务 平台规划,整理技术架构搭建,统一门户,lot物联平台,视频云管理平台,GIS服务平台,服务器架构,统一身份认…

发现一个ai工具网站

网址 https://17yongai.com/ 大概看了下,这个网站收集的数据还挺有用的,有很多实用的ai教程。 懂ai工具的可以在这上面找找灵感。

HTML如何让文字底部线条不紧贴在文字下面(既在内容下方又超出内容区域)

hello,大家好,星途小鹏今天给大家带来的内容是如何让文字底部线条不紧贴在文字下面。 话不多说,先上效果图 简单来说就是padding和margin的区别。 在网页设计中,有时我们想要给某个元素添加一个装饰性的线条,比如底部…

【设计模式】创建型-建造者模式

前言 在面向对象的软件开发中,构建复杂对象时经常会遇到许多挑战。一种常见的解决方案是使用设计模式,其中建造者模式是一个强大而灵活的选择。本文将深入探讨建造者模式的原理、结构、优点以及如何在实际项目中应用它。 一、复杂的对象 public class…

安卓如何书写注册和登录界面

一、如何跳转一个活动 左边的是本活动名称, 右边的是跳转界面活动名称 Intent intent new Intent(LoginActivity.this, RegisterActivity.class); startActivity(intent); finish(); 二、如果在不同的界面传递参数 //发送消息 SharedPreferences sharedPreferen…

【再探】设计模式—中介者模式、观察者模式及模板方法模式

中介者模式让多对多的复杂引用关系变成一对多,同时能通过中间类来封装多个类中的行为,观察者模式在目标状态更新时能自动通知给订阅者,模版方法模式则是控制方法的执行顺序,子类在不改变算法的结构基础上可以扩展功能实现。 1 中…

Python 之SQLAlchemy使用详细说明

目录 1、SQLAlchemy 1.1、ORM概述 1.2、SQLAlchemy概述 1.3、SQLAlchemy的组成部分 1.4、SQLAlchemy的使用 1.4.1、安装 1.4.2、创建数据库连接 1.4.3、执行原生SQL语句 1.4.4、映射已存在的表 1.4.5、创建表 1.4.5.1、创建表的两种方式 1、使用 Table 类直接创建表…

【稳定检索/投稿优惠】2024年商务、信息管理与大数据经济国际会议(BIMBDE 2024)

2024 International Conference on Business, Information Management, and Big Data Economy 2024年商务、信息管理与大数据经济国际会议 【会议信息】 会议简称:BIMBDE 2024 大会地点:中国北京 会议官网:www.bimbde.com 会议邮箱&#xff…

MySql part1 安装和介绍

MySql part1 安装和介绍 数据 介绍 什么是数据库,数据很好理解,一般来说数据通常是我们所认识的 描述事物的符号记录, 可以是数字、 文字、图形、图像、声音、语言等,数据有多种形式,它们都以经过数字化后存入计算机…

CS4344国产替代音频DAC数模转换芯片DP7344采样率192kHz

目录 DAC应用简介DP7344简介结构框图DP7344主要特性微信号:dnsj5343参考原理图 应用领域 DAC应用简介 DAC(中文:数字模拟转换器)是一种将数字信号转换为模拟信号(以电流、电压或电荷的形式)的设备。电脑对…

Golang | Leetcode Golang题解之第123题买卖股票的最佳时机III

题目&#xff1a; 题解&#xff1a; func maxProfit(prices []int) int {buy1, sell1 : -prices[0], 0buy2, sell2 : -prices[0], 0for i : 1; i < len(prices); i {buy1 max(buy1, -prices[i])sell1 max(sell1, buy1prices[i])buy2 max(buy2, sell1-prices[i])sell2 m…

Docker 环境下 3D Guassian Splatting 的编译和配置

Title: Docker 环境下 3D Guassian Splatting 的编译和配置 文章目录 前言I. 宿主系统上的安装配置1. 安装 nvidia driver2. 安装 docker3. 安装 nvidia-container-toolkit II. Docker 容器安装配置1. 拉取 ubuntu 22.042. 创建容器3. 进入容器4. 容器中安装 cuda SDK5. 容器中…

python class __new__、__init__、__call__ 区别

在Python中&#xff0c;__new__、__init__ 和 __call__ 是三个不同的特殊方法&#xff0c;它们在类的创建和调用过程中扮演着不同的角色。以下是它们的区别和用法&#xff1a; 1. __new__ 方法 作用&#xff1a;__new__ 是一个静态方法&#xff0c;负责创建并返回一个新的实例…

携手亚马逊云科技,神州泰岳如何打通生成式AI落地最后三公里

导读&#xff1a;神州泰岳成为首批获得亚马逊云科技生成式AI能力认证的合作伙伴。 “过去6年来&#xff0c;在与亚马逊云科技的合作过程中&#xff0c;我们大概签约了300家以上的中国出海企业。”近日在一次沟通会上&#xff0c;神州泰岳副总裁兼云事业部总经理刘家歆这样向媒…

idea中使用maven-helper插件阅读排查【经典版】2

一 maven-helper的使用 1.1 helper页面 打开pom文件&#xff0c;并可以切换tab&#xff0c;简单使用&#xff0c;如下图&#xff1a; Conflicts&#xff08;查看冲突&#xff09; All Dependencies as List&#xff08;列表形式查看所有依赖&#xff09; All Dependencies …

【vue3|第4期】Vue3的选项式与组合式

日期&#xff1a;2024年5月30日 作者&#xff1a;Commas 签名&#xff1a;(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释&#xff1a;如果您觉得有所帮助&#xff0c;帮忙点个赞&#xff0c;也可以关注我&#xff0c;我们一起成长&#xff1b;如果有不对的地方&#xf…

解析前端开发中同源策略与配置代理

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据总结 前言 在前端开发中&#xff0c;跨域请求是一个常见的问题。同源策略限制了浏览器中一个页面…

win10系统下WPS工具显示灰色全部用不了,提示登录

如果你在写文档或使用excel时发现导航栏的工具全部使用不了&#xff0c;弹出是需要您登录&#xff0c;可以通过以下操作不用登录。 按照 1&#xff08;搜索框&#xff09;—> 2&#xff08;应用&#xff09;—> 3&#xff08;WPS Office&#xff09;点鼠标左键—> 4&a…

使用LeanCloud平台的即时通讯

LeanCloud 是领先的 Serverless 云服务&#xff0c;为产品开发提供强有力的后端支持&#xff0c;旨在帮助开发者降低研发、运营维护等阶段投入的精力和成本。 LeanCloud 整合了各项服务&#xff0c;让开发者能够聚焦在核心业务上&#xff0c;为客户创造更多价值。 *即时通讯 …

PromptIR论文阅读笔记

MZUAI和IIAI在NIPS2023上的一篇论文&#xff0c;用prompt来编码degradation&#xff0c;然后用来guide restoration network&#xff0c;使得模型能够泛化到不同degradation types and levels&#xff0c;也就是说是一个模型一次训练能够应对多种degradation的unified model。文…