数据治理技术:研究现状与数据规范

随着信息技术的迅速发展,数据规模逐渐扩大,与此同时,劣质数据也随之而来,极大地降低了数据挖掘的质量,对信息社会造成了严重的困扰,劣质数据大量存在于很多领域和机构,国外权威机构的统计表明:美国的企业信息系统中,1%~30%的数据具有各种错误和误差12.13.6%~81%的关键数据不完整或陈旧情况存在于美国的医疗信息系统中,根据 Gartner 的调查结果:在全球财富 1000 强的企业中超过25%的企业信息系统中存在错误数据。
大多数组织不考虑数据质量,就对大数据平台建设、分析应用等方面的重要影响而盲目投入,也缺乏对大数据资源的整体规划和综合治理,最终导致一些项目实施的终止和失败。因此数据治理越来越被重视。


数据治理的重要前提是建设统一共享的数据平台,信息系统的建设发展到一定阶段,数据资源将成为战略资产,而有效的数据治理才是数据资产形成的必要条件。

同时,在数据共享的时代,享受大数据带来便利的同时也带来如个人隐私泄露的问题,个人隐私信息泄露事件频繁发生,使得人们更加注重保护个人的隐私信息,往往会采取一些措施,如在进行网站注册时故意填写虚假信息,这会影响数据的质量和完整性,低质量的数据将导致低质量的挖掘结果。

因此,数据治理不仅要规范数据,实现数据的价值和管控风险,还要做到隐私保护。

数据治理的研究现状

1.1数据治理的定义

至今为止,数据治理还没有统一标准的定义,IBM 对于数据治理的定义是,数据治理是一种质量控制规程用于在管理、使用、改进和保护组织信息的过程中添加新的严谨性和纪律性。DGI则认为,数据治理是指在企业数据管理中分配决策权和相关职责。
数据治理的目标,总体来说就是提高数据质量,在降低企业风险的同时,实现数据资产价值的最大化,包括:

1.构筑适配灵活、标准化、模块化的多源异构数据资源接入体系;
2.建设规范化、流程化、智能化的数据处理体系;
3.打造数据精细化治理体系、组织的数据资源融合分类体系
4.构建统一调度、精准服务、安全可用的信息共享服务体系

其次,我们还需理解数据治理的职能一一数据治理提供了将数据作为资产进行管理所需的指导,最后,我们要把握数据治理的核心一一数据资产管理的决策权分配和指责分工。

由此可见,数据治理从本质上看就是对一个机构(企业或政府部门)的数据从收集融合到分析管理和利用进行评指导和监督(EDM)的过程,通过提供不断创新的数据服务,为企业创造价值。

数据治理与数据管理是两个十分容易混淆的概念,治理和管理从本质上看是两个完全不同的活动,但是存在一定的联系:

管理是按照治理机构设定的方向开展计划、建设、运营和监控活动来实现企业目标的,而治理过程是对管理活动的评估、指导和监督而管理过程是对治理决策的计划、建设和运营。

数据治理包括评估指导和监督、回答企业决策的相关问题并制定数据规范;

数据管理包括计划建设和运营,实现数据治理提出的决策并给予反馈。

1.2大数据治理一一数据治理新趋势

近年来大数据已成为国内外专家学者研究的热点话题,目前基本上采用IBM 的5V 模型描述大数据的特征:

第1个 V(volume)是数据量大,包括采集、存储和计算的量都非常大;

第 2 个V(velocity)是数据增长速度快,处理速度也快,时效性要求高;

第 3 个 V(variety)是种类和来源多样化,包括结构化、半结构化和非结构化数据;

第4个V(value)是数据价值密度相对较低,可以说是浪里淘沙却又弥足珍贵;

第5个 V(veracity)是各个数据源的质量良养不齐,需要精心甄别。

随着数据量的激增,可以用“5V+I/O”一一体量、速度、多样性、数据价值和质量以及数据在线来概括其特征。这里的“I/O”是指数据永远在线,可以随时调用和计算,这也是大数据与传统数据最大的区别。
2014 年,吴信东等人基于大数据具有异构、自治的数据源以及复杂和演变的数据关联等本质特征提出了HACE定理,该定理从大数据的数据处理、领域应用及数据挖掘这 3 个层次(如图 1 )来刻画大数据处理框架。

框架的第 1层是大数据计算平台,该层面临的挑战集中在数据存取和算法计算过程上;

第 2 层是面向大数据应用的语义和领域知识,该层的挑战主要包括信息共享和数据隐私、领域和应用知识这两个方面;

架构的第3层集中在数据挖掘和机器学习算法设计上:稀疏不确定和不完整的数据挖掘、挖掘复杂动态的数据以及局部学习和模型融合。

以第 3 层的 3 类算法对应3 个阶段:首先,通过数据融合技术对稀疏、异构、不确定、不完整和多源数据进行预处理;其次,在预处理之后,挖掘复杂和动态的数据:最后通过局部学习和模型融合获得的全局知识进行测试,并将相关信息反馈到预处理阶段,预处理阶段根据反馈调整模型和参数。

目前比较权威的大数据治理定义是:大数据治理是广义信息治理计划的一部分,它通过协调多个职能部门的目标,来制定与大数据优化、隐私与货币化相关的策略。
1.海量数据存储:根据本地实际数据量级和存储处理能力,结合集中式或分布式等数据资源的存储方式进行构建,为大数据平台提供 PB 级数据的存储及备份能力支撑.云计算作为一种新型的商业模式,它所提供的存储服务具有专业、经济和按需分配的特点,可以满足大数据的存储需求;

2.处理效率:大数据治理提供多样化的海量数据接入及处理能力,包括对各类批量、实时、准实时及流式的结构化、非结构化数据提供快速的计算能力和搜索能力,比如数据加载能力≥130MB/s、亿级数据秒级检索、百亿数据实时分析≤10s、千亿数据离线分析≤30m 等等。对于大数据的搜索能力方面,为了保证数据安全,大数据在云计算平台上的存储方式一般为密文存储,因此研究人员设计了很多保护隐私的密文搜索算法,基于存储在云平台上大数据的计算安全问题的解决方法一般采用比较成熟的完全同态加密算法;

3.数据可靠性:围绕行业数据元相关标准规定,基于行业元数据体系打造大数据平台采集汇聚、加工整合、共享服务等全过程的、端到端的数据质量稽核管控体系,确保数据准确可靠;

4.数据安全性:数据价值是大数据平台的核心价值,所以数据的安全是保证平台运行的基础。数据安全包括数据存储的安全、数据传输过程中的安全,数据的一致性、数据访问安全等。如图 2 所示,数据安的总体目标是保证数据的存储、传输、访问、展示和导出安全.数据安全措施主要有数据脱敏控制、数据加密控制、防拷贝管理、防泄漏管理、数据权限管理、数据安全等级管理等。

而数据治理技术就是在数据治理的过程中所用到的技术工具,其中主要包括数据规范、数据清洗、数据交换和数据集成这 4 种技术。

数据规范

2.1数据规范的含义

数据治理的处理对象是海量分布在各个系统中的数据,这些不同系统的数据往往存在一定的差异:数据代码标准、数据格式、数据标识都不一样,甚至可能存在错误的数据,这就需要建立一套标准化的体系,对这些有在差异的数据统一标准,符合行业的规范,使得在同样的指标下进行分析,保证数据分析结果的可靠性。
数据的规范化能够提高数据的通用性、共享性、可移植性及数据分析的可靠性,所以,在建立数据规范时要具有通用性,遵循行业的或者国家的标准。

2.2数据规范方法

数据治理过程中可使用的数据规范方法有:规则处理引擎、标准代码库映射。

(1) 规则处理引擎

数据治理为每个数据项制定相关联的数据元标准,并为每个标准数据元定义一定的处理规则,这些处理逻辑包括数据转换、数据校验、数据拼接赋值等。基于机器学习等技术.对数据字段进行认知和识别,通过数据自动对标技术,解决在数据处理过程中遇到的数据不规范的问题。

根据数据项标准定义规则模板.图 3 中“出生日期”的规则如下所示。

值域稽核规则:YYYY:MM:DD或YYYY-MM-DD;

取值范围规则:1900<YYYY<=2018,1<=MM<=121<=DD<=31。

将数据项与标准库数据项对应。

借助机器学习推荐来简化人工操作,根据语义相似度和采样值域测试,推荐相似度最高的数据项关联数据表字段,并根据数据特点选择适合的转换规则进行自动标准化测试。根据数据项的规则模板自动生成字段的稽核任务。
规则体系中包含很多数据处理的逻辑:将不同数据来源中各种时间格式的数据项,转化成统一的时间戳格式;对数据项做加密或者哈希转换;对身份证号做校验;将多个数据项通过指定拼接符号连接成一个数据项;将某个常量或者变量值喊给某个数据项等

规则库中的规则可以多层级迭代,形成数据处理的一条规则链,规则链上,上一条规则的输出作为下一条规则的输入,通过规则的组合,能够灵活地支持各种数据处理逻辑。

(2)标准代码映射
标准代码库是基于国标或者通用的规范建立的 key-value 字典库,字典库遵循国标值域、公安装备资产分类与代码等标准进行构建。当数据项的命名为 XXXDM(XXX 代码)时。根据典库的国标或部标代码。通过字典规则关联出与代码数据项对应的代码名称数据项XXXDMMC(XXX 代码名称)。
 

本文引用软件学报吴信东,董丙冰,杨威《数据治理技术》,有删减,有改动,如有侵权,请联系删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/200554.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

3 测试驱动的Spring Boot应用程序开发数据层示例

文章目录 用户故事数据模型选择数据库SQL与NoSQLH2、Hibernate和JPA Spring Boot Data JPA依赖关系和自动配置Spring Data JPA技术栈数据源&#xff08;自动&#xff09;配置 实体存储库存储User和ChallengeAttempt显示最近的ChallengeAttempt服务层控制器层用户界面 小结 文章…

LeetCode [简单](非递归)二叉树的中序遍历

遍历左孩子&#xff0c;将他们放进栈中&#xff0c;左边走到尽头&#xff0c;出栈&#xff0c;root变为栈顶元素&#xff0c;存值&#xff0c;向右边走一个 再次遍历左孩子&#xff0c;将他们放入栈中&#xff0c;如果没有左孩子了&#xff0c;就出栈&#xff0c;root变为栈顶…

Html网页threejs显示obj,ply三维图像实例

程序示例精选 Html网页threejs显示obj,ply三维图像实例 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对《Html网页threejs显示obj,ply三维图像实例》编写代码&#xff0c;代码整洁&#xff0…

Linux:可视化管理工具Webmin的安装

一、下载 地址&#xff1a;Webmin官网 我这里下载的是1.700-1版本 二、安装 1、在虚拟机上新建目录并安装软件 mkdir /opt/webmin rpm -ivh webmin-1.700-1.noarch.rpm2、修改webmin的root密码 /usr/libexec/webmin/changepass.pl /etc/webmin root 1234563、修改端口(可…

手写VUE后台管理系统5 - 整合状态管理组件pinia

整合状态管理组件 安装整合创建实例挂载使用 pinia 是一个拥有组合式 API 的 Vue 状态管理库。 pinia 官方文档&#xff1a;https://pinia.vuejs.org/zh/introduction.html 安装 yarn add pinia整合 所有与状态相关的文件都放置于项目 src/store 目录下&#xff0c;方便管理 在…

linux磁盘已满,查看哪个文件占用多

使用df -h查看磁盘空间占用情况 使用sudo du -s -h /* | sort -nr命令查看那个目录占用空间大 然后那个目录占用多 再通过sudo du -s -h /var/* | sort -nr 一层层排查&#xff0c;找到占用文件多的地方 如果通过以上方法没有找到问题所在&#xff0c;那么可以使用 lsof |…

win10下安装 Anaconda + Cuda + Cudnn + Pycharm + Pytorch

1.安装Anaconda &#xff08;1-1&#xff09;下载Ananconda, Anaconda官网 选择windows版本&#xff1b; &#xff08;1-2&#xff09;安装Anaconda,一般选择【Just Me】 &#xff08;1-3&#xff09;建议不要装在C盘&#xff0c;后期多环境的python环境和各种库文件会占用很多…

报表生成器FastReport .Net用户指南:报告继承

我们经常会有许多数据相同的报告&#xff0c;例如&#xff0c;带有公司徽标和一些数据&#xff08;电子邮件、地址等&#xff09;的页眉/页脚。现在设想一下&#xff0c;您需要更改一些公司数据&#xff0c;例如电子邮件。您必须在每个报告中都这样做&#xff01;为了避免这种情…

服务器修复

服务器修复 主要服务器漏洞展示未禁用sync、shutdown、halt默认账户。未创建系统管理员、审计管理员、安全管理员账户设置系统管理员设置安全管理员 设置审计管理员配置PASS_MAX_DAYS 99999、PASS_MIN_LEN 5未配置TMOUT值配置HISTSIZE0未配置登录失败/密码复杂度策略umask值022…

高效的将两个文件夹中多余的文件删除

高效的将两个文件夹中多余的文件删除 解决方案 之前使用的是这个方法&#xff0c;但是图像太多&#xff0c;需要删除的有70W张&#xff0c;得删10多天。。 将两个文件夹中重复的图象删除 解决方案 先将image图像复制一份&#xff0c;然后改名为txt import osdef change_file…

智慧环保:视频监控平台EasyCVR与AI智能分析在环保领域的应用

人工智能&#xff08;AI&#xff09;视频分析技术在环保领域有着广泛的应用&#xff0c;通过智能识别和跟踪技术&#xff0c;AI视频分析可以实时监测空气质量、水质和噪音等环境指标&#xff0c;帮助环保部门及时发现污染源并进行有效治理&#xff0c;提高监测、管理和保护环境…

【古月居《ros入门21讲》学习笔记】10_话题消息的定义与使用

目录 说明&#xff1a; 1. 话题模型 2. 实现过程&#xff08;C&#xff09; 自定义话题消息 Person.msg文件内容 Person.msg文件内容说明 编译配置 在package.xml文件中添加功能包依赖 在CMakeLists.txt中添加编译选项 编译生成语言相关文件 创建发布者代码&#xff…

wifi8 Multi-AP介绍

作为一种结构&#xff0c;multi-AP最早在wifi7的草案中被提出。 但是wifi7估计不会加入。 现在变成了wifi8的路线。 比如下面是一种设想。总体是以若干BSS为单位。 每个BSS的信息都可以在CC处得到。这样就是一种基于CC的总控的MAP。 总控分为两个TDMA&#xff0c; 第一个TD…

数据结构算法-分支定界算法

引言 应该记得这一张图片&#xff0c;在A星算法里面说过 那么现在说的是换一种方式实现 如何实现&#xff1f; 之前不撞南墙不回头的方法-深度优先搜索 的方式 广度优先搜索方式 广度优先搜索&#xff1a;就是说按照顺序入队 并且搜索扩展节点 探测四面八方&#xff0c;如此循环…

Redis面试题:分片集群相关问题

目录 面试官&#xff1a;redis的分片集群有什么作用 面试官&#xff1a;Redis分片集群中数据是怎么存储和读取的&#xff1f; 面试官&#xff1a;redis的分片集群有什么作用 候选人&#xff1a;分片集群主要解决的是&#xff0c;海量数据存储的问题&#xff0c;集群中有多个m…

java第20章节

一.线程简介 二.创建线程 1.继承Thread类 Thread类中常用的两个构造方法如下&#xff1a; public Thread():创建一个新的线程对象。 public Thread(String threadName):创建一个名称为threadName的线程对象。 继承Thread类创建一个新的线程的语法如下&#xff1a; public c…

Vue拖拽div移动位置

<div id"TestDiv" mousedown"OnMouseDown"></div> css #TestDiv { position: absolute;left: 50%;top: 50%;width: 100px;height: 100px;z-index: 999;background-color: red; } 处理函数 const OnMouseDown(e:any)> {let videoBox:any…

游戏缺少d3dx9_43.dll修复方法分享,快速解决dll缺失问题

在计算机使用过程中&#xff0c;我们常常会遇到一些错误提示&#xff0c;其中之一就是“找不到d3dx9_43.dll文件”。这个错误通常出现在运行某些游戏或应用程序时&#xff0c;d3dx9_43.dll是一个动态链接库文件&#xff0c;它是DirectX 9的一部分&#xff0c;用于支持游戏中的3…

建筑行业有哪些好用的项目管理软件或者OA系统?

建筑行业有哪些好用的项目管理软件或者OA系统&#xff1f; 在现代社会中&#xff0c;系统已经成为了企业人事信息化、项目管理等方面必不可少的工具。尤其是对于建筑行业的工程项目管理和人事OA而言&#xff0c;借助系统进行协同、计划、控制等方面的工作&#xff0c;已经成为…

新手小白必看!一文带你了解跨境电商独立站

对于很多新手跨境电商来说&#xff0c;或许你对亚马逊、ebay、速卖通这些跨境电商平台已经有所了解&#xff0c;那你知道跨境电商独立站吗&#xff1f;应该也有不少朋友对跨境电商独立站感兴趣&#xff0c;特别是现在各大跨境电商平台越来越卷&#xff0c;很多跨境卖家都开始通…