数据治理模型的三个模块

数据接入模块

大数据工程的数据来源包含企业内部数据和企业外部数据,其中企业内部数据由资源服务平台、综合资源库、各业务系统生产库中的结构化数据和文件服务器上的文本、图片等非结构化数据组成,其中包括人财物记录、财物报表、原材料、顾客信息、气测数据以及企业的文化和规章制度等;企业外部数据由社会数据、互联网数据和设备采集数据组成,外部数据一般包括地理环境、人口数据、经济市场、金融数据、社会关系、社交数据等等.。

在数据接入之前,首先需要进行数据采集,如图 12 所示:数据采集基于云计算和分布存储之上的采集工具,采用标准化、规范化的抽取模式,实现结构化、半结构化、非结构化资源的统一抽取、整合、加工、转换和装载。数据采集工具主要包括了数据层、接入层、交互层和监控层,其中工具的数据层即涉及整个采集平台中总体架构的数据层即数据支撑层,工具背后的接入层是采集逻辑处理部分,交互层即对应总体架构的采集门户。

数据层指出企业内部和企业外部数据的主要数据来源方式,数据库可以是指业务系统的 Oracle;文件方式是各种文件或 FTP 接入的文件包;接口主要是用来企业对接外部系统使用的;数据流是指可以使用 Kafka 平台处理的实时数据流式方式这种来源。接入层主要提供丰富的工具集,针对不同的数据接入方式提供相应的工具组件,依赖作业配置引擎和作业调度引擎实现数据抽取。监控层可监控作业执行情况,采集作业日志,对问题作业及时告警,方便后期用户排除故障、维护作业。交互层提供可视化页面便捷地实现数据接入与作业管理。

对采集后各种类型的源数据进行数据抽取,该模型的数据抽取支持 3 种方式:全量抽取、增量抽取、实时抽取,将经过数据抽取后的数据汇入到汇聚库中;对于其他的数据库系统,可以直接通过数据交换平台,把数据汇入到汇聚库中.。

数据治理模块

数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成,治理完成后的数据汇聚到数据共享中心中。

数据清洗是对数据进行审查和校验,过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换,并进行清洗前后的数据一致性检查,保证清洗结果集的质量。数据清洗的方法除了以上介绍的几种基本方法以外,该模型还支持自定义清洗规则,数据清洗规则是由业务需求人员与开发人员配合制定数据处理逻辑,经过这些规则进行数据清洗后,保证数据的一致性、准确性和规范性更能满足业务上的需求。 

数据服务模块

数据服务模块以数据共享中心构建知识图谱为起点,早在 2006 年,Web 创始人 Berners-Lee 就提出数据链接的思想,随后掀起了语义网络的狂潮,知识图谱在此基础上形成。但是直到 2012 年,知识图谱的概念才被谷歌正式提出。知识图谱是由节点和边组成的巨型知识网络,节点代表实体,边代表实体之间的关系,每个实体还由(key-value)键值对来描述实体的内在特性。新的知识图谱中还增加了实体与实体之间的事件,即边表示关系或事件。

数据服务模块基于知识图谱面向不同用户提供多渠道、多维度的数据服务,面向使用者提供模型管理、智能发现、模型探索、数据探索、数据订阅等数据服务,面向专业人员提供挖掘分析、专家建模等智能数据服务。模型管理主要是对实体、关系进行编辑和处理;智能发现是根据日志等元信息,将配置到系统的数据源反向推导出物理模型关系,将多个异构物理模型归一到同一实体后自动生成语义层的业务视图;模型探索是支持关键词搜索实体、关系等,将搜索结果拖拽到画布探索实体之间以及关系之间的核对关系,用户在了解业务模型的同时,也可以了解到业务模型背后对应的物理模型,以及物理数据表的生产血缘关系;数据探索是对业务模型视图可以进行知识问答式的搜索,在路径的任意节点上设置标签的条件,再在另外的节点上设定对应标签的答案,使得用户对数据的业务关系充分地了解;数据订阅满足外部其他平台对本平台各类数据的需求,通过对不同用户下放的不同权限,再结合数据资源目录服务的开放数据内容,为外部用户提供数据订阅/退订流程,并通过资源总线服务完成最终的数据投递。

专家们可以根据知识图谱中的实体、关系、属性等核心数据进行建模,并进行高层次的数据挖掘分析和加工,可以同知识图谱、数据分析与加工模块(AI)和组织智能(OI)相互交互和协同,实现 HAO智能的大智慧问题求解。

本文引用软件学报吴信东,董丙冰,杨威《数据治理技术》,有删减,有改动,如有侵权,请联系删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/201380.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

启动kafka集群以及关闭

kafka操作 第一个窗口 cd /root/software/kafka bin/zookeeper-server-start.sh config/zookeeper.properties最后这种就是成功了 Zookeeper 启动: Zookeeper 是 Kafka 集群的协调服务,启动 Kafka 之前必须确保 Zookeeper 正在运行。 第二个窗口&am…

谨慎Apache-Zookeeper-3.5.5以后在CentOS7.X安装的坑

目录 前言 一、现场还原 二、问题诊断 三、问题原因 总结 前言 最近由于项目需要,在服务器上需要搭建Hbase完全分布式集群环境。开发环境,采用的是最小节点的方式进行搭建(即3个节点的模式)。资源环境列表如下: 序号…

CentOS7搭建Kubernetes集群

环境准备:配置好静态IP地址的Centos7(2核、master内存3GB、slave内存2GB)。 搭建概述:先将一台虚拟机搭建为master、随后克隆出两台虚拟机作为从节点。 虚拟机主机名和IP地址: 主机名IP地址master192.168.138.110sl…

python类的多重继承继承和查找顺序

1 python类的多重继承继承和查找顺序 python中,类的多重继承允许子类继承多个基类,子类可以访问多个基类的属性和方法。 1.1 多重继承基础 用法 class MulClass(BaseC1,BaseC2,...BaseCn):pass描述 Mulclass:子类(或者称混合…

网络核心知识总结

计算机网络总结 基础 网络分层模型 OSI 七层模型是什么?每一层的作用是什么? OSI 体系结构是法律上的国家标准,从上往下讲分别是: 应用层 – 作用是 – 为计算机用户提供服务表示层 – 作用是 – 数据处理(编解码、加密解密、…

【数据结构】八大排序 (三)

目录 前言: 快速排序 快速排序非递归实现 快速排序特性总结 归并排序 归并排序的代码实现 归并排序的特性总结 计数排序 计数排序的代码实现 计数排序的特性总结 前言: 前文快速排序采用了递归实现,而递归会开辟函数栈帧&#xff0…

赴日开发做什么?日本签证很难拿?

日本的IT行业历史比较悠久,业务以上层前端业务为主,如设计和构建软件。日本IT公司组织庞大,行业内部有着严格的分工和部署,工作会被细分化。分配给个人的工作量不会太大,难度也不会很高。 在日本IT公司就业&#xff0…

【古月居《ros入门21讲》学习笔记】06_ROS常用命令行工具

目录 说明: 1. 回顾小海龟案例 终端1:启动ROS master 终端2:启动小海龟仿真器 终端3:启动海龟控制节点: 2. 系统计算图:rqt_graph 3. rosnode rosnode list:显示节点列表 rosnode info&…

LESS的叶绿素荧光模拟实现——任意波段荧光模拟

目录 前言一、任意波段荧光模拟的实现二、需要注意的输入参数 前言 此专栏默认您对LESS (LargE-Scale remote sensing data and image Simulation framework) 模型和叶绿素荧光(Sun-Induced chlorophyll Fluorescence, SIF)有一定的了解。当然,您也可以在这里下载中…

NCo3.1(08) - Nco3 服务器端编程

本篇博文不再重复ABAP调用外部服务器的基础,只介绍 NCo3 开发的过程和要点。需要了解相关知识点的小伙伴们自行参考: SAP接口编程 之JCo3.0系列(06) - Jco服务器端编程 PyRFC 服务器端编程要点 创建项目 新建一个 Console 项目,选择 .Net …

(亲测有效)解决windows11无法使用1500000波特率的问题

大家好!我是编码小哥,欢迎关注,持续分享更多实用的编程经验和开发技巧,共同进步。 1、问题描述 从图1可以看出串口是正常的,安装的驱动是CP210xVCPInstaller_x64.exe,但是从图2可以看出,串口拒…

C# WPF 基础教程——触发器、行为、形状、变换与透明、路径和几何图形

触发器 简单触发器 单条件触发器 多条件触发器 事件触发器 行为 形状 矩形和椭圆 Viewbox缩放控件,直线,折线,多边形 画刷 普通画刷 线性渐变画刷 环形渐变画刷 位图画刷 虚拟画刷(复制元素外观) 位图缓存画刷 变换…

对二分搜索的理解 Go语言版

二分搜索大家都很熟悉&#xff0c;首先我们先来看看基本框架 func binarySearch(nums []int, target int) int {left, right : 0, ...for ... {mid : left (right-left)/2if nums[mid] target {...} else if nums[mid] < target {left ...} else if nums[mid] > targ…

探索测试开发工程师的通往成功的秘密路径!

「作者说」随着近几年国内IT行业高速发展&#xff0c;对测试工程师的要求也越来越高&#xff0c;其作用也越来越重要&#xff0c;但很多测试工程师也迎来了个人发展的瓶颈&#xff0c;下一步该向哪个方向发展&#xff0c;该如何发展&#xff1f;本文将概述测试工程师的现状及发…

使用MAT分析内存泄漏(mac)

前言 今天主要简单分享下Eclipse的Memory Analyzer在mac下的使用。 一、Mat&#xff08;简称&#xff09;干什么的&#xff1f; 就是分析java内存泄漏的工具。 二、使用步骤 1.下载 mac版的现在也分芯片&#xff0c;别下错了。我这里是M2芯片的&#xff0c;下载的Arch64的。 …

海康运行管理中心 RCE漏洞复现

0x01 产品简介 海康威视是以视频为核心的智能物联网解决方案和大数据服务提供商。海康运行管理中心是一款功能强大、易于使用的安防管理平台&#xff0c;能满足用户对视频监控、报警管理、设备配置和数据统计等方面的需求&#xff0c;帮助用户建立高效、智能的安防系统。 0x02…

tcpdump使用心得

参考原文 https://danielmiessler.com/p/tcpdump/ 几个用例 tcpdump -i eth0 显示eth0网卡当前所有的抓包情况eth0是网卡名&#xff0c;可以通过ifconfig获得&#xff0c;也可以通过 tcpdump -D 显示当前可以监听的网卡 -i 参数表示接口&#xff0c;后跟要监听的网卡 tcpdu…

MySQL 中的锁(三)

8.7. 死锁和空间锁 一般来说&#xff0c;只要有并发和加锁这两种情况的共同加持下&#xff0c;都会有死锁的身影。 死锁的具体成因&#xff0c;借用我们在并发编程中的内容&#xff1a; 8.7.1. 死锁 8.7.1.1. 概念 是指两个或两个以上的进程在执行过程中&#xff0c;由于竞…

二阶龙格塔库积分法求解混沌产生方程(求助)

最近论文中常常接触到激光产生混沌的方程&#xff0c;激光器作为非线性元件&#xff0c;在信息处理中具有非常大的潜力&#xff0c;其中激光产生混沌应用在通信中很有用处。论文中对于模拟数据部分&#xff0c;采用了以下公式来产生混沌&#xff1a;以此公式产生混沌的方法应用…

滴滴打车崩了!全过程

滴滴发布致歉10元补偿券&#xff0c;文末可领取 。 事情发生于 2023年11月27日晚~28日中午&#xff0c;滴滴打车服务出现大面积故障&#xff0c;登上微博热搜。 许多用户在使用滴滴出行时遇到了无法叫车、订单异常等问题&#xff0c;导致大量用户滞留在外&#xff0c;出行受阻…