数据治理的具体应用

数据治理架构

图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用这 4 个部分。

(1) 数据存储:

基于分布式的大数据存储平台,具有很强的存储能力和扩张能力;

(2) 数据计算:

这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等。这些计算任务都是基于大数据分布式的计算能力,应用 MapReduce 批处理和 spark streaming 流式处理技术,通过scheduler 任务调度器,实现对调度任务的执行、管理与监控。

数据探查:通过对数据量、数据质量、数据特征等指标的分析来评估后续数据治理任务的工
作量;

数据提取:抽取分布在各个系统中的各种类型的源数据,提取元数据,基于深度学习的语音识别、
图像识别、视频处理技术,实现对非结构化的数据提取;

数据清洗:对缺失数据的处理,过滤掉重复相似的记录,清除值错误的数据;

数据转换:将不符合规范的数据,按照规范化的处理规则,转化成符合标准的数据,如编码统一、
格式统一、元数据统一等;

数据集成:将转化后的规范化数据进行整合,按照一定方式重新组织,如数据属性的融合、关系融
合、数据的主题化、标签化等; 

(3) 数据管理:

对集成后的数据统一维护与管理,包括对数据质量的检测、数据安全控制、数据血缘的监控、元素管理等。

数据质量检测:从各个维度(唯一性、准确性、完整性、合法性等)检测,并形成数据质量报告;

数据安全控制:对数据的使用与访问,进行权限的管理与控制;

数据血缘监控:追踪数据的来源与去向的整个过程; 

元数据管理:数据知识库的建立与维护,包括对代码库、标准库、标签库、模型库、图谱库等的
管理; 

(4) 数据应用:这是数据价值最直接的体现,基于自然语言处理、数据挖掘算法模型等技术对数据分析挖掘,包括统计分析、比对碰撞、关联分析、数据挖掘等,将分析结果提供给上层应用,如构建专题库、主题库、构建知识图谱等。

数据处理流程

数据处理流程是对源数据到目标数据整个处理过程的监管,并描述了数据采集、数据处理及数据展现这 3个方面所用到的技术架构和处理逻辑。处理流程中主要有8个方面:数据接入、数据预处理、数据规范化、数据清洗、数据标签化、数据主题化、构建知识图谱以及数据分析与挖掘 。

(1) 数据接入

公安系统中的源数据,包括结构化文本、关系型数据库、非结构化的文本及视频、hadoop 平台中的数据以及流式数据,经过批处理引擎或流式计算引擎,接入到统一的数据源系统中,形成最初的数据集市。

(2) 数据预处理

在对数据集市中的数据做处理前,根据数据规则库定义的规则,首先对数据进行预处理,包括数据质量的评估、空值率的计算、数据特征分析、数据格式的分析等;然后判断数据是否有治理的价值;然后提取需要治理的数据、提取元数据,经过统一的编码转换处理后,过滤掉脏、乱、差的数据;然后进行数据去重等清洗处理。

(3) 数据规范化

数据规范是将预处理后的数据,根据数据标准知识库的标准,将数据统一处理成符合行业标准、省部级标准及国标等标准的规范化数据,提高数据的可移植性、共享性及复用性。数据规范过程(标准化过程)中所依赖的数据规范来源于权威性的行业规范、国标、部标等,对数据、名称、字段及元数据等进行标准化。

(4) 数据清洗

数据清洗是对不完整的数据、不一致的数据以及异常的数据进行清洗,并过滤掉重复相似的记录。

(5) 数据标签化

数据标签根据数据标签库可以分为技术标签和业务标签:技术标签是基于表、字段的技术元数据,例如空间占用、条目数、最新更新时间、更新频率、访问频率、数据格式、字段数据类型、是否压缩等,通过规则引擎进行规则计算,为库、表、字段等打上相应的技术标签,例如最近一天更新的数据、大数据集、小数据集、频繁更新数据集、压缩文件、图片、视频等;业务标签基于库、表、字段的业务定义、描述,值域的具体内容,对于数据进行业务标签生成,例如对于库表来说,数据来源/数据种类(人口、教育、医疗等)标签、数据内容标签(姓名、组织、地址、电话、商品等)。

(6) 数据主题化

数据按照一定的主题进行关联来构造一个模型。公安数据治理分别以人、物、时空、组织、虚拟标识、案件等作为主题,分别建立模型,如图 14 所示。

以人作为主题时,提取自然人为主体进行描述的数据资源,并按照公安部的数据分类进行主题模型的构建;

以物作为主题构建模型时,提取特定的物为主体进行描述的数据资源,针对不同情况涵盖不同的内容,包括物品、物证、微小痕迹、尸体等;

以时空作为主题时,提取以时间、地点为主体进行描述的数据资源来构建时空主体模型;

以组织作为主题时,提取法人、单位、特定人群组织结构(如:户)为主体进行描述的数据资源来构建组织类主题模型。

以虚拟标识作为主题时,以一个物品的标签或者分类信息作为主题进行构建模型;

以案件作为主题构建模型时,根据执行主体的不同,案件又分为侦查调查行为和违法犯罪行为:侦查调查行为是指公安机关行使打击犯罪,维护社会治安进行侦查破案的行为;而违法犯罪行为是指犯罪嫌疑人进行违法犯罪的行为。 

(7) 知识图谱构建

知识图谱按照目标数据可以分为实体、事件、关系这 3 种类型来建立数据之间的关联关系,将数据抽象化的内在联系,以可视化的形式有效表现出来。图 15 是以人为中心实体构建的一个简单的知识图谱,以人为中心实体,建立人与电话号码所属关系、人与护照所属关系及人与人的关系,同时建立了人与航班的出行事件、人与旅馆的住宿事件。

(8) 数据分析与挖掘

对治理后的标准化数据,采用一定的数据挖掘算法模型,对数据进行统计分析、关联分析、比对碰撞、数据挖掘等,为上层应用提供数据服务。公安机关作为侦查一线的最实用的技术是数据比对碰撞分析,数据比对碰撞分析是指运用计算机对数据进行分析,将两组以上同类型的数据集进行梳理,通过关联查询,筛选数据集取交集的一种方法。

数据治理的目标

数据治理的核心目标是在降低风险的同时,为企业增加价值。合理的数据治理,能够建立规范的数据应用标准,消除数据的不一致性,提高数据质量,推动数据广泛共享,充分发挥数据对政府及企业的业务、管理以及战略决策的重要作用。大数据治理对于确保大数据的优化、共享和安全是至关重要的,有效的大数据治理计划可通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。根据上述几节的描述,数据治理包括元数据管理、数据质量管理、数据安全合规、数据模型设计以及数据的应用这 5 个基本功能。

一个组织数据治理的好坏是否达到自己预期的目标,可以通过以下几个方面进行评价。 

从数据的质量方面考虑:

a) 数据的准确性:经过数据治理后的数据应该是准确的,而不能在治理过程中给正确的数据带去
噪音;

b) 数据的完整性和一致性:数据治理之后,数据的完整程度以及数据的一致性; 

c) 数据的安全性:好的数据治理要充分地保护敏感数据;

从数据治理的效率进行考虑:使用每秒处理多少条数据进行直观对比,这直接影响到数据的及时性;

数据治理模型的成熟度:数据治理过程中,选择的数据模型的成熟度直接影响数据治理的结果;

从是否能追根溯源,找到数据质量问题产生的原因;

人工干预程度:发现质量问题以后,是系统自动处理,还是需要人工干预处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/209168.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

目标检测——Faster R-CNN算法解读

论文:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 作者:Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun 链接:https://arxiv.org/abs/1506.01497 代码:https://github.com/rbgirsh…

golang Pool实战与底层实现

使用的go版本为 go1.21.2 首先我们写一个简单的Pool的使用代码 package mainimport "sync"var bytePool sync.Pool{New: func() interface{} {b : make([]byte, 1024)return &b}, }func main() {for j : 0; j < 10; j {obj : bytePool.Get().(*[]byte) // …

Python 重要数据类型

目录 列表 序列操作 列表内置方法 列表推到式 字典 声明字典 字典基本操作 列表内置方法 字典进阶使用 字典生成式 附录 列表 在实际开发中&#xff0c;经常需要将一组&#xff08;不只一个&#xff09;数据存储起来&#xff0c;以便后边的代码使用。列表就是这样的…

JNPF低代码平台详解 -- 系统架构

目录 一、技术介绍 技术架构 二、设计原理 三、界面展示 1.代码生成器 2.工作流程 3.门户设计 4.大屏设计 5.报表设计 6.第三方登录 7.多租户实现 8.分布式调度 9.消息中心 四、功能框架 JNPF低代码是一款新奇、实用、高效的企业级软件开发工具&#xff0c;支持企…

柱状展示当中 ,如何给每个位置加多个项的办法

<!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>双柱修改</title> <script src"https://cdn.staticfile.org/Chart.js/3.9.1/chart.js"></script> </head> <body><canvas i…

分治算法——912. 排序数组

文章目录 &#x1f348;1. 题目&#x1f34c;2. 算法原理&#x1f34f;3. 代码实现 &#x1f348;1. 题目 题目链接&#xff1a;912. 排序数组 - 力扣&#xff08;LeetCode&#xff09; 给你一个整数数组 nums&#xff0c;请你将该数组升序排列。 示例 1&#xff1a; 输入&am…

【Vulnhub 靶场】【Funbox: Lunchbreaker】【简单】【20210522】

1、环境介绍 靶场介绍&#xff1a;https://www.vulnhub.com/entry/funbox-lunchbreaker,700/ 靶场下载&#xff1a;https://download.vulnhub.com/funbox/FunboxLunchbreaker.ova 靶场难度&#xff1a;简单 发布日期&#xff1a;2021年05月22日 文件大小&#xff1a;1.6 GB 靶…

java: 警告: 源发行版 17 需要目标发行版 17

这是一个编译期的报错提示 源发行版 17 , 即说明你的maven项目当前指定的编译版本是jdk17&#xff0c;需要目标发行版 17则是说明你的idea中实际选择的jdk版本并非17 检查你项目中的pom文件中的配置 <properties><java.version>17</java.version><prop…

localStorage 和sessionStorage

localStorage 和 sessionStorage 是浏览器提供的两种客户端存储数据的方式&#xff1a; 生命周期&#xff1a; localStorage&#xff1a; 存储在 localStorage 中的数据在浏览器关闭后仍然保留&#xff0c;直到被显式删除或浏览器清除缓存。sessionStorage&#xff1a; 存储在 …

2023年12月2日历史上的今天大事件早读

823年12月2日 《门罗宣言》发表 1908年12月2日 末代皇帝溥仪登基 1919年12月2日 平江开展驱除湘督张敬尧运动 1929年12月2日 北平周口店发现中国猿人头盖骨 1941年12月2日 美裔华人物理学家朱经武出生 1949年12月2日 中央决定发行人民胜利公债 1952年12月2日 拿破仑三世成…

mac 系统 vmware 安装centos8

选择镜像 安装系统 依次设置有告警的项目 设置用户名密码 设置root密码 重启系统 重启成功进入下面界面 勾选&#xff0c;点击done 点击箭头所指按钮 输入密码登录 安装成功了 设置网络 打开终端 切换root用户 输入下面指令 su root 输入root的密码 安装git

Python爬虫-新能源汽车销量榜

前言 本文是该专栏的第11篇,后面会持续分享python爬虫案例干货,记得关注。 本文以懂车平台的新能源汽车销量榜单为例,获取各车型的销量排行榜单数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。 废话不多说,跟着笔者直接往下看正文详细内容。(附带…

python的制图

测试数据示例&#xff1a; day report_user_cnt report_user_cnt_2 label 2023-10-01 3 3 欺诈 2023-10-02 2 4 欺诈 2023-10-03 6 5 欺诈 2023-10-04 2 1 正常 2023-10-05 4 3 正常 2023-10-06 4 4 正常 2023-10-07 2 6 正常 2023-10-08 3 7 正常 2023-10-09 3 12 正常 2023-…

jetpack compose——圆角、渐变

一、背景圆角、渐变 效果图&#xff1a; 代码为&#xff1a; Box(modifier Modifier.clip(RoundedCornerShape(14.dp)) // 设置圆角半径.background(brush Brush.horizontalGradient( // 设置渐变色listOf(Color(0xFFF5DEC9),Color(0xFFF7A74C),))).constrainAs(box_bottom…

杨志丰:OceanBase助力企业应对数据库转型深水区挑战

11 月 16 日&#xff0c;OceanBase 在北京顺利举办 2023 年度发布会&#xff0c;正式宣布&#xff1a;将持续践行“一体化”产品战略&#xff0c;为关键业务负载打造一体化数据库。OceanBase 产品总经理杨志丰发表了《助力企业应对数据库转型深水区挑战》主题演讲。 以下为演讲…

【el-form】表单label添加?及tooltip

<el-form-item><span slot"label"><el-tooltip :content"tooltip提示框内容" placement"top"><i class"el-icon-question"></i></el-tooltip>{{ $t(menu.status) }}</span><el-radio-gr…

【1】基于多设计模式下的同步异步日志系统

1. 项目介绍 本项⽬主要实现⼀个⽇志系统&#xff0c; 其主要⽀持以下功能: • ⽀持多级别⽇志消息 • ⽀持同步⽇志和异步⽇志 • ⽀持可靠写⼊⽇志到控制台、⽂件以及滚动⽂件中 • ⽀持多线程程序并发写⽇志 • ⽀持扩展不同的⽇志落地⽬标地 2. 开发环境 • CentOS 7 • vs…

(C++)有效三角形的个数--双指针法

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程技能&#xff0c;轻松拿下世界 IT 名企 Dream Offer。https://le…

旋转立方体.html(网上收集5)

<!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>旋转立方体</title><style>#cube {width: 200px;height: 200px;position: relative;transform-style: preserve-3d;animation: rotate 6s infinite linear;mar…

开发问题记录

开发问题记录&#x1f4dd; vant组件开发相关问题 vant开发的组件库初次渲染没问题,只要跳转至其他页面再进来设置的label-align属性就会丢失不生效 原因: 进入其他页面加载了主项目的vant库的css优先级层级高,然后就把组件本身的样式覆盖了, ​​​​ 解决思路: 使用渗透把主…