数据治理架构
图 13 描述的是公安数据治理框架,平台架构主要包括数据存储、数据计算、数据管理、数据应用这 4 个部分。
(1) 数据存储:
基于分布式的大数据存储平台,具有很强的存储能力和扩张能力;
(2) 数据计算:
这是数据治理的最主要部分,包括数据的探查、提取、清洗、转换、集成等。这些计算任务都是基于大数据分布式的计算能力,应用 MapReduce 批处理和 spark streaming 流式处理技术,通过scheduler 任务调度器,实现对调度任务的执行、管理与监控。
数据探查:通过对数据量、数据质量、数据特征等指标的分析来评估后续数据治理任务的工
作量;
数据提取:抽取分布在各个系统中的各种类型的源数据,提取元数据,基于深度学习的语音识别、
图像识别、视频处理技术,实现对非结构化的数据提取;
数据清洗:对缺失数据的处理,过滤掉重复相似的记录,清除值错误的数据;
数据转换:将不符合规范的数据,按照规范化的处理规则,转化成符合标准的数据,如编码统一、
格式统一、元数据统一等;
数据集成:将转化后的规范化数据进行整合,按照一定方式重新组织,如数据属性的融合、关系融
合、数据的主题化、标签化等;
(3) 数据管理:
对集成后的数据统一维护与管理,包括对数据质量的检测、数据安全控制、数据血缘的监控、元素管理等。
数据质量检测:从各个维度(唯一性、准确性、完整性、合法性等)检测,并形成数据质量报告;
数据安全控制:对数据的使用与访问,进行权限的管理与控制;
数据血缘监控:追踪数据的来源与去向的整个过程;
元数据管理:数据知识库的建立与维护,包括对代码库、标准库、标签库、模型库、图谱库等的
管理;
(4) 数据应用:这是数据价值最直接的体现,基于自然语言处理、数据挖掘算法模型等技术对数据分析挖掘,包括统计分析、比对碰撞、关联分析、数据挖掘等,将分析结果提供给上层应用,如构建专题库、主题库、构建知识图谱等。
数据处理流程
数据处理流程是对源数据到目标数据整个处理过程的监管,并描述了数据采集、数据处理及数据展现这 3个方面所用到的技术架构和处理逻辑。处理流程中主要有8个方面:数据接入、数据预处理、数据规范化、数据清洗、数据标签化、数据主题化、构建知识图谱以及数据分析与挖掘 。
(1) 数据接入
公安系统中的源数据,包括结构化文本、关系型数据库、非结构化的文本及视频、hadoop 平台中的数据以及流式数据,经过批处理引擎或流式计算引擎,接入到统一的数据源系统中,形成最初的数据集市。
(2) 数据预处理
在对数据集市中的数据做处理前,根据数据规则库定义的规则,首先对数据进行预处理,包括数据质量的评估、空值率的计算、数据特征分析、数据格式的分析等;然后判断数据是否有治理的价值;然后提取需要治理的数据、提取元数据,经过统一的编码转换处理后,过滤掉脏、乱、差的数据;然后进行数据去重等清洗处理。
(3) 数据规范化
数据规范是将预处理后的数据,根据数据标准知识库的标准,将数据统一处理成符合行业标准、省部级标准及国标等标准的规范化数据,提高数据的可移植性、共享性及复用性。数据规范过程(标准化过程)中所依赖的数据规范来源于权威性的行业规范、国标、部标等,对数据、名称、字段及元数据等进行标准化。
(4) 数据清洗
数据清洗是对不完整的数据、不一致的数据以及异常的数据进行清洗,并过滤掉重复相似的记录。
(5) 数据标签化
数据标签根据数据标签库可以分为技术标签和业务标签:技术标签是基于表、字段的技术元数据,例如空间占用、条目数、最新更新时间、更新频率、访问频率、数据格式、字段数据类型、是否压缩等,通过规则引擎进行规则计算,为库、表、字段等打上相应的技术标签,例如最近一天更新的数据、大数据集、小数据集、频繁更新数据集、压缩文件、图片、视频等;业务标签基于库、表、字段的业务定义、描述,值域的具体内容,对于数据进行业务标签生成,例如对于库表来说,数据来源/数据种类(人口、教育、医疗等)标签、数据内容标签(姓名、组织、地址、电话、商品等)。
(6) 数据主题化
数据按照一定的主题进行关联来构造一个模型。公安数据治理分别以人、物、时空、组织、虚拟标识、案件等作为主题,分别建立模型,如图 14 所示。
以人作为主题时,提取自然人为主体进行描述的数据资源,并按照公安部的数据分类进行主题模型的构建;
以物作为主题构建模型时,提取特定的物为主体进行描述的数据资源,针对不同情况涵盖不同的内容,包括物品、物证、微小痕迹、尸体等;
以时空作为主题时,提取以时间、地点为主体进行描述的数据资源来构建时空主体模型;
以组织作为主题时,提取法人、单位、特定人群组织结构(如:户)为主体进行描述的数据资源来构建组织类主题模型。
以虚拟标识作为主题时,以一个物品的标签或者分类信息作为主题进行构建模型;
以案件作为主题构建模型时,根据执行主体的不同,案件又分为侦查调查行为和违法犯罪行为:侦查调查行为是指公安机关行使打击犯罪,维护社会治安进行侦查破案的行为;而违法犯罪行为是指犯罪嫌疑人进行违法犯罪的行为。
(7) 知识图谱构建
知识图谱按照目标数据可以分为实体、事件、关系这 3 种类型来建立数据之间的关联关系,将数据抽象化的内在联系,以可视化的形式有效表现出来。图 15 是以人为中心实体构建的一个简单的知识图谱,以人为中心实体,建立人与电话号码所属关系、人与护照所属关系及人与人的关系,同时建立了人与航班的出行事件、人与旅馆的住宿事件。
(8) 数据分析与挖掘
对治理后的标准化数据,采用一定的数据挖掘算法模型,对数据进行统计分析、关联分析、比对碰撞、数据挖掘等,为上层应用提供数据服务。公安机关作为侦查一线的最实用的技术是数据比对碰撞分析,数据比对碰撞分析是指运用计算机对数据进行分析,将两组以上同类型的数据集进行梳理,通过关联查询,筛选数据集取交集的一种方法。
数据治理的目标
数据治理的核心目标是在降低风险的同时,为企业增加价值。合理的数据治理,能够建立规范的数据应用标准,消除数据的不一致性,提高数据质量,推动数据广泛共享,充分发挥数据对政府及企业的业务、管理以及战略决策的重要作用。大数据治理对于确保大数据的优化、共享和安全是至关重要的,有效的大数据治理计划可通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。根据上述几节的描述,数据治理包括元数据管理、数据质量管理、数据安全合规、数据模型设计以及数据的应用这 5 个基本功能。
一个组织数据治理的好坏是否达到自己预期的目标,可以通过以下几个方面进行评价。
从数据的质量方面考虑:
a) 数据的准确性:经过数据治理后的数据应该是准确的,而不能在治理过程中给正确的数据带去
噪音;
b) 数据的完整性和一致性:数据治理之后,数据的完整程度以及数据的一致性;
c) 数据的安全性:好的数据治理要充分地保护敏感数据;
从数据治理的效率进行考虑:使用每秒处理多少条数据进行直观对比,这直接影响到数据的及时性;
数据治理模型的成熟度:数据治理过程中,选择的数据模型的成熟度直接影响数据治理的结果;
从是否能追根溯源,找到数据质量问题产生的原因;
人工干预程度:发现质量问题以后,是系统自动处理,还是需要人工干预处理。