前情提要
根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;
定性指标:规范性、准确性、唯一性、可访问性
定量指标:完整性、时效性、关联性
规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;
完整性--按照数据规则要求,数据元素被赋予数值的程度;
准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;
一致性--数据与其他特定上下文中使用的数据无矛盾的程度;
时效性--数据在时间变化中的正确程度;
可访问性--数据能被访问的程度;
关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;
一致性怎么进行数据监测和指标量化
官方定义
数据与其他特定上下文中使用的数据无矛盾的程度;
在讲“数据一致性标准”标准的时候,把数据一致性的类型按存储维度和业务维度两方面划分:从存储维度划分包含跨库一致性、跨表一致性、表内一致性;从业务维度划分包含业务内容一致性、业务逻辑一致性、业务内容与元数据一致性;感兴趣大家可以查看之前的文章;一致性标准设计
作用的环节
可以在数据治理完成后的数据明细层和数据服务层(dwd/dws/ads);
数据质量管理依据
数据处理标准中的一致性标准;
数据监测方法
一致性的监测方法分为三个维度进行;①跟踪数据任务是否运行成功;②根据一致性处理标准输出反向质检语句;③人为定期审计;
①跟踪数据任务是否运行成功
适用范围:监测数据跨库一致性、跨表一致性(数据跨库一致性、跨表一致性本质上是搭建数据往下游抽取和维度退化数据流转过程);
监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,嵌入数据流程监测预警机制,跟踪任务的运行日志,监测任务成功与否;
②根据一致性处理标准输出反向质检语句
适用范围:监测表内一致性维度;
监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,输出反向质检语句,即检测数据中是否出现于规则所对应结果不一致的情况,若检测语句查询结果不为0,则视为有错误记录;
③人为定期审计
适用范围:业务内容与元数据一致性
监测方法:事前制定数据建模规范,在建模过程中加入审核机制,且事后定期进行元数据审计;
量化标准
数据一致性的量化标准可以按照上述的任务跟踪情况和反向质检语句的执行结果输出,人为定期审计部分无法自动化监督,可以作为定期审计报告输出;且在做一致性指标监测前,先明确数据监测范围,包含表和字段级别(在圈地监测范围之前,需要给出数据监测范围的定义,且不在监测范围的数据内容,在最后算质量总分的时候需要进行赋值);
具体执行方法
1.明确检测类型:跨库一致性、跨表一致性、表内一致性
2.明确一致性的参照组和观察组,即来源层和目标层;来源表和目标表;来源字段和目标字段;
3.明确是否是整表抽取规则(整表抽取规则可以简化监测流程,无需跟踪到字段【字段在数据血缘中可见】);
4.跨库一致性、跨表一致性的监测任务可以监测任务执行状态成功与否即可;
5.表内一致性则按照监测字段维度,统计监测结果记录数;
6.最后按照一张表一共存在几个监测任务,监测任务通过率进行赋分;
注:当一个内容或者字段被多个一致性规则覆盖,在不出现逻辑错误或者冲突的情况下,需要定义规则优先级,从监测的优先级和规则执行的优先级是相向的。即在数据治理规则执行过程中,内容优先级最高的规则往往是最后执行,确保在表中的记录是优先级最高的内容,而数据监测的方法则是按照优先级最高的内容相关规则开始监测,逐步递推。