数据质量管理-时效性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

时效性怎么进行数据监测和指标量化

时效性定义

官方定义数据在时间变化中的正确程度

时效性的定义可以从外部对比的时效性和内部对比的时效性两个方向来梳理

外部对比的时效性:外部对比的时效性是指从外部数据源获取的数据,数据的更新及时性;

内部对比的时效性:内部对比的时效性是指数据在内部数仓流转、自主研发的数据资源的数据更新是否及时;

作用的环节

数据更新及时与否是针对数据资产或数据场景而言的,因此监测环节可以是数据资产层或者数据服务层;

数据质量管理依据

外部对比的时效性:依据「数据归集标准」中的数据探查维度标准,在探查过程中需要探查数据源的数据更新频率,基于数据源的更新频率制定数据时效性目标;

内部对比的时效性:依据「数据处理标准」中的数据规则执行频率,在数据处理标准中,每个数据规则会制定相关的执行频率,基于执行频率进行对比;

数据监测方法

外部对比的时效性可以以数据源为监测维度,其核心监测维度是数据归集任务成功与否(与外部对比的完整性一致,这里不再赘述,感兴趣可以看《数据质量管理-完整性》,且为了避免重复计算,时效性指标中可以不纳入数据归集任务指标的计算)、数据业务时间与数据更新时间的时间差两个维度;

数据业务时间与数据更新时间的时间差:外部对比的时效性一般是基于数据源数据更新到****-**-**,而数仓中未及时更新导致的数据时效性指标不及格的情况,所以需要对比数据归集任务的执行时间和数据业务更新时间的对比,基于最近10期确定平均值,制定每个规则的更新周期上限,制定数据时效性监测策略(存在数据融合的情况下需要依据分类决策);

内部对比的时效性:依据「数据处理标准」中的数据规则执行频率,监测任务执行成功与否;

量化标准

外部对比的完整性:数据业务时间与数据更新时间的时间差可以按以下步骤搭建量化标准

1.表1:制定每张表需要监测的业务时间字段,每个规则的更新周期上限,制定数据时效性监测策略,如表1所示;

2.表2:存储每张表的数据监测维度中最新10期平均时间差(从第三表中获得),并且基于表1计算出每个规则最新的时间差上限(最新10期平均时间差+数据更新允许推迟最晚周期);

3.表3:监测每张表的每个规则的最新业务时间和数据库最新更新时间(前提是数据库中有update的时间戳),并且计算出二者时间差,然后基于时间差和表2的时间差-上限做比对,当表3的时间差小于等于表2的时间差-上限,则赋值为正常更新;

4.表4:基于最新的监测时间点中每张表的每个规则正常更新规则数与规则总数的占比,计算外部时效性得分;例如*******A的4个规则在最新一期有3个规则更新成功了,那么本期的外部时效性得分75分;

内部对比的完整性:内部对比的完整行主要是通过数据任务执行情况,调取任务执行状态,更新数和新增数以及数据库最新更新时间(佐证任务执行状态),最后基于每张表的每个任务执行状态计算平均分,如表2所示;

最终计算表单的时效性总分(内部时效性与外部时效性平均值);

下一章:可访问性怎么进行数据监测和指标量化 ?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/757662.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

视频号视频怎么保存到手机,视频号视频怎么保存到手机相册里,苹果手机电脑都可以用

随着数字媒体的蓬勃发展,视频已成为我们日常生活中不可或缺的一部分。视频号作为众多视频分享平台中的一员,吸引了大量用户上传和分享各类精彩视频。然而,有时我们可能希望将视频号上的视频下载下来,以下将详细介绍如何将视频号的视频。 方法…

[DASP]玩机!在组织一套音频系统之前,我们先要知道这套系统里面有什么东西。

前言 现在不是搞音频嘛,正好自己买了无源音箱,买了套DSP芯片玩一下 流程 上图是我们组织一套音频系统的流程,首先我们需要知道各个元件是做什么的 1. 音源(例如麦克风、音乐播放器等): 产生模拟音频信号…

无忧易售新功能:一键白底转换,升级产品图片质感

在电商领域不断追求卓越与效率的今天,无忧易售ERP推出一键白底转换功能,为卖家们提供前所未有的便捷与高效,改变了商品图片处理的传统模式,革新了卖家们的图片处理体验,让商品展示焕然一新,助力商家在激烈的…

Java--常用类APl(复习总结)

前言: Java是一种强大而灵活的编程语言,具有广泛的应用范围,从桌面应用程序到企业级应用程序都能够使用Java进行开发。在Java的编程过程中,使用标准类库是非常重要的,因为标准类库提供了丰富的类和API,可以简化开发过…

Softmax函数的作用

Softmax 函数主要用于多类别分类问题,它将输入的数值转换为概率分布。 具体来说,对于给定的输入向量 x [x_1, x_2,..., x_n] ,Softmax 函数的输出为 y [y_1, y_2,..., y_n] ,其中: 这样,Softmax 函数的输…

python selenium 打开网页

selenium工具类 - 文件名 seleniumkit.py 代码如下 # -*- coding:utf-8 _*-from selenium import webdriverimport os import timefrom selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from seleniu…

【Linux】解锁并发:多线程同步技术详解与应用实践

文章目录 前言:1. 同步概念2. 条件变量:实现线程间同步的!2.1. 条件变量是什么?2.2. 认识条件变量接口 3. 写一个测试代码——验证线程的同步机制4. 生产消费模型5. 生产消费模型 条件变量6. 线程池7. 可重入 VS 线程安全7.1. 概…

ModuleNotFoundError: No module named ‘_sysconfigdata_x86_64_conda_linux_gnu‘

ModuleNotFoundError: No module named _sysconfigdata_x86_64_conda_linux_gnu 1.软件环境⚙️2.问题描述🔍3.解决方法🐡4.结果预览🤔 1.软件环境⚙️ Ubuntu 20.04 Python 3.7.0 2.问题描述🔍 今天发现更新conda之后&#xff0…

【Python机器学习】分类向量——One-Hot编码(虚拟变量)

为了学习分类特征,以某国成年人收入数据集(adult)为例,adult数据集的任务是预测一名工人的收入是高于50k还是低于50k,这个数据集的特征包括工人的年龄、雇佣方式、教育水平、性别、每周工作时长、职业等。 这个任务属于…

第二届Godot游戏开发大赛来啦!

第二届Godot游戏开发大赛来啦! 我们的开发大赛正式定名为Godot Hub Festival 2024,以后将按照年份命名。 另外,本次比赛将和openKylin开源社区的SIG组们合作举办(因此也可以叫Godot openKylin开发大赛)。比赛定于2024年7月1日正式开始&#x…

基于Java的旅游景区网站系统(springboot+vue)

作者介绍:计算机专业研究生,现企业打工人,从事Java全栈开发 主要内容:技术学习笔记、Java实战项目、项目问题解决记录、AI、简历模板、简历指导、技术交流、论文交流(SCI论文两篇) 上点关注下点赞 生活越过…

瑞数(rs6)接口以及源码

测试代码截图如下:调用接口即可直接用 需要dd 有想要学习教程的也能够找我。 如有需求,欢迎+我绿泡泡。 期待你的加入!

访问外网的安全保障——反向沙箱

反向沙箱作为一种网络安全技术,其核心理念在于通过构建一个隔离且受控的环境,来有效阻止潜在的网络威胁对真实系统的影响。在当今日益复杂的网络环境中,如何借助反向沙箱实现安全上网,已成为众多用户关注的焦点。 随着信息化的发…

服务器数据恢复—异常断电导致RAID6阵列中磁盘出现坏扇区的数据恢复案例

服务器存储数据恢复环境: 一台存储中有一组由12块SAS硬盘组建的RAID6磁盘阵列,划分为一个卷,分配给几台Vmware ESXI主机做共享存储。该卷中存放了大量Windows虚拟机,这些虚拟机系统盘是统一大小,数据盘大小不确定&…

word2016中新建页面显示出来的页面没有页眉页脚,只显示正文部分。解决办法

问题描述:word2016中新建页面显示出来的页面没有页眉页脚,只显示正文部分。设置了页边距也不管用。 如图1 图1 解决: 点击“视图”——“多页”——“单页”,即可。如图2操作 图2 结果展示:如图3 图3

Nginx 1.26.1最新版部署笔记

Nginx是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 以下是 Nginx 的一些核心功能和特点: 高性能的 Web 服务器: Nginx 被设计为处理高并发连接,具有非常高的性能和稳定性。反向代理: …

运维锅总详解Nginx

本文尝试从Nginx特性及优缺点、为什么具有文中所述的优缺点、Nginx工作流程、Nginx最佳实践及历史演进等角度对其进行详细分析。希望对您有所帮助。 Nginx特性及优缺点 Nginx简介 Nginx(发音为 “engine-x”)是一款高性能的开源Web服务器及反向代理服…

【折腾笔记】兰空图床使用Redis做缓存

前言 最近发现我部署在群晖NAS上的兰空图床程序在高并发的情况下会导致图片加载缓慢或出现图片加载失败的情况,于是我查阅了官方文档资料并进行了一系列的测试,发现兰空图床如果开启了原图保护功能,会非常的吃CPU的性能,尤其是在…

【Cpolar】如何实现外部网络对内部网络服务的访问

希望文章能给到你启发和灵感~ 如果觉得文章对你有帮助的话,点赞 关注 收藏 支持一下博主吧~ 阅读指南 开篇说明一、基础环境说明1.1 硬件环境1.2 软件环境 二、什么是Cpolar?三、如何安装Cpolar?3.1 Mac系统安装 四、最后 开篇说…

生命在于学习——Python人工智能原理(2.3.4)

三、Python的数据类型 3.2 Python的组合数据类型 3.2.4 字典-映射类型 映射类型是键-值数据项的组合,每一个元素都是一个键-值对,即元素是(key,value),元素之间是无序的,键-值对(…