数据质量管理-准确性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

今天重点讲解定性指标准确性怎么进行数据监测和指标量化

官方定义:数据准确表示其所描述的真实实体(实际对象)真实值的程度;

作用的环节:可以在数据治理完成后的数据明细层和数据服务层(dwd/dws/ads);

数据质量管理依据:需要结合数据资产建设手册的“标准参考”、数据使用标准的“数据使用口径”二者结合对真实世界的了解和业务逻辑的理解;

数据监测方法:此类监测目标也可以圈定核心数据和重要数据进行重点监测。通过数据分级分类标准,识别出核心数据和重要数据,基于圈定的数据范围,数据质检人员结合上述数据质量管理依据制定数据准确性校验。

注:准确性的标准基于不同的场景、对数据不同的理解都会有所偏差。

①场景对数据的需求颗粒度会影响数据准确性的判断依据;

②数据口径理解的不同对数据准确性的偏差也会有所不同;

由于准确性的定义均需要参考外部依据,且评判的标准无法固定,因此搭建的监测流程需要兼顾三个维度一是该数据项是否有监测流程,二是该监测语句是否有效;是检查出的错误是否能及时被修正;

量化标准:

1.需要明确数据监测范围,到字段级别;

2.需要明确数据更新频率,作为执行周期和修正周期设置的参考依据;

3.设置评定指标的量化方法;

       第一张表为准确性语句信息表,作为管理准确性质检语句相关流程;

       第二张表为准确性质检语句运行结果存储表,存储准确性语句每一期运行的结果和修正的结果(备注:要求修正的时间为该语句下一期的执行时间)

       第三张表为准确性指标赋分逻辑,该表统计了每一期该表的每个监测字段的准确性得分结果:

       *计算时间:取表2中的“要求修正的时间”

       是否有监测流程:监测表一中该字段是否存在未下架的准确性质检语句,若有,则赋值60分,表明该表的该字段有准确性监测流程;

       监测语句有效分:查看表2中在“要求修正的时间”所对应的当期是否有执行结果不为0的质检语句,有1个则+5分;

       错误是否及时被修正:查看表2中当期修正截止时间执行结果(错误数)大于0则进行扣分;

最终,基于字段的平均分计算,获得这张表在这个计算时间点的准确性得分;

注:数据准确性指标的监测,既需要内部监测,形成循环改善的过程也需要“广开言路”,收集用户的数据问题,了解用户在数据使用过程中发现的问题或者存在的疑惑;更需要定期对内部协同部门和数据用户输出数据业务培训,培养数据敏感度,拉通数据话语体系;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/739389.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】文件处理(IO流)

文章目录 C IO流1. C语言IO2. CIO2.1 C标准IO流2.2 C文件IO流2.3 C IO 文件常用函数总结表2.4 C stringstream C IO流 回顾一下,C语言中IO输入输出的 1. C语言IO C语言中常用的输入输出函数有如下几种:前者是格式化标准输入输出,后者是格式化…

未系安全带智能监测摄像机

未系安全带智能监测摄像机在现代安全管理中发挥着至关重要的作用。这些先进设备不仅仅是简单的监视工具,更是通过整合高级技术来提升工作效率和安全性,特别是在需要高度警惕的作业环境中尤为突出。 首先,这些智能监测摄像机配备了精准的视觉识…

PageOffice国产版在线编辑word文件

PageOffice国产版支持统信UOS、银河麒麟等国产操作系统。调用客户端WPS在线编辑word、excel、ppt等文件。在线编辑效果与本地WPS一致。如图所示: web系统集成pageofficeV6.0国产版的文档:PageOfficeV6.0国产版最简集成代码(Springboot) PageOffice最简集…

Python 的垃圾回收机制使用详解

概要 在Python编程中,内存管理是一个非常重要的方面。为了帮助开发者管理内存,Python引入了垃圾回收(Garbage Collection)机制。本文将详细介绍Python中的垃圾回收,包括其工作原理、垃圾回收算法以及如何在实际项目中使用和优化垃圾回收。 一、垃圾回收的概念 垃圾回收是…

似然 与 概率

概率似然概率函数与似然函数的关系似然与机器学习的关系最大似然估计 似然与概率分别是针对不同内容的估计和近似 概率 概率:概率表达给定参数 θ \theta θ下样本随机向量 X x \textbf{X} {x} Xx的可能性。 概率密度函数的定义形式是 f ( x ∣ θ ) f(x|\t…

AIGC发展方向和前景

引言 背景介绍 AIGC的定义及其发展历程 AIGC,即人工智能生成内容,是近年来在人工智能领域兴起的一项重要技术。它通过使用机器学习和深度学习等技术,使得计算机能够自动生成各种形式的数字内容,如文本、图像、音频和视频等。 …

机器学习之Kmeans丨集成学习丨决策树测试

选择题 下面属于决策树的后剪枝的是?【 正确答案: A】 A. 把数据集分成测试集和训练集,用测试集构建一个足够大的决策树,用测试集判断叶节点合并是否能降低误差。 B. 当树到达一定深度的时候停止生长。 C. 当前节点的样本数量小于某个阈值时&…

【Linux】基础 I / O

目录 一、C文件操作函数: 二、输入 / 输出 / 错误流: 三、系统文件 I/O open函数: write: read: close: 具体应用: 四、文件描述符(fd): 1、概念: 2、文件管理&#xff1…

详解 | DigiCert EV代码签名证书

简介 DigiCert EV 代码签名证书是一种高级别的代码签名证书,它不仅提供了标准代码签名证书的所有安全特性,还增加了额外的身份验证流程,以确保软件开发者或发布者的身份得到最严格验证。这对于提升软件的信任度、防止恶意篡改和确保下载安全…

AI大模型战争:通用与垂直,谁将领跑未来?

文章目录 📑引言一、通用大模型:广泛适用,实力不容小觑1.1 强大的泛化能力1.2 广泛的适用场景 二、垂直大模型:专注深度,精准解决问题2.1 深度专注,精准度高2.2 快速落地与普及 三、通用与垂直:…

受用一生的三种顶级思维

斯坦福大学心理学教授卡罗尔德韦克在《终身成长》中提到: 决定人与人之间差异的,不是天赋,不是勤奋程度,而是思维模式。 在许多情况下,拥有恰当的思维方式,甚至比单纯的努力更加关键。 普通的人改变结果…

通配符SSL证书与多域名SSL证书:理解它们的不同之处

在数字化的时代,网络安全已成为企业不可忽视的关键要素。SSL证书作为网站加密的重要工具,扮演着保护用户数据安全、提升网站信任度和搜索引擎排名的重要角色。然而,在众多SSL证书类型中,通配符SSL证书与多域名SSL证书因其独特优势…

竞赛选题 python 机器视觉 车牌识别 - opencv 深度学习 机器学习

1 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 基于python 机器视觉 的车牌识别系统 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分工作量:3分创新点:3分 🧿 更多资…

【调试笔记-20240620-Windows- Tauri + Vue 中实现部分区域滚动】

调试笔记-系列文章目录 调试笔记-20240620-Windows- Tauri Vue 中实现部分区域滚动 文章目录 调试笔记-系列文章目录调试笔记-20240620-Windows- Tauri Vue 中实现部分区域滚动 前言一、调试环境操作系统:Windows 10 专业版调试环境调试目标 二、调试步骤搜索相似…

基于自主发明专利的杰林码哈希算法、对称加密算法和无损压缩算法的可文件追踪管控且支持linux和windows的文件压缩包工具SDK和JLM PACK软件介绍

基于自主发明专利的杰林码哈希算法、对称加密算法和无损压缩算法的可文件追踪管控且支持linux和windows的文件压缩包工具SDK1.0版发布,下载链接为: JLM PACK CSDN下载链接 JLM PACK SDK和软件的官方网站 注意测试授权证书yesine_jlmpack_test.license…

生产实习Day13 ---- 神经网络模型介绍

文章目录 传统的神经网络模型注意力机制的引入注意力机制的本质Encoder-Decoder 框架注意力机制在 Encoder-Decoder 中的应用Self-Attention 机制Transformer 模型注意力机制的优势总结 传统的神经网络模型 在深度学习中,传统的神经网络模型,如循环神经…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 任务积分优化问题(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 📎在线评测链接 任务积分优化问题(100分) 🌍 评测功能需要 订阅专栏 后私信…

React+TS前台项目实战(十四)-- 响应式头部导航+切换语言相关组件封装

文章目录 前言Header头部相关组件1. 功能分析2. 相关组件代码详细注释3. 使用方式4. Gif图效果展示 总结 前言 在这篇博客中,我们将封装一个头部组件,根据不同设备类型来显示不同的导航菜单,会继续使用 React hooks 和styled-components库来…

13.1.k8s集群的七层代理-ingress资源(进阶知识)

目录 一、ingress概述 1.前言 2.问题 3.ingress资源 二、ingress-nginx是什么 三、ingress-nginx 实现原理 四、部署ingress-nginx 1.获取部署文件 ingress-nginx.yaml 2.部署ingress-nginx 3.检查部署是否成功 五、编写使用Ingress样例代码 1.Ingress资源对象yaml文…

让生产管理变简单

随着业务的发展,工厂每天要处理很多订单,还要统筹安排各部门工作以及协调上下游加工企业,生产管理问题也随之而来。 1.销售订单评审困难、无法及时抓取到历史数据做参考。由于数据的不及时性、不准确性无法为正常的生产和采购提供数据支撑。同…