数据质量低下会造成什么后果?应从哪些维度衡量数据质量?

大数据时代的到来,预示着前所未有的商业机遇和洞察力。然而,要将这些海量数据中蕴含的巨大价值转化为实际的业务成果,一个关键的前提条件是必须确保所收集数据的质量。数据质量是大数据价值链上的第一道关卡,它的高低直接关系到数据分析的准确性和可靠性。

如果收集的数据存在缺陷,比如不准确、不完整、过时或不一致,即使拥有最先进的硬件设备、最复杂的应用系统和最尖端的数据分析平台,也无法保证数据分析的结果能够反映真实情况,从而可能导致错误的业务决策。在这种情况下,大数据不仅无法提供有价值的洞见,反而可能成为误导,将企业引向错误的方向。

因此,大数据的价值实现,必须建立在高质量数据的基础之上。企业需要建立严格的数据质量管理机制,从数据的采集、存储、处理到分析的每一个环节,都要进行严格的质量控制。同时,还需要运用先进的数据清洗、数据整合和数据验证技术,不断提升数据的质量。

本文将从数据质量管理的定义、低质量数据造成的后果以及衡量数据质量的维度方面展开对数据质量管理的介绍。

6231dd0fdb110d30d13b74e426a4e487.jpeg

一、数据质量管理概述

1、什么是数据质量

数据质量指的是数据的一系列属性,这些属性确保数据能够满足特定业务和操作用途的准确性、完整性、一致性、可信度、及时性和可用性。

在DIKW(数据、信息、知识、智慧)金字塔模型中,数据构成了金字塔的基础。对这些原始数据进行加工和赋予上下文,便形成了信息。进一步地,将信息提升为可操作的层面,我们得到了知识。而在金字塔的顶端,智慧则是将知识应用于实践中的能力。这一模型强调了数据质量对于整个知识层次结构的重要性:低质量的数据会导致信息的不准确,而不准确的信息会削弱知识的有效性。缺乏可靠知识的支持,业务操作将难以进行有效的决策。此外,基于错误知识采取的行动可能会给业务带来严重的风险。

更多详细内容,推荐下载《大数据建设方案》:
https://s.fanruan.com/5iyug
分享行业真实的数字化转型案例,以及方案架构图


e1843652cf2300026eca8ffa8aeae492.jpeg

2、什么是高质量的数据

数据质量是衡量数据价值的关键指标,它在一定程度上是可以被评估和量化的。对于何为高质量的数据,存在多种观点,但普遍认可的定义包括以下几个方面:

  • 适用性:数据若能够满足其预期用途和业务需求,即可被视为高质量的数据。
  • 真实性:数据若能准确反映其所代表的实体或事件的实际状态,即可被认为是高质量的。
  • 符合标准:数据若遵循既定的标准或规范,并且达到或超过用户的期望水平,即可判定为高质量的数据。

高质量的数据是信息管理和决策制定的基石。它不仅确保了数据分析的准确性,还提升了业务流程的效率和决策的可靠性。

无论依据何种标准,数据质量均被理解为数据满足用户预期(无论是明确表达还是隐含不言)的程度。用户对数据质量的评价取决于他们对数据表现的期望。通常而言,高质量的数据更贴近用户的期望,而低质量的数据则相去甚远。

3、什么是数据质量管理

我们可以将数据质量管理视为一项核心的业务原则,它要求将合适的人员、流程和技术进行有效整合,以改进数据质量的各个方面,进而提升整体的数据质量。实际上,企业数据治理的众多关键领域和活动都是以提升数据质量为目标,旨在通过改进数据质量来实现更显著的业务成效和经济效益。

数据质量管理是数据治理框架中的关键组成部分,广泛应用于数据模型设计、数据资产管理、主数据管理、数据仓库建设等解决方案。它可以采取反应性管理,针对质量问题发生后进行应对;也可以采取预防性管理,主动预防潜在的质量问题。许多公司通过将数据质量管理技术与企业管理流程相结合,增强了主动管理数据质量的能力,这是一种值得推广的实践。

二、低质量的数据会造成什么样的后果

1、造成经济上的损失

低下的数据质量对企业造成的后果是显而易见的,它直接导致了经济损失。企业若不能掌握客户的最新需求和市场动向,就可能错失维系现有客户和吸引潜在客户的机会,进而失去可能产生的收益。

此外,如果企业系统中存储的客户联系信息出现错误,如电话号码、电子邮箱等不准确,或者客户的家庭信息记录有误,那么企业将难以对客户进行精确的市场分析,营销信息的传递也会受阻,更不用说实现产品的成功销售。

数据的不准确还可能引发更严重的后果,包括对企业声誉的长远损害。因此,确保数据的高质量不仅是提升运营效率的需要,更是保护企业资产、维护客户关系和避免潜在风险的关键措施。

2、提高决策的风险与成本

企业内部若充斥着大量残缺或不准确的数据,无疑会对业务流程和团队协作带来额外的沟通成本。使用这些低质量的数据进行数据分析或预测性建模,不仅效率低下,而且可能导致错误的决策方向,从而引发更大的风险和成本。

此外,数据中的重复记录和缺失字段也会严重影响数据管理的效率和效果。在数据科学领域,有一个著名的格言“垃圾进,垃圾出”(Garbage In, Garbage Out),意味着如果输入的数据质量低劣,那么分析得出的结果也将是没有价值的。这样的分析不仅不能为决策提供有效的支持,反而会造成资源和成本的无谓浪费。

因此,确保数据的完整性和准确性对于提升数据分析的质量和可靠性至关重要,也是优化业务流程、提高决策效率、降低运营成本的关键。

3、有损企业的名誉

(1)导致错误决策

基于不准确的数据做出的业务决策可能导致企业资源的浪费或者错失市场机会,这可能会损害企业的市场地位和客户信任。

(2)引发客户不满

如果企业使用的数据导致对客户的服务不准确或不个性化,比如错误的客户联系信息或不恰当的产品推荐,可能会引起客户的不满和抱怨。

(3)增加合规风险

数据质量问题可能导致企业违反数据保护法规和行业标准,从而面临法律诉讼、罚款或其他合规风险,这些都会对企业声誉造成严重损害。

(4)市场信任下降

企业如果因为数据问题频繁出现错误或召回产品,会逐渐失去市场的信任,影响品牌忠诚度。

4、  增加无形的成本

数据质量不佳所引发的沟通成本、运营成本以及直接经济损失都是可以量化的有形成本。然而,更为隐蔽且难以估量的是基于不准确数据所做出的错误决策所带来的无形成本。这种无形成本可能逐步累积,最终引发更为严重的问题,对企业的长期发展造成深远影响。

正因为如此,许多企业在决策过程中更倾向于依赖个人的直觉和经验,而不是冒险依赖可能存在缺陷的数据。这种倾向或许解释了为什么在一些企业中,尽管投资了数据仓库、商业智能(BI)等系统,但这些系统并没有得到充分的利用,未能发挥其应有的价值。

三、从哪些维度衡量数据质量

数据质量可以类比于人类的健康状况。正如影响健康的因素多种多样,包括饮食、运动和情绪等,而这些因素的准确测量并非易事。同样,对于数据质量而言,识别和衡量那些对业务产生影响的数据元素也充满了挑战。数据质量不佳相当于业务运营中的“不健康”状态,而数据质量的各个维度将协助我们理解数据质量对业务成功的重要性。

数据质量维度是指用于衡量或评估数据质量关键方面的标准,它们也可以视为数据治理问题的分类方式。通过定量分析这些维度,我们可以对数据质量进行量化评估,并通过改进这些质量维度来有效提升数据的整体质量。不同的数据集可能需要关注不同的质量维度,但通常这些维度包括数据的一致性、完整性、唯一性、准确性、真实性、及时性和关联性等。

2dc1289d9e2902cae94ccc29278bdce9.jpeg

1、  数据一致性

数据一致性是数据管理中的一个核心原则,它要求在不同数据源之间保持数据的统一性。这种一致性主要体现在两个关键方面:

(1)元数据的一致性

这涉及到不同数据源中元数据的对齐,包括:

  • 命名的统一性,确保相同类型的数据在各个数据源中使用相同的命名规则。
  • 数据结构的统一性,保证数据模型和架构在不同数据源中保持一致。
  • 约束规则的统一性,即数据源之间应用的数据完整性和业务规则相匹配。
  • 数据记录的一致性:这关注数据项本身的统一性,包括:
(2)数据编码的统一性

确保数据的表示方式在不同数据源中保持一致。

  • 命名及含义的统一性,避免相同数据在不同数据源中因命名差异而产生混淆。
  • 数据分类层次的统一性,保持数据分类和组织结构的一致性。
  • 数据生命周期的统一性,确保数据从创建到归档的整个过程在不同数据源中得到一致的管理。

在数据存在多个副本的情况下,数据一致性问题尤为突出,可能导致数据内容的冲突和不一致性问题,这些问题需要通过有效的数据管理策略和工具来解决。

2、  数据完整性

数据完整性是评估数据质量的关键维度,它主要涉及以下三个核心方面:

(1)数据模型的完整性

这指的是数据模型的结构是否完备,包括:

唯一性约束的完整性,确保每条数据记录都能被唯一标识。

参照数据的完整性,保证数据之间的关联和引用准确无误。

(2)数据记录的完整性

这涉及单个数据记录的完备性,包括:

确认数据记录是否完整,没有遗漏关键信息。

确保数据记录的可用性,没有因为损坏或丢失而变得不可访问。

(3)数据属性的完整性

这关注数据字段的填充状态,包括:

检查数据属性是否存在缺失值,如空字段或NULL值,这可能会影响数据分析的准确性。

数据的完整性一旦受损,其作为决策支持的价值便会大打折扣。因此,数据完整性是数据质量管理中最为根本且频繁出现的问题之一,它对保障数据分析的可靠性和业务流程的顺畅运行至关重要。

3、  数据唯一性

数据唯一性是识别和量化冗余数据的关键工具。冗余数据不仅妨碍了业务协同,还可能导致流程追踪变得复杂。在主数据管理中,常见的问题如“一物多码”或“多物一码”便是冗余数据的具体体现。这些问题凸显了为每个数据实体分配一个独一无二的“身份标识”(ID)在数据治理中的重要性。

确保数据唯一性是数据治理的一个基础性挑战。通过为每个数据项分配一个不重复的标识符,可以有效地减少冗余,提高数据的准确性和可信度。这不仅有助于简化业务流程,还能增强数据的一致性和可追溯性,从而为数据驱动的决策提供坚实的基础。

4、  数据准确性

数据准确性,亦称为数据的可靠性,是确保数据在分析、识别和度量过程中的精确性和有效性的关键指标。它主要体现在以下几个方面:

  • 描述的准确性:数据是否能够准确反映其代表的实体或事件的特征。
  • 计算的准确性:基于数据进行的计算和推导是否正确无误。
  • 值的准确性:数据记录的数值是否精确,没有误差或偏差。

依赖于不可靠的数据可能会导致分析结果的偏差,进而引发方法论上的缺陷和决策质量的下降。在严重的情况下,数据的不准确性可能会给企业带来重大的风险和损失。

5、  数据真实性

数据真实性是衡量数据是否忠实地反映了其代表的实体或事件的实际状态的一个重要指标。获取真实可靠的原始数据是确保数据分析有效性的核心。然而,实际情况中,保证数据真实性面临诸多挑战,并非总是容易实现。

数据的不真实性并不总是源自原始记录的误差,而往往是由人为因素引起的。特别是在那些需要经过多个层级上报的数据中,信息的失真现象尤为普遍。这可能是由于信息在传递过程中的误解、故意篡改或是基于特定利益的操纵所导致。

因此,确保数据真实性的关键在于建立严格的数据记录和验证流程,以及培养一种以事实和透明度为基础的企业文化。通过这些措施,可以最大限度地减少数据在采集、处理和报告过程中的失真风险。

6、  数据及时性

数据的及时性强调了在关键时刻获取所需数据的能力。在统计学的观点中,获取数据的时机应控制在该数据对经济或业务决策影响的平均时间之内。数据的价值与其时效性密切相关,随着时间的推移,过期的数据可能会迅速失去其原有的价值和相关性。

7、  数据关联性

数据关联性是衡量数据之间应有关系是否存在及其准确性的一个重要指标。这些关系可能包括:

  • 函数关系,即数据项之间的数学依赖性;
  • 相关系数,描述数据项之间的统计关联强度;
  • 主外键关系,数据库中用于确保数据一致性的约束;
  • 索引关系,数据库中用于提高查询效率的数据组织方式。

如果数据之间的这些关联性缺失或出现错误,可能会导致数据分析的结果不准确,影响数据的完整性和分析的有效性。

数据质量测量是一个关键过程,它涉及根据既定的标准和数据质量维度来评估数据满足特定预期的程度。这一过程使我们能够跨时间、跨空间对不同数据对象进行比较分析,从而为决策提供依据。为了确保数据达到既定的预期,关键在于实施有效的数据质量测量。有效的数据质量测量应具备以下特征:

  • 数据测量应当具有明确的目标导向,这意味着每一次测量都应服务于特定的业务或分析目的。
  • 此外,数据质量测量的可重复性是其科学性和可靠性的保证,确保在相同的条件下重复测量能够得到一致的结果。
  • 同时,数据质量测量的结果应当是可解释的,即测量结果应能够被数据的用户和利益相关者清晰理解,以便于他们可以基于这些信息做出明智的决策。

四、总结

总之,大数据时代的商业潜力是巨大的,但这一潜力的实现严重依赖于数据的质量。低质量的数据不仅会削弱数据分析的有效性,还可能导致企业错失商机,甚至面临更大的风险。因此,企业必须采取积极措施,确保其数据资产的健康和活力。

在本文中,我们介绍了数据质量管理的相关概念,分析了低质量数据对企业运营可能造成的负面影响,并讨论了衡量数据质量的关键维度。通过这些讨论,我们强调了建立和维护一个全面的数据质量管理框架的必要性,这个框架应涵盖从数据采集到分析的整个生命周期。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/746656.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【QT】设置QTabWidget样式:上、下边线的显示与去除

目录 0.简介 1.环境 2.详细介绍 2.1我的原代码和显示效果 2.2 去掉QTabWidget的边框 2.3 单独留下边线 2.3.1 法一:通过【this->setDocumentMode(true);】设置下边线 2.3.2 通过【QTabWidget::pane】设置下边线 2.4单独设置上边线 2.5 优化界面tab 2.…

Ceil()——向上取整函数

函数原型为: double ceil(double x); 大家可以在这个网站里更清晰的了解ceil - C Reference (cplusplus.com) 下面借助一道例题来帮助大家理解:牛牛的快递_牛客题霸_牛客网 (nowcoder.com) 我们分析题得知,在大于1的情况下,只要…

AI在软件开发中的应用

AI在软件开发中的应用可以帮助开发人员更高效地编写和测试代码,并提高软件的质量和性能。它能够帮助加快软件的部署和维护过程,提供更好的开发体验。 编码辅助 帮助开发人员更快地编写代码。例如,AI可以识别代码中的语法错误,并提…

实时美颜技术解析:视频美颜SDK如何改变直播行业

实时美颜技术的出现,尤其是视频美颜SDK的应用,正逐渐改变着直播行业的生态。 一、实时美颜技术的原理 实时美颜技术利用人工智能和图像处理算法,对视频中的人物面部进行优化和修饰。该技术通常包含以下几个步骤: 1.人脸检测和识…

Linux文件编程详解

Linux文件编程详解 在Ubuntu(Linux)系统下进行文件操作涉及一系列的系统调用,这些调用是基于Unix风格的文件操作API。这些操作包括打开或创建文件、从文件中读取数据、向文件中写入数据、移动文件指针以及关闭文件。以下是这些函数的详细介绍…

std::enable_if和std::is_base_of

std::enable_if,其主要为了完成模板特偏化,有两个参数,第一个为布尔值类型,第二个如果布尔值为true,其为默认空值,如果已经赋值,则为对应的类型。 std::is_base_of,其一共存在两个参数&#xff…

ora-15025 ora-27041问题处理

这个问题先排查 [oracleracdg2-2 ~]$ cd $ORACLE_HOME/bin [oracleracdg2-2 bin]$ ls -ld oracle -rwsr-s--x 1 oracle oinstall 239626641 Jun 25 19:09 oracle 正常的属组是 [gridracdg2-1 ~]$ setasmgidwrap -o /u01/app/oracle/product/11.2.0.4/dbhome_1/bin/oracle […

玩转AI之四个免费热门的AI工具

2023年,可以说称之为人工智能元年,随着 AI 人工智能、机器学习技术的不断发展,各种 AI 算法的应用也越来越广泛,在AI这一领域中,软件、工具和网站如雨后春笋般涌现。下半年,预计会有更多王炸级别的产品问世…

windows10/win11截图快捷键 和 剪贴板历史记录 快捷键

后知后觉的我今天又学了两招: windows10/win11截图快捷键 按 Windows 徽标键‌ Shift S。 选择屏幕截图的区域时,桌面将变暗。 默认情况下,选择“矩形模式”。 可以通过在工具栏中选择以下选项之一来更改截图的形状:“矩形模式”…

线性代数基础概念:行列式

目录 线性代数基础概念:行列式 1. 行列式的定义 1.1 递归定义 1.2 代数余子式定义 1.3 几何定义 2. 行列式的性质 2.1 行列式等于其转置的行列式 2.2 交换两行或两列,行列式变号 2.3 将一行或一列乘以一个数 k,行列式乘以 k 2.4 将…

植物大战僵尸杂交版技巧大全(附下载攻略)

《植物大战僵尸杂交版》为策略游戏爱好者带来了全新的挑战和乐趣。如果你是新手玩家,可能会对游戏中的植物和僵尸感到困惑。以下是一些实用的技巧,帮助你快速掌握游戏并享受其中的乐趣。 技巧一:熟悉基本玩法 游戏的基本玩法与原版相似&…

Android 11.0 修改系统显示大小导航栏消失

Android 11.0 修改系统显示大小导航栏消失 1.显示大小设置为大时,导航栏图标不显示。 设置为大,较大,最大时,导航栏图标不显示。 2.开始怀疑是导航栏被隐藏了,各种折腾无效。 3.发现: frameworks/base/packages/SystemUI/src/com/android/systemui/statusbar/phone/Edg…

OpenCV cv::Mat到 Eigen 的正确转换——cv2eigen

在进行计算机视觉项目时,我们经常需要处理相机位姿的变换。最近,我在项目中遇到了一个看似简单但实际上颇具挑战性的问题:从 OpenCV 的 cv::Mat 格式转换到 Eigen 库的格式。这个过程中遇到了一些问题,但最终找到了一个稳健的解决…

高考成绩加分,西藏学生推荐使用的《藏文翻译词典》APP,藏文作文高考大纲,初中高中学习内容与考试同步更新!

2024年高考成绩出炉啦!在这个特别的时刻,我想向大家表达最真挚的祝贺。高考不仅是一场考试,更是你多年学习旅程的一次总结。当你的成绩揭晓,无论结果如何,你都应该为自己感到骄傲。 在高原,藏语如同雪山上…

从官方源码精简出第1个FreeRTOS程序

一、下载官方源码 1、打开百度搜索freerots,找到官网:FreeRTOS官网 2、将源码解压到没有中文目录的路径下 二、删减目录 1、删除FreeRTOS-Plus和tools 2、删除FreeRTOS/Demo下除CORTEX_STM32F103_Keil外的所有文件 3、删除FreeRTOS\Source\portable下除RVDS和MemM…

字符串匹配 --- BF算法 KMP算法

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 算法Journey 本篇博客我们将介绍关于字符串匹配的BF算法以及KMP算法,请放心食用~ 🏠 字符串匹配 假设有一个字符串为主串str&#x…

算法07 深度优先搜索及相关问题详解

深搜与广搜是搜索算法中最常用的两种算法,通过深度优先搜索解决问题还会用到回溯和剪枝,让我们一起进入本章,了解深搜的基本概念和模板,并学会解决一些常见问题。 目录 问题导入 走迷宫问题 如何走? 问题建模 如何…

(2024,频域 LoRA,DFT,DCT,自适应门控,基于适配器组合的图像编辑)FouRA:傅里叶 LoRA

FouRA: Fourier Low Rank Adaptation 公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 相关工作 3. 提出的方法 3.1 低秩适应的公式 3.2 频域中的低秩适应 3.3 频率变换 …

【个人博客搭建】(26)发布后端webapi项目

1、选择启动的webapi,右击发布 2、选择左下角的“显示所有设置” 在上一页按钮那边是发布文件夹的目录 地址, 现在界面的就是配置的信息, 配置:Debug、Release 目标框架:我们用的net8.0,就是他&#xff…

2.移植freertos到stm32f103c8t6

目录 1.步骤 2.freertos配置时常见的选项卡意思 1.步骤 2.freertos配置时常见的选项卡意思