数据质量差的代价是什么?

如今,许多数字企业都认为自己是数据驱动的。通过各种软件解决方案,数据无处不在,收集起来也非常方便,这使得企业能够被动地收集大量数据,并将其应用于决策制定。

然而,人们往往很容易在不考虑数据质量的情况下查看仪表盘和工具。Gartner 估计 数据质量低下导致企业损失平均每年1290万美元。

一、数据质量差的真正代价

数据质量很难评估,因为它只是关于现实世界的信息。没有任何基本原则可以表明系统中存储的信息是不准确的数据,除非字段缺失或为零。

因此,你很容易相信仪表板上显示的数据是准确且高质量的。如果随后用这些数据得出结论,这些决策将基于不完整的数据。基于劣质数据的决策可能会导致企业将重点放在错误的产品或服务上,从而导致收入损失。

此外,很难发现决策是基于低质量数据做出的。大多数决策和策略都需要时间才能实施,结果可能更晚才会出现。由于决策和结果之间有很长的延迟,低质量数据可能会影响大量业务运营。

不良数据还会产生间接影响。由于决策可能导致企业专注于一个领域和收入来源,因此在决策过程中总会错失一些机会。这些错失的机会可能比基于不良数据的任何机会都更有利可图或更具可行性。

在某些情况下,数据质量差还会导致公司声誉或士气受损。基于不准确数据做出的错误决策会削弱高层管理人员和员工的信任,导致长期整体绩效下降。

二、什么原因导致数据质量差?

数据质量差可能是由多种因素造成的,从人为错误到各种技术故障。通常,存在不良数据相关问题的企业会同时参与多个流程,这使得发现最紧迫的原因变得更加困难。

1.人为错误

人为错误是导致数据质量不佳的最简单和最常见的原因之一。即使手动执行的工作很少,人为错误也可能发生在数据质量管理流程的任何阶段。

大多数错误发生在数据输入阶段。这些错误会随着必须执行的手动工作量而迅速增加。因此,应尽可能减少手动数据输入。

此外,人为错误还可能发生在流程的其他阶段,例如在转换、移动、复制或重新格式化数据时。然而,这些错误通常更容易被注意到,因为受影响的数据集更大。

2.缺乏数据标准化

数据科学家和工程师经常会谈到标准化的重要性。标准化不足的一个常见例子是数据库可能使用不同的方式来表示相同的信息(例如在同一组中使用“USA”、“US”和“United States of America”)。

缺乏标准化会导致重复条目,从而导致数据质量低下。在大型数据集中,对“美利坚合众国”的定量分析可能会返回不正确的数据,因为它会遗漏其他符号(“USA”、“US”)。

幸运的是,对于小型企业来说,在这方面提高数据质量相对容易。标准化信息集和实体 ID 或名称将大大降低出现不良数据的可能性。对于大型企业和公司来说,则需要制定数据治理策略。

3.数据治理不力

数据治理是通过实施最佳实践和流程来管理公司内部信息的实践。在大型组织中,数据科学家和工程师只是直接参与管理信息的人员中的一小部分。

随着利益相关者数量的增加,尤其是数据质量管理领域以外的人员,出现各种错误的可能性也会增加。这些错误可能包括但不限于数据输入、转换或不一致的更新问题。

4.数据整合乏善可陈

在大型企业中维护高质量数据意味着要从各种来源收集信息。大多数这些来源将使用不同的符号和格式,因此需要各种流程来维护高质量的数据。

如果数据是从内部自动来源加载的,这些问题可能相对较小。每当包含手动输入的信息(例如客户数据)时,问题可能会变得更加紧迫,因为错误可能会显著增加。

最后,外部来源(例如通过网络抓取)可能会导致数据完整性问题。大多数此类数据都是非结构化的,需要进行大量的转换工作。即使出于最好的意图,数据科学家和分析师在整合此类信息时也必须格外小心。

三、如何提高数据质量?

良好的数据质量是一个定义问题。很少有企业能够在收集和分析过程中始终保持高质量的数据。因此,通常建议从外部数据质量指标开始。

因此,提高数据质量首先要定义数据的用例。目前,常见示例包括开发机器学习或 AI 模型、制定业务战略以及优化资源管理。

一旦定义了用例,利益相关者就可以讨论所有数据质量问题。例如,不良数据是否会导致机器学习模型无法达到准确度基准,或者管理不当的客户数据是否会导致利益相关者在制定销售策略时效率低下?

这些问题通常指向内在数据质量指标。以客户数据为例,可能存在准确性或完整性问题,这导致了潜在问题。额外的数据验证步骤可以完全解决这些问题。

这样的流程有助于公司挑选出需要关注的内在数据质量指标。然而,有时内在数据质量指标可能不是问题所在。根据问题的不同,外在数据质量指标也可能存在问题。

例如,如果用户不断要求澄清解释,那么可能就没有必要提高数据质量本身。数据科学家可能会以混乱的方式呈现其工作的最终结果,使非技术用户更难理解。

结论

不良数据可能是许多组织问题的罪魁祸首,从简单的错误到重大的收入损失。维护高质量的数据不仅对有效决策至关重要,而且对维护对数据本身的信任也至关重要。

虽然坏数据会给公司带来沉重的负担,但优质数据却能带来巨大的好处。许多组织都陷入了一个陷阱——将数据视为不需要维护的商品。它和其他资产一样,也是资产,因为数据会贬值并变得毫无用处。在某些情况下,它甚至可能变得有害,因此,需要非常小心地管理它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/891707.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Light灯光组件+组件的相关操作+游戏资源的加载

Light灯光组件 Type: Directional:平行光,模仿的是太阳光 Spot:聚光灯 Area:区域光 Color: 颜色值 Mode: RealTime:实时 Mix:混合 Baked:烘焙 Intersity: 光照强度 Indirect Multiplier:光照强度乘数 Shadow Type:影子设置:…

云栖实录 | Hologres3.0全新升级:一体化实时湖仓平台

本文根据2024云栖大会实录整理而成,演讲信息如下: 演讲人: 姜伟华 | 阿里云智能集团资深技术专家、Hologres 负责人 丁 烨 | 阿里云智能集团产品专家、Hologres 产品负责人 活动: 2024 云栖大会 - 商用大数据计算与分析平台论…

OpenCV-人脸检测

文章目录 一、人脸检测流程二、关键方法三、代码示例四、注意事项 OpenCV是一个开源的计算机视觉和机器学习软件库,它提供了多种人脸检测方法,以下是对OpenCV人脸检测的详细介绍: 一、人脸检测流程 人脸检测是识别图像中人脸位置的过程&…

git--git reset

HEAD 单独一个HEAD eg:git diff HEAD 表示当前结点。 HEAD~ HEAD~只处理当前分支。 注意:master分支的上一个结点是tmp分支的所在的结点fc11b74, 79f109e才是master的第二个父节点。 HEAD~ 当前结点的父节点。 HEAD~1 当前结点的父节点。 HEAD~n 当前结点索…

kali linux 允许 root 用户登录 安装过程中不能创建 root 根用户密码 之后不能以根用户直接登录 即使是正确的管理员密码也无法登录

打开终端。 输入命令 sudo passwd root 并按回车键。 系统会提示您输入新的 UNIX 密码,输入您想要设置的密码并按回车键。 再次输入相同的密码进行确认。 如果密码设置成功,会显示 “passwd: password updated successfully”。 在登录界面&#xf…

模态与非模态的对话框

本文学习自&#xff1a; 《Qt Creato快速入门》 #include "widget.h" #include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); }1. #include "widget.h" #include "ui_w…

Linux:进程控制(三)——进程程序替换

目录 一、概念 二、使用 1.单进程程序替换 2.多进程程序替换 3.exec接口 4.execle 一、概念 背景 当前进程在运行的时候&#xff0c;所执行的代码来自于自己的源文件。使用fork创建子进程后&#xff0c;子进程执行的程序中代码内容和父进程是相同的&#xff0c;如果子进…

算法: 位运算题目练习

文章目录 位运算判定字符是否唯一丢失的数字两整数之和只出现一次的数字 II消失的两个数字常见位运算总结 位运算 判定字符是否唯一 有很多解法,比如hash表,或者给字符串排个序,然后遍历… 写这道题时没注意到如果出现奇数个相同字符,此时就应该返回false了. 而不是全部放到位…

### 更新数据库时出错。原因:java.sql.SQLException: No database selected

更新数据库时出错。原因&#xff1a;java.sql.SQLException: No database selected 问题&#xff1a;原因&#xff1a;解决办法&#xff1a; 问题&#xff1a; 在基于idea环境中学习搭建mybatis框架时&#xff0c;MySQL数据库执行插入语句遇到以下异常&#xff1a; com.intel…

SMARTFORMS 可选项CONDITION设置条件,根据条件真假显示不一样的内容

文章目录 开发过程执行测试是否输出 开发过程 执行测试 是否输出

前端开发攻略---使用ocr识别图片进行文字提取功能

1、引入资源 通过链接引用 <script src"https://cdn.bootcdn.net/ajax/libs/tesseract.js/5.1.0/tesseract.min.js"></script> npm或其他方式下载 npm i tesseract 2、示例 <!DOCTYPE html> <html lang"en"><head><meta…

PHP智慧餐饮新风尚点餐系统

智慧餐饮新风尚点餐系统 —— 美食与科技的完美碰撞 &#x1f37d;️ 开篇&#xff1a;智慧餐饮的崛起 在快节奏的现代生活中&#xff0c;智慧餐饮正逐渐成为我们日常的一部分。随着科技的飞速发展&#xff0c;餐饮行业也在不断创新&#xff0c;力求为顾客提供更加便捷、高效…

如何微调(Fine-tuning)大语言模型?

从 GPT3 到 ChatGPT、从GPT4 到 GitHub copilot的过程&#xff0c;微调在其中扮演了重要角色。什么是微调&#xff08;fine-tuning&#xff09;&#xff1f;微调能解决什么问题&#xff1f;什么是 LoRA&#xff1f;如何进行微调&#xff1f; 本文将解答以上问题&#xff0c;并…

Go语言基础学习(Go安装配置、基础语法)

一、简介及安装教程 1、为什么学习Go&#xff1f; 简单好记的关键词和语法&#xff1b;更高的效率&#xff1b;生态强大&#xff1b;语法检查严格&#xff0c;安全性高&#xff1b;严格的依赖管理&#xff0c; go mod 命令&#xff1b;强大的编译检查、严格的编码规范和完整的…

数据库的相关知识

数据库的相关知识 1.数据库能够做什么&#xff1f; 存储大量数据&#xff0c;方便检索和访问保持数据信息的一致、完整共享和安全通过组合分析&#xff0c;产生新的有用信息 2.数据库作用&#xff1f; 存储数据、检索数据、生成新的数据 3.数据库要求&#xff1f; 统一、…

leetcode128最长连续序列 golang版

题目描述 题目&#xff1a;给定一个未排序的整数数组 nums 找出数字连续的最长序列&#xff0c;不要求序列 元素在原数组中连续 的长度 请你设计并实现时间复杂度为On的算法解决此问题 示例 1&#xff1a; 输入&#xff1a;nums [100,4,200,1,3,2] 输出&#xff1a;4 解释&…

基于RPA+AI的网页自动填写机器人 | OPENAIGC开发者大赛高校组优秀作品

在第二届拯救者杯OPENAIGC开发者大赛中&#xff0c;涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到&#xff0c;我们特意开设了优秀作品报道专栏&#xff0c;旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者&#xff0c;希望能带给…

软件设计师---知识产权

著作权 著作权&#xff08;也称为版权&#xff09;&#xff1a;是指作者对其创作的作品享有的人身权和财产权。 人身权包括&#xff1a; 发表权&#xff1a;时限是作者终身及其死亡后50年署名权&#xff1a;不受时间限制修改权&#xff1a;不受时间限制保护作品完整权&#…

MFC扩展库BCGControlBar Pro v35.1新版亮点:改进网格控件性能

BCGControlBar库拥有500多个经过全面设计、测试和充分记录的MFC扩展类。 我们的组件可以轻松地集成到您的应用程序中&#xff0c;并为您节省数百个开发和调试时间。 BCGControlBar专业版 v35.1已全新发布了&#xff0c;这个版本改进网格控件的性能、增强工具栏编辑器功能等。 …

Android 防止截屏和录屏

通过给当前的window对象设置标记WindowManager.LayoutParams.FLAG_SECURE来防止截屏和录屏 protected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);// 防止截屏getWindow().setFlags(WindowManager.LayoutParams.FLAG_SECURE, WindowManage…