kettle开发-Day43-数据对比

前言:

        随着数字化的深入,各种系统及烟囱的建立,各系统之间的架构和数据存储方式不同,导致做数据仓库或数据湖时发现,因自建的系统或者非标准化的系统经常存在物理删除而不是软删除。这就延伸出一个问题,经常导致数仓里面的数据多余目标库的。导致做数据分析或者消息推送时,出现了很多“垃圾数据”。那我们怎么有效的去识别数仓和目标库的数据情况呢,今天我们介绍用kettle来标记不同库之间的数据对比。

一、数据对比

      ①出发点:

  1. 数据准确性验证

    • 数仓中的数据通常来源于多个源库,通过数据对比可以验证数仓中的数据是否准确反映了源库中的原始数据,从而确保数据分析和决策的准确性。
  2. 数据完整性检查

    • 数据对比有助于发现数仓中是否存在数据缺失或异常,确保数据的完整性。这对于数据分析和挖掘至关重要,因为不完整的数据可能导致错误的结论。
  3. 数据一致性维护

    • 在不同的业务系统或数据源之间,数据可能存在差异。通过数据对比,可以发现并解决这些差异,确保数仓中的数据在不同场景下保持一致。
  4. 数据质量提升

    • 数据对比是数据质量管理的重要环节。通过对比,可以发现数据质量问题(如错误、重复、缺失等),并采取相应的措施进行修正和改进。

       ② 常用方法 

  1. 行数对比

    • 对比源库和数仓中相同表的行数,以检查是否存在数据丢失或重复。这可以通过SQL语句中的SELECT COUNT函数来实现。
  2. 内容对比

    • 对比源库和数仓中相同表的数据内容,确保数据的准确性和一致性。这可以通过逐行比对数据或使用特定的数据对比工具来完成。
  3. 维度交叉对比

    • 在多维度的数据场景下,可以通过交叉对比不同维度下的数据汇总结果,以检查数据的一致性和准确性。例如,对比不同时间段、不同区域或不同产品线的数据汇总结果。
  4. 实时对比与离线对比

    • 根据业务需求,可以选择实时对比或离线对比。实时对比适用于对数据实时性要求较高的场景,而离线对比则适用于对数据实时性要求不高的场景。在实时对比中,可以使用数据流处理技术来实时同步和对比数据;在离线对比中,则可以使用批处理技术来定期同步和对比数据。
  5. DQC校验

    • DQC(Data Quality Check)校验是一种常用的数据质量检查方法。通过预设的检查规则和算法,对数据进行唯一性验证、最大/最小值验证等,以确保数据的准确性和合规性。

二、实际案例

        本次我们以OA系统中,我们常见的我们发起的流程,还没走完,然后被退回或者异常终止,然后被发起人删除的场景,刚开始我以为只是状态的改变,后面经过仔细分析,确实OA系统存在物理删除的操作,这导致我们进行OA流程分析的时候,推送提醒了很多异常的数据。比如这样,这样。

        因为频繁的出现,导致我不得不找OA负责人去分析原因,通过在OA系统里面查询对比,真的是被物理删除了,因此想到的解决方案就是通过新旧数据对比来标记数仓里面被删除的OA流程,然后进行过滤,来保证数据的一致性。

三、实现思路

         为了对比对应的数据,因此我们需要去定义比较数据的范围时,对比的主键(指标)。在本次数据对比中,我们通过对比近3个月的数据及通过ID作为主键进行对比,具体作业如下图所示。

        如上图所示,我们更新数据源近90天数据,作为新数据,用存储在数仓里面的对应的表做旧数据。然后通过主键进行对比就能发现新旧数据的修改情况。

         这里需要注意的是旧数据的比较范围要相对小点,即新数据更新的是近90天的数据,旧数据应该是89天的,这样就能有效避免误判的情况。

        然后我们通过主键排序和合并记录的功能,将数据对比的结果输出到一个对比结果表里面,然后我们再通过一个更新程序去更新对应目标表的数据即可。具体更新程序如下图所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/914585.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vscode中执行git合并操作需要输入合并commit信息,打开的nano小型文本编辑器说明-

1.前提: VScode中的git组件执行任何合并动作的时候需要提交远程合并的commit信息,然后编辑器自动打开的是nano文本编辑器 2.nano编辑器说明: 1.保存文件:按 Ctrl O,然后按 Enter 来保存文件。 2.退出编辑器&#xf…

Android音视频直播低延迟探究之:WLAN低延迟模式

Android WLAN低延迟模式 Android WLAN低延迟模式是 Android 10 引入的一种功能,允许对延迟敏感的应用将 Wi-Fi 配置为低延迟模式,以减少网络延迟,启动条件如下: Wi-Fi 已启用且设备可以访问互联网。应用已创建并获得 Wi-Fi 锁&a…

如何详细查询全球药品研发的进度信息?

药品的研发进展对于医药研发人员来说,不仅是知识和技能的积累,更是职业精神和价值观的塑造。通过了解药品的研发进展,研发人员可以更好地提高自己的专业知识和技能,激发创新思维,保持专业竞争力,提高研发效…

摄像机视频分析软件下载LiteAIServer视频智能分析软件抖动检测的技术实现

在现代社会中,视频监控系统扮演着至关重要的角色,其可靠性和有效性在很大程度上取决于视频质量。然而,由于多种因素,如摄像机安装不当、外部环境振动或视频信号传输的不稳定,视频画面常常出现抖动问题,这不…

Jmeter中的监听器(一)

监听器 1--查看结果树 用途 调试测试计划:查看每个请求的详细信息,帮助调试和修正测试计划。分析响应数据:查看服务器返回的响应数据,验证请求是否成功。检查错误:识别和分析请求失败的原因。 配置步骤 添加查看结果…

PaaS云原生:分布式集群中如何构建自动化压测工具

场景 测试环境中,压测常常依赖环境中的各种工具获取基础信息,而这些工具可能集中在某个中控机上,此时想打造的自动化工具的运行模式是: 通过中控机工具获取压测所需的基本信息在中控机部署压测工具,实际压测任务分发…

数据结构-递归函数的调用栈过程

这道题考察的是递归函数的调用栈过程。 逐步分析程序的执行过程: main() 函数首先被调用,此时栈底是 main() 的信息。main() 函数调用 S(1),此时 S(1) 的信息被压入栈中,位于 main() 之上。S(1) 函数内部调用 S(0),因…

华为OD机试 - 芯片资源限制(Python/JS/C/C++ 2024 C卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试真题(Python/JS/C/C)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加入华为OD刷题交流群,…

基于 Python 的 Django 框架开发的电影推荐系统

项目简介:本项目是基于 Python 的 Django 框架开发的电影推荐系统,主要功能包括: 电影信息爬取:获取并更新电影数据。数据展示:提供电影数据的列表展示。推荐系统:基于协同过滤算法实现个性化推荐。用户系…

使用 Web Search 插件扩展 GitHub Copilot 问答

GitHub Copilot 是一个由 GitHub 和 OpenAI 合作开发的人工智能代码提示工具。它可以根据上下文提示代码,还可以回答各种技术相关的问题。但是 Copilot 本身不能回答非技术类型的问题。为了扩展 Copilot 的功能,微软发布了一个名为 Web Search 的插件&am…

Sorting 排序

Goto Data Grid 数据网格 Sorting 排序 Sort Data 对数据进行排序 默认情况下,最终用户可以按任何列对数据进行排序,但具有 MemoExEdit、ImageEdit 和 PictureEdit 就地编辑器的列除外。在运行时,单击列标题一次可对数据进行升序排序。后续…

【笔记】Springboo项目启动失败

application run failed org.springframework.beans.factory.BeanDefinitionStoreException: Invalid bean definition with name adviceMapper defined in file 原因是mybatisplus和springboot的版本不匹配 修改后: springboot mybatisplus 成功

力扣 LeetCode 242. 有效的字母异位词(Day3:哈希表)

解题思路: 哈希表三种数据结构的选择 1. 数组:适用于数据量小的情况 2. set:适用于数据量大的情况 3. map:适用于key-value 什么时候用哈希表? 给你一个元素,判断该元素在这个集合里是否出现过 本题使…

项目财务管理软件有哪些优势?8款工具解析

本文分享的8款项目财务管理工具包括:1.PingCode;2.Worktile;3.用友U8;4.金蝶K3;5.泛微e-cology;6.明源云;7.Microsoft Project;8.QuickBooks。 在众多项目财务管理工具中挑选合适的一款&#xf…

sqoop import将Oracle数据加载至hive,数据量变少,只能导入一个mapper的数据量

sqoop脚本如下: sqoop import -D mapred.job.queue.namehighway \ -D mapreduce.map.memory.mb4096 \ -D mapreduce.map.java.opts-Xmx3072m \ --connect "jdbc:oracle:thin://1.2.3.4.5:61521/LZY2" \ --username root \ --password 123456 \ --query &…

k8clone二进制工具迁移k8s中的无状态应用

1 概述 k8clone是一个简便的Kubernetes元数据克隆工具,它可以将Kubernetes元数据(对象)保存为本地压缩包,在恢复时可将这些元数据恢复到目标集群中(已存在的资源不会被覆盖)。它不依赖远程存储&#xff0c…

100+SCI科研绘图系列教程(R和python)

科研绘图系列:箱线图加百分比点图展示组间差异-CSDN博客科研绘图系列:箱线图加蜜蜂图展示组间数据分布-CSDN博客科研绘图系列:小提琴图和双侧小提琴图展示组间差异-CSDN博客科研绘图系列:组间差异的STAMP图的ggplot2实现-CSDN博客…

小程序如何完成订阅

小程序如何完成订阅 参考相关文档实践问题处理授权弹窗不再触发引导用户重新授权 参考相关文档 微信小程序实现订阅消息推送的实现步骤 发送订阅消息 小程序订阅消息(用户通过弹窗订阅)开发指南 实践 我们需要先选这一个模板,具体流程参考…

如何提高自动驾驶中惯性和卫星组合导航pbox的精度?

Mems纯惯导里程推算精度做到千分之一,两分钟航向精度保持0.001弧度,是如何做到的? 【飞迪sigma车规高精度组合导航系统在3.6km长隧道下穿测试,135s纯惯导航向保持精度小于0.06度,隧道内转弯轨迹和直线航位推算重合#智能…

【Android】组件化开发入门

文章目录 引入组件是什么?为什么使用组件化开发?什么是模块化,组件化,插件化?常见实现 组件分层创建module 组件单独调试配置组件工程类型配置组件ApplicationId和AndroidManifest文件 引入 组件是什么? 组件(Component&#…