数据湖和中央数据仓库的设计

设计数据湖或中央数据仓库是许多大型组织的主要职能,这些组织每天处理数百万笔交易,并对这些交易进行进一步的报告、预测或机器学习项目分析。

为了将所有来自源系统(我们称之为“上游”)到其他业务应用(所谓“下游”)的数据点整合在一起,已经成为数据智能或商业智能团队的一个不同的工程奇迹。在完成所有这些练习和从上游到下游的紧密依赖后,管理数据变得越来越难以通过所有数据管道进行检查。

在大多数组织中,我们可以看到以下数据流程是从如下所示开始的:

2be0c6fc0e0491a3845118259aad0cfc.png
1*9TnwkgYimy_TGGaXp8-B3A.png

新应用程序或多或少是按领域驱动设计,这些应用程序与更特定于应用程序的数据非常紧密,这给数据库工程团队带来了新的挑战,要为满足所有方面的目的提供有组织的解决方案,如下所示:

b28a5d55f12a4e2be90083de30ef1690.png
1*qgjpz13zZYocxeFfx4QJDw.png

数据网格(Data Mesh)具有相同的功能集,以满足领域驱动的分散化的目的。为了设计数据网格,强调遵循4个原则,并针对组织中不同团队提供了不同的责任。

a2fa3e2cbf3b506728b720b524a7dfff.png
1*0kH8QBl-Y9SnTE6g-Azl_w.png

领域数据的所有权

由于我们采用了领域驱动的分散化方法,因此在数据网格中,数据围绕着特定的业务领域进行拆分,就像我们在微服务中所做的那样。在数据领域中也是如此,将存在一个负责跟踪活动性的数据领域团队。数据领域团队可以使用数据创建数据产品,其他数据领域团队可以使用这些数据产品。

数据作为产品

在数据网格中,数据被视为可以由一个数据领域团队发布并可以被另一个数据领域团队消费的产品。数据领域团队必须以产品思维来考虑数据,他们对数据质量、表示和内聚性负完全责任。此外,数据领域团队必须与数据网格启用团队合作,以获取数据产品的资格。

自主驱动的数据平台

数据网格中的所有数据都可以在公司内部任何地方使用。因此,可以在短时间内创建新的报告或数据产品,并传播到随后的数据产品。这带来了治理问题,因为数据的控制可以通过治理政策进行。

联合治理

治理通过不同的数据政策和安全政策进行处理,由数据领域团队根据数据发布和数据消费受到的不同合同来执行。然而,如果政策未正确定义,治理可能是数据的一个问题点。

数据网格架构

数据网格具有多种架构,可以使用不同的语言和它们的框架进行定义。这完全取决于团队特定的实现,这些实现用于实现数据产品。

18df11215cb98a21cfcae82d0bd89a84.png
1*0G9TQLHLCSs6jLX_z20CPQ.png

数据网格的路线图可以由不同团队共同设计和实施。每个团队都有维护数据网格的责任。

数据网格启用团队

启用团队是数据网格架构的主要团队,用于与数据领域团队进行连接。他们为数据产品创建原型和文档。他们指导数据领域团队遵循定义的数据产品规则,并帮助他们为数据网格授予数据产品。

数据平台团队

平台团队主要维护基础设施,以维护数据对数据网格的可用性。他们用于维护所有数据产品的数据目录。数据目录可以是其他数据领域团队查找数据网格并设计他们的数据产品的元数据。数据平台团队还拥有数据存储、监控和访问数据网格的矩阵。

数据领域团队

数据领域团队可以是创建

应用程序或数据产品的工程或开发团队。数据产品是操作数据、分析功能和来自其他数据产品的数据的组合。其他数据产品也可以使用类似的方式。

行业团队

行业团队拥有数据治理政策,并负责创建数据、安全和其他合规政策。定义政策有助于定义数据网格中数据产品的可访问性。

数据网格是新的现代化数据架构模式,可以在不久的将来在企业级别实施。数据网格架构中有很多值得探索的地方


  • 系统设计概念系列文章

计算机的层次化架构

每个开发者都应该知道的7个原则

6个系统设计的基本概念

数据库:系统设计的核心

  • 图解系列

系统设计中的缓存技术:完整指南

关系数据库的全景图 

Redis 全景解析

当然架构设计、全景图解系列还有很多,快来关注一起学习吧~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/221791.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于ssm vue技术的品牌银饰售卖平台源码和论文737

摘 要 本论文主要是针对品牌银饰售卖而开发进行概述,主要包括对研究的背景和研究现状,以及研究目的等的阐述,也对该系统的各种功能要求,对系统结构,数据库的设计等进行讨论。随着科技与技术的发展,利用计…

【Intel/Altera】 全系列FPGA最新汇总说明,持续更新中

前言 2023年11月14日英特尔 FPGA中国技术日,Intel刚发布了新的FPGA系列,官网信息太多,我这里结合以前的信息,简单汇总更新一下,方便大家快速了解Intel/Altera FPGA家族。 目录 前言 Altera和Intel 型号汇总 1. Agi…

Pycharm的字体缩放设置

法1 法2 放大操作 increase 缩小操作 decrease 保存操作,点击OK结束

数学建模-基于机器学习的家政行业整体素质提升因素分析

基于机器学习的家政行业整体素质提升因素分析 整体求解过程概述(摘要) 家政服务业即为家庭提供多种类服务的专门行业,在第三产业中占有重要地位。但近年来,由于人工智能家居产业的发展与客户对家政从业者的要求水平不断提高,家政行业仍面对较…

Token 和 N-Gram、Bag-of-Words 模型释义

ChatGPT(GPT-3.5)和其他大型语言模型(Pi、Claude、Bard 等)凭何火爆全球?这些语言模型的运作原理是什么?为什么它们在所训练的任务上表现如此出色? 虽然没有人可以给出完整的答案,但…

基于Java SSM框架实现社区疫情防控管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现社区疫情防控管理系统演示 摘要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,社区疫情防控管理信息系统当然也不能排除在外。社区疫情防控管理信息系…

记录:Unity脚本的编写9.0

目录 射线一些准备工作编写代码 突然发现好像没有写过关于射线的内容,我就说怎么总感觉好像少了什么东西(心虚 那就在这里写一下关于射线的内容吧,将在这里实现射线检测鼠标点击的功能 射线 射线是一种在Unity中检测碰撞器或触发器的方法&am…

vivado如何进行增量编译

情况1 如果是根据 placement 或者 routing 进行增量编译,直接右键点击要跑的 implement,,选择set incremental implement , 然后选第二项,指定 要参考的 routing.dcp 或者 placement.dcp 的路径即可 情况2 如果只参考 synthesis …

网络层之IPv6

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

2023年【危险化学品经营单位主要负责人】及危险化学品经营单位主要负责人模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 危险化学品经营单位主要负责人根据新危险化学品经营单位主要负责人考试大纲要求,安全生产模拟考试一点通将危险化学品经营单位主要负责人模拟考试试题进行汇编,组成一套危险化学品经营单位主要…

linux无法打开M4a格式音频的解决方法

linux是开源系统,之所以打不开,是因为部分linux系统为了避免版权问题,没有m4a的解码插件。所以,解决的办法是安装如下两个非常小的转换器,我们一般用不到转换器的功能,而是反向应用,通过两个几十…

jenkins搭建文档

jenkins搭建文档 简介一、安装运行环境1、安装JDK环境1)查询自带的JDK2)卸载自带的JDK3)创建java文件夹并将jdk上传到该文件夹4)解压5)配置环境变量6)配置生效7)验证是否成功 2、安装maven环境1…

第四代可燃气体监测仪监测场景有哪些?

随着城市化进程的加速,燃气作为一种重要的能源在每个城市都得到了广泛的应用。然而燃气泄漏所引发的安全问题也日益增加,为了保障燃气安全并防止泄漏事故的发生,可燃气体监测仪在其中发挥着重要的作用。可燃气体监测仪适用于甲烷气体浓度监测…

解决(error) ERR Errors trying to SHUTDOWN. Check logs.问题~

该问题出现在我在使用shutdown关闭redis服务器时,出现该问题的原因是由于配置文件的日志文件位置未配置或者缺少日志文件 我自己出现该问题是因为缺少日志文件,解决步骤如下所示: 第一步:在该目录下使用touch命令创建日志文件 第…

免费分享一套Springboot+Vue前后端分离的学生网上请假系统,挺漂亮的

大家好,我是java1234_小锋老师,看到一个不错的SpringbootVue前后端分离的学生网上请假系统,分享下哈。 项目视频演示 【免费】springbootvue学生网上请假系统毕业设计 Java毕业设计_哔哩哔哩_bilibili【免费】springbootvue学生网上请假系统…

Java_ArrayList顺序表详解

目录 前言 顺序表 ​编辑 顺序表和数组 ArrayList简介 说明 ArrayList使用​编辑 ArrayList常见操作 ArrayList实现二维数组 ArrayList的遍历 ArrayList的扩容机制 总结 前言 一个高端的程序员,往往都是数据结构学的很好,判断一个程序的优劣也是看数据结构学的好与坏.…

【iApp源码】最新多功能无需服务器软件库源码

源码介绍: 多功能无需服务器的软件库源码,只需在理想后台添加一个后台应用和一个文档即可 安装教程: 1.用浏览器打开理想后台地址 http://apps.xiaofei.run/user/ 2.没有账号的话就注册一个,免费使用 3.登录上去,然后…

硬件开发笔记(十四):RK3568底板电路LVDS模块、MIPI模块电路分析、LVDS硬件接口、MIPI硬件接口详解

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/134634186 红胖子网络科技博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

球机实现飞机追踪

目录 1. 背景2. 实现步骤2.1 飞机识别2.2 计算目标与球机中心的偏离角度2.2.1 获取球机视场角2.2.2 计算偏离角度 2.3 计算角速度2.4 将角速度映射到球机转速挡位 1. 背景 球机本身带有一些跟踪算法,比如:人员跟踪、车辆跟踪,比较有限。如果…

函数递归。

文章目录 前言一、什么是递归二、递归的限制条件三、递归举例1.求n的阶乘2. 举例2:顺序打印一个整数的每一位 四、递归的优劣总结 前言 不多废话了,直接开始。 一、什么是递归 递归是学习C语言函数绕不开的⼀个话题,那什么是递归呢&#xf…