读数据湖仓08数据架构的演化

1. 数据目录

1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中

  • 1.1.1. 元数据

  • 1.1.2. 数据模型

  • 1.1.3. 本体

  • 1.1.4. 分类标准

1.2. 数据目录类似于图书馆的图书检索目录

  • 1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所需的图书

  • 1.2.2. 数据目录的运行方式与此类似,它负责连接组织中的所有文档和数据库

  • 1.2.3. 利用数据目录在基础数据中进行检索,能够节约大量的时间

1.3. 永久维护

  • 1.3.1. 数据目录经常被忽略的一个因素是它总在变化

  • 1.3.2. 数据目录也在不断地被更新维护

  • 1.3.3. 持续不断更新维护数据目录的原因

    • 1.3.3.1. 业务环境持续变化

    • 1.3.3.2. 系统不断变化

    • 1.3.3.3. 不断加入新系统

1.4. 开放

  • 1.4.1. 数据目录应该是开放的,且可供组织中的任何人分析使用,唯一例外的是那些试图对组织发起恶意行为的人

  • 1.4.2. 管理人员

  • 1.4.3. 文员

  • 1.4.4. 日常运营人员

  • 1.4.5. 审计师

  • 1.4.6. 分析人员

1.5. 不同数据类型的内部结构

  • 1.5.1. 结构化的数据目录可以在不同类型的数据之间产生关系

1.6. 分析工具可以用于处理数据目录中的数据,就像它可以用于分析基础数据中的详细数据一样

  • 1.6.1. 以独立于基础数据对数据目录进行分析

  • 1.6.2. 与大容量存储器不同,数据目录是数据湖仓的必要组成部分

2. 数据架构的演化

2.1. 数据架构是多类型数据处理的核心

  • 2.1.1. 没有数据架构,就没有坚实的数据基础可依赖

  • 2.1.2. 人工智能、机器学习和数据网格只有依赖数据架构,才能在各自的环境中取得成功

2.2. 数据湖仓中的基础数据是基于深思熟虑和精细设计的数据架构而来的

2.3. 伊始

  • 2.3.1. 应用程序只能读取输入,处理后并生成输出

  • 2.3.2. 简单的应用程序能够在企业等组织中高效地执行重复性工作,从而为组织节省大量工作时间

2.4. 应用程序

  • 2.4.1. 发现还可以编写更加复杂的应用程序

  • 2.4.2. 由于新的应用程序开始处理大量数据,并且生成更多的数据,因此,当时使用的存储介质(如打孔卡片和纸带)已经不足以存储这些数据

2.5. 磁带文件

  • 2.5.1. 随着发展,磁带文件成为数据存储的主要媒介

  • 2.5.2. 相比早期媒介,磁带文件能够存储更多的数据

  • 2.5.3. 与打孔卡片相比,磁带文件有许多优势,如存储成本更低,不需要固定长度的记录,并且可以重复使用

  • 2.5.4. 随着磁带文件的出现,主文件(Master File)的概念随之而来

    • 2.5.4.1. 主文件对于收集和存储组织的主要实体(如客户、产品和运输)的相关数据非常有用,它的理念是将相关信息集中存储在一个地方
  • 2.5.5. 磁带文件可以更有效地存储数据,但是在使用磁带文件时,要想访问单条记录,则必须读取整个文件

    • 2.5.5.1. 导致长时间的低效处理
  • 2.5.6. 虽然磁带文件解决了打孔卡片的众多问题,但也引入了一系列新的挑战

  • 2.5.7. 磁带文件也不能长时间保存数据

    • 2.5.7.1. 当磁带文件存储一段时间后,磁带文件上的氧化物会磨损而导致文件损坏,进而变得毫无价值

2.6. 硬盘存储

  • 2.6.1. 随着硬盘存储系统的出现,我们能够更加便捷地电子化存储和访问数据

  • 2.6.2. 数据库管理系统应运而生,负责管理这些数据

  • 2.6.3. 随着时间的推移,硬盘存储的生产成本逐步降低,最终变得经济实惠

  • 2.6.4. 硬盘存储带来的一项创新功能是可以便捷地直接存取数据,而不需要遍历整个文件

2.7. OLTP

  • 2.7.1. 由于数据能够快速存取,因此出现了一种被称为联机事务处理(OLTP)的技术

  • 2.7.2. OLTP使得计算机成为组织日常业务处理的重要组成部分

  • 2.7.3. OLTP将计算机的角色从仅处理后台任务提升到直接与客户进行接口交互

  • 2.7.4. 当计算机不可用或响应速度变慢时,业务将会受到影响

  • 2.7.5. OLTP应用程序会尽可能快地丢弃数据以保持响应速度

  • 2.7.6. 在历史数据变得愈发重要时,OLTP中却没有适合存储历史数据的位置

2.8. 个人计算机

  • 2.8.1. 个人计算机变得非常受欢迎。它的价格低廉,轻量便携,甚至可以随身携带

  • 2.8.2. 个人计算机为那些从未接触过计算机技术的人群打开了学习计算机的大门

  • 2.8.3. 个人计算机赋予终端用户更多自主权

  • 2.8.4. 多年来,IT部门一直是决定构建哪些应用程序以及允许哪些计算机能够被访问的唯一决策机构

  • 2.8.5. 随着个人计算机的进一步普及,IT部门逐渐失去计算机的控制权

2.9. 4GL处理技术和数据抽取应用程序

  • 2.9.1. 4GL(Fourth Generation Language,第四代编程语言)处理的技术应运而生

  • 2.9.2. 4GL处理技术使终端用户不再需要依赖IT部门来进行处理和编程

  • 2.9.3. 数据抽取应用程序在不同应用程序之间迁移和传递数据方面扮演重要角色

  • 2.9.4. 数据抽取应用程序与众多应用程序的结合导致了数据的不一致性问题

    • 2.9.4.1. 现在面临的挑战不再是找不到数据,而是要找到可信的数据
  • 2.9.5. 数据的不一致性问题是一个架构问题,而非技术问题

    • 2.9.5.1. 增加更多技术只会让问题变得更糟,而不是更好
  • 2.9.6. 从应用程序生成的数据到企业数据的转换并不是唯一的问题

  • 2.9.7. 长时间存储数据变得相当必要

    • 2.9.7.1. 在数据仓库应用程序出现之前,事务处理仅能够存储较短时间的数据,通常为几周到一个月

    • 2.9.7.2. 如果应用程序数据存储时间较长,那么事务响应速度会受到影响

    • 2.9.7.3. 人们发现将数据存储时间延长超过几周是有价值的

      2.9.7.3.1. 历史数据有助于我们发现和分析消费者的消费习惯

2.10. 数据仓库

  • 2.10.1. 提供企业数据视图

  • 2.10.2. 可用于分析即时可用的数据

  • 2.10.3. 可通过多种方式重塑粒度数据

  • 2.10.4. 可以将历史数据用于长期分析

  • 2.10.5. 数据仓库的架构持续了相当长的时间,至今仍在使用

2.11. 数据集市

  • 2.11.1. 为了满足对特定领域中数据使用的需求,一种被称为数据集市的架构出现

  • 2.11.2. 数据集市使用数据仓库中已有的粒度数据,并将其重塑为终端用户需求的形式和结构

  • 2.11.3. 通过数据集市,不同部门能够获取一致的数据,因为它们所看到的数据来源是相同的,那就是数据仓库

2.12. ⑩互联网和物联网数据

  • 2.12.1. 互联网还提供了大量来自世界各地的数据

2.13. ⑾数据湖

  • 2.13.1. 在技术和数据的竞合过程中出现了一种数据架构——数据湖

  • 2.13.2. 数据湖就会变成数据沼泽,或者也可以称为数据臭水沟

  • 2.13.3. 由于数据湖中的数据是未集成的,因此人们不清楚很多数据的内容

  • 2.13.4. 数据湖巨大无比,这导致人们难以找到他们想要的具体数据

  • 2.13.5. 数据湖中的数据没有进行任何整合,人们没有办法将其中一种类型的数据与其他类型的数据进行合理关联

  • 2.13.6. 由于数据形式非常混乱,人们无法有效地连接多个数据元素

2.14. ⑿数据湖仓

  • 2.14.1. 在数据湖混乱的背景下,数据湖仓诞生

  • 2.14.2. 数据湖仓为数据湖添加了功能——分析基础设施,并在将数据存入数据湖仓之前进行集成

  • 2.14.3. 数据湖仓成为一个可行的数据架构,能够满足组织的分析需求

  • 2.14.4. 前数据湖仓是一个成熟的架构,可以满足需求

  • 2.14.5. 未来肯定还会出现架构增强的数据湖仓,以及与数据湖仓不同的形式,以支持新的需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/887470.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【AGC005D】~K Perm Counting(计数抽象成图)

容斥原理。 求出f(m) ,f(m)指代至少有m个位置不合法的方案数。 怎么求? 注意到位置为id,权值为v ,不合法的情况,当且仅当 v idk或 v id-k 因此,我们把每一个位置和权值抽象成点 ,不合法的情况之间连一…

NASA:北极植被地块 ATLAS 项目 北坡和苏厄德半岛,明尼苏达州,1998-2000 年

目录 简介 摘要 代码 引用 网址推荐 0代码在线构建地图应用 机器学习 Arctic Vegetation Plots ATLAS Project North Slope and Seward Peninsula, AK, 1998-2000 简介 文档修订日期:2018-12-31 数据集版本:1 本数据集提供了在北极陆地-大气系统…

基于auth2的单点登录原理理解

创作背景:基于auth2实现企业门户与业务系统的单点登录跳转。 架构组成:4A统一认证中心,门户系统,业务系统,用户; 实现目标:用户登录门户系统后,可通过点击业务系统菜单&#xff0c…

螺蛳壳里做道场:老破机搭建的私人数据中心---Centos下Docker学习01(环境准备)

1 准备工作 由于创建数据中心需要安装很多服务器,这些服务器要耗费很所物理物理计算资源、存储资源、网络资源和软件资源,作为穷学生只有几百块的n手笔记本,不可能买十几台服务器来搭建数据中心,也不愿意跑实验室,想躺…

云中红队系列 | 使用 Azure FrontDoor 混淆 C2 基础设施

重定向器是充当 C2 服务器和目标网络之间中间人的服务器。其主要功能是重定向 C2 和受感染目标之间的所有通信。重定向器通常用于隐藏 C2 服务器流量的来源,使防御者更难以检测和阻止 C2 基础设施。 基于云的重定向器提供了一个很好的机会,通过内容分发…

Map: 地图

对全国2023年各省市的人口分布情况,做出地图展示效果 参考:Map - Map_base - Document (pyecharts.org) 1、模板 # -*- coding: gbk -*- from pyecharts import options as opts from pyecharts.charts import Map from pyecharts.faker import Faker…

SQL Inject-基于报错的信息获取

常用的用来报错的函数 updatexml() : 函数是MYSQL对XML文档数据进行查询和修改的XPATH函数。 extractvalue(): 函数也是MYSQL对XML文档数据进行查询的XPATH函数。 floor(): MYSQL中用来取整的函数。 思路: 在MySQL中使用一些指定的函数来制造报错&am…

【Python】Hypercorn:轻量级的异步ASGI/WSGI服务器

Hypercorn 是一个支持异步 ASGI 和同步 WSGI 应用的高效 Python 服务器。它结合了现代协议支持(包括 HTTP/1、HTTP/2 和 HTTP/3),并且为异步 Web 框架(如 FastAPI 和 Quart)提供了卓越的性能和灵活性。通过 Hypercorn&…

MySQL联合索引、索引下推Demo

1.联合索引 测试SQL语句如下:表test中共有4个字段(id, a, b, c),id为主键 drop table test;#建表 create table test(id bigint primary key auto_increment,a int,b int,c int )#表中插入数据 insert into test(a, b, c) values(1,2,3),(2,3,4),(4,5,…

云服务器部署k8s需要什么配置?

云服务器部署k8s需要什么配置?云服务器部署K8s需要至少2核CPU、4GB内存、50GBSSD存储的主节点用于管理集群,工作节点建议至少2核CPU、2GB内存、20GBSSD。还需安装Docker,选择兼容的Kubernetes版本,配置网络插件,以及确…

【黑马点评】 使用RabbitMQ实现消息队列——1.Docker与RabbitMQ环境安装

黑马点评中,使用基于Redis的Stream实现消息队列,但是Strema已经不太常用。在此修改为使用RabbitMQ实现消息队列。主要包括RabbitMQ的环境准备(Docker的下载与安装)以及如何修改黑马点评中的代码。 【黑马点评】使用RabbitMQ实现消…

《Linux从小白到高手》理论篇:Linux的资源监控管理

本篇介绍Linux的资源监控管理。 1、CPU 资源管理 进程调度: Linux 采用公平的进程调度算法,确保每个进程都能获得合理的 CPU 时间。调度算法会根据进程的优先级、等待时间等因素来决定哪个进程获得 CPU 使用权。 可以通过调整进程的优先级来影响其获得…

基于SpringBoot+Vue+MySQL的校园二手物品交易系统

系统展示 用户前台界面 管理员后台界面 系统背景 校园二手物品交易系统开发的背景与重要性随着高等教育的蓬勃发展,大学生群体的规模持续扩大,随之而来的是物品更新换代速度的显著加快。学生们在追求新潮、高品质生活的同时,往往会产生大量闲…

多文件并发多线程MD5工具(相对快速的MD5一批文件),适配自定义MD5 Hash I/O缓存。

自己写的多文件 MD5校验工具,一个文件开一个线程,有最大I/O 缓存设置,兼容读写MD5后缀文件。 共计91个文件,合计180G左右 12分钟左右,UI基本卡废,但程序没蹦,属于正常。 卡的原因是基本是用 I/O…

手机使用技巧:8 个 Android 锁屏移除工具 [解锁 Android]

有时候,您会被锁定在自己的 Android 设备之外,而且似乎不可能重新进入。 一个例子就是你买了一部二手手机,后来发现无法使用。另一种情况是你忘记了屏幕锁定密码和用于验证密码的 Google 帐户凭据。这种情况很少见,但确实会发生&…

[uni-app]小兔鲜-07订单+支付

订单模块 基本信息渲染 import type { OrderState } from /services/constants import type { AddressItem } from ./address import type { PageParams } from /types/global/** 获取预付订单 返回信息 */ export type OrderPreResult {/** 商品集合 [ 商品信息 ] */goods: …

MongoDB 数据库服务搭建(单机)

下载地址 下载测试数据 作者:程序那点事儿 日期:2023/02/15 02:16 进入下载页,选择版本后,右键Download复制连接地址 下载安装包 ​ wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-5.0.14.tgz​ …

java计算机毕设课设—推箱子游戏(附源码、文章、相关截图、部署视频)

这是什么系统? 基于JAVA的推箱子游戏是一个经典的益智游戏,旨在通过推动箱子到指定位置来锻炼玩家的思维和策略能力。本游戏提供了多种不同难度的关卡,以满足不同玩家的需求。整个程序包括五个主要模块:初始化模块、画图模块、移…

如何使用ssm实现基于SSM的宠物服务平台的设计与实现+vue

TOC ssm779基于SSM的宠物服务平台的设计与实现vue 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化&#x…

中九无科研无竞赛保研经验帖——上交软院、中科大计算机、复旦工程硕、南大工程硕、浙大软件

本人bg: 学校:中九软件工程rk:夏令营5%,预推免3%(都是写的预估排名)六级:480, 四级:540科研:无竞赛:美赛M,以及水赛国三、省二若干 保研前期没有…