什么是Data Lakehouse Architecture(DLA)?企业为何要创建DLA

公司捕获和存储的数据比以往任何时候都多,因为它们依赖数据来做出关键的业务决策、改进服务或产品,或为最终用户(客户)提供更好的服务。了解各种大数据存储技术对于为商业智能(BI)、数据分析和机器学习(ML)工作负载建立强大的数据存储管道至关重要。

为了维护这样的大数据,数据湖和数据仓库架构已被公司广泛使用。但这两种体系结构都有一定的局限性,我们将在博客的后面部分讨论这些局限性,从而发现一种称为Data Lakehouse的新体系结构。

然而,在深入研究Data Lakehouse架构的细节之前,重要的是首先了解Data Lake和Data Warehouse,其中的一些局限性,以及我们为什么首先需要它们?

一、什么是Data Lake架构

数据湖是一个集中的系统或存储库,以自然/原始格式存储大数据,通常是对象、Blob或文件。您可以将任何类型的数据存储在任何结构中(结构化、非结构化、半结构化)。例如,文件、图像、音乐、视频、文本或表格。数据湖的主要目的是使不同来源的组织数据可供不同的最终用户访问。

Data Lake在加载之前不需要像数据仓库的ETL机制那样进行数据转换,因为它的模式是在用户加载数据时动态定义的,并且没有根据某些预定义的模式进行验证。

二、Data Lake架构的局限性

1. BI和报告记录不佳:在数据湖体系结构中,BI和报告具有挑战性,因为数据湖需要额外的工具来支持SQL查询。

2. 数据可靠性方面的妥协:由于数据没有以任何方式结构化,因此数据质量、完整性和可靠性成为该体系结构中的一个关键挑战。

3. 数据治理:由于异构结构无法以统一的方式获取数据,数据治理变得困难。

三、什么是数据仓库(Data Warehouse)?

数据仓库是一个集中的存储库,用于存储从不同来源积累的数据。这种情况下的数据是结构化的,并根据预定义的模式进行验证。它依赖于ETL(提取-转换-加载)机制,在该机制中,数据需要在加载前进行转换。数据仓库的目的是生成报告、将数据提供给BI工具、预测趋势和训练机器学习模型。ETL(提取-加载-转换)过程用于存储来自多个来源的数据,如API、数据库、云存储等。

数据仓库体系结构的局限性

1. 数据处理不灵活:在数据仓库架构中只能处理结构化数据。

2. 成本高昂的存储:管理大量数据需要更高的成本。

3. 无法处理复杂数据:仓库架构通常不适合处理机器学习的复杂数据。

四、什么是Data Lakehouse Architecture?

Data Lakehouse体系结构是两种体系结构的结合——Data Lake和Data Warehouse,两者融合了最好的元素。它既支持数据仓库体系结构的ACID事务功能,也支持数据湖体系结构的可扩展性、灵活性和成本效益。

五、是什么促使企业需要创建Data Lakehouse

使用两层架构;数据湖和数据仓库同时导致了巨大的成本,并且很难管理,因为数据必须在具有两种不同结构的两个不同位置进行维护和同步。

由于上述两种架构的挑战和局限性,许多组织认为有必要将这两种架构组合成一个系统(两层架构),以便团队能够拥有可用于数据科学、机器学习和业务分析的最完整和最新数据。

Data bricks的专家在2021年的创新数据系统研究会议上介绍了这种架构,Data Lakehouse从此成为官方的数据管理架构。

(图片来源:https://databricks.com/)

通过以下元素,Data Lakehouse架构解决了Data Warehouse和DataLake架构的缺点:

1. 减少数据冗余:当一个组织使用数据仓库和lake的多个数据源时,它可以统一数据并减少数据重复。

2. 降低运营成本:由于数据没有存储在多个系统上,因此持续的运营成本将降低。

3. 更好的数据组织:它通过强制执行模式来更好地组织数据湖中的数据。

4. 在数据分析、BI和ML中的有效使用:它不仅有助于存储大量数据并降低成本,而且有助于有效地将数据用于分析、BI、报告和机器学习。

因此,与多个解决方案系统相比,单个数据Lakehouse提供了几个优势,包括减少了数据移动和冗余,简化了模式和数据治理,以及减少了管理时间和精力。分析工具的直接数据访问和低成本的数据存储。

六、专业人的干专业的事 - 雇佣专门的后端开发人员

如果您想从当前的数据库体系结构迁移或切换到Datalake House,以获得数据的最大价值,请考虑雇佣专业人员将数据库架构到Data Lake House.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/623117.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

记录一次 vue2 前端项目整合过程

整合成功效果图 具体说明: 项目A是现在的vue2前端项目,项目B是一个开源的工作流前端,项目后端代码已经整合了,就不多提了。这里主要记录下前端整合的过程和思路。 1、开源工作流里面的功能,拷贝到自己对应的vue2项目里…

密探渗透工具v1.08测试版

目录 前言 免责声明 工具开发者: 工具项目地址: 1.作者做工具的缘起 2.功能介绍 3.工具的更新日志 4.安装与使用 4.1 工具下载 4.2 在jdk8环境下运行: 4.3 运行界面 4.4 资产测绘功能(fofa,鹰图和Quake) 4.5 指纹识别功能 ​编辑 4.6 敏感信息与接口扫描 4.7 文…

移动端自动化测试工具 Appium 之自定义报告

文章目录 一、背景二、具体实现1、保存结果实体2、工具类3、自定义报告监听类代码4、模板代码4.1、report.vm4.2、执行xml 三、总结 一、背景 自动化测试用例跑完后报告展示是体现咱们价值的一个地方咱们先看原始报告。 上面报告虽然麻雀虽小但五脏俱全,但是如果用…

更适合户外使用的开放式耳机,佩戴舒适音质悦耳,虹觅HOLME NEO体验

随着气温的逐渐升高,不管是在室内工作娱乐,还是到户外运动健身,戴上一款合适的耳机都会帮我们隔绝燥热与烦闷,享受音乐与生活。现在市面上的耳机类型特别多,我很喜欢那种分体式的开放耳机,感觉这种耳机设计…

C语言——模拟实现库函数atoi

1. atoi atoi&#xff1a;将字符串转换为整数。 1. 头文件 <string.h> 2. 声明&#xff1a; 1. 如果字符串开始有空格&#xff0c;直接跳过。 2. - 会影响打印的数字的正负。 3. 只打印数字字符&#xff0c;遇到非数字字符就停止。 4. 如果转换之后的数字大于 …

商城小程序系统与C#.net商城小程序系统源码_OctShop

在移动互联网与电商的时代&#xff0c;商城小程序系统已经成为了众多企业和商家开展电商业务的重要工具。OctShop将以商城小程序系统、C#商城小程序系统源码和.net 商城小程序系统为主题&#xff0c;探讨这些系统的特点和优势。 一、商城小程序系统是什么 商城小程序系统是一种…

嵌入式STM32中I2C控制器外设详解

STM32中的I2C外设主要负责IIC协议与外界进行通信,就像USART外设一样,我们在学习的过程中,需要抓住I2C应用的重点。 STM32在使用I2C协议时,可以通过两种方式, 一是软件模拟协议 意思是使用CPU直接控制通讯引脚的电平,产生出符合通讯协议标准的逻辑。例如,像点亮LED那样…

HTML静态网页成品作业(HTML+CSS)——动漫哆啦A梦网页(3个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有3个页面。 二、作品演示 三、代…

java多线程 线程交替执行(同步)的各种实现方案

目录 java多线程 线程交替执行&#xff08;同步&#xff09;的各种实现方案需求 指定具体执行顺序实现一&#xff1a;wait_notify机制 Thread标志位实现二&#xff1a;lock_condition机制 Thread标志位实现三&#xff1a;semaphore信号量 不指定具体执行顺序&#xff0c;只交…

AlphaFold 3:开启生物医药新革命

AlphaFold 3简介 DeepMind与Isomorphic Labs联合发布了AlphaFold 3&#xff0c;这是一个可以更准确预测蛋白质和其他生物分子结构及其相互作用的AI模型&#xff0c;标志着生物医学研究的新革命 AlphaFold 3&#xff0c;这款由DeepMind与Isomorphic Lab联手推出的最新人工智能…

HIVE卡口流量需求分析

HIVE卡口流量需求分析 目录 HIVE卡口流量需求分析 1.创建表格 插入数据 2.需求 3.总结&#xff1a; 1.创建表格 插入数据 CREATE TABLE learn3.veh_pass( id STRING COMMENT "卡口编号", pass_time STRING COMMENT "进过时间", pass_num int COMMENT …

Python---Pandas万字总结(1)

Pandas基础-1 Pandas 是 一个强大的分析结构化数据的工具集。Pandas 以 NumPy 为基础&#xff08;实现数据存储和运算&#xff09;&#xff0c;提供了专门用于数据分析的类型、方法和函数&#xff0c;对数据分析和数据挖掘提供了很好的支持&#xff1b;同时 pandas 还可以跟数…

微软: 用于文本到语音合成(TTS)的语言模型方法VALL-E

微软引入了一种用于文本到语音合成(TTS)的语言模型方法。具体而言,微软使用从现成的神经音频编解码器模型中得到的离散编码训练了一个神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像之前的工作那样进行连续信号回归。在预训练阶段,微软将TTS训练数据扩…

JavaSE——集合框架一(2/7)-Collection集合的遍历方式-迭代器、增强for循环、Lambda、案例

目录 Collection的遍历方式 迭代器 增强for循环&#xff08;foreach&#xff09; Lambda表达式遍历集合 案例 需求与分析 代码部分 运行结果 Collection的遍历方式 迭代器 选代器是用来遍历集合的专用方式&#xff08;数组没有选代器&#xff09;&#xff0c;在Java中…

git-将本地项目上传到远程仓库

在gitee中新建一个远程仓库。 填写对应内容。 打开你想上传的文件夹&#xff0c;比如我想上传yuanshen 右击&#xff0c;打开git bash 输入git init初始化仓库 git init 添加项目所有文件 git add . 将添加的文件提交到本地仓库&#xff08;提交说明必填&#xff09; git …

怎么获得公网IP?

什么是公网IP 在计算机网络中&#xff0c;公网IP&#xff08;Internet Protocol&#xff09;是指可以直接被互联网访问和通信的IP地址。相对应的&#xff0c;私网IP则是在局域网内使用的IP地址&#xff0c;无法直接被互联网访问。获得公网IP对于一些特定的网络需求非常重要&am…

主机扫漏:Apache Tomcat 环境问题漏洞(CVE-2023-46589)

文章目录 引言I 修复此安全问题see also引言 Apache Tomcat存在环境问题漏洞,该漏洞源于存在不正确的输入验证漏洞,可能会导致将单个请求视为多个请求,从而在反向代理后面出现请求走私。 Tomcat did not correctly parse HTTP trailer headers. A specially crafted traile…

【LAMMPS学习】八、基础知识(6.5)PyLammps 教程

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语&#xff0c;以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

Poetry Camera照相机将照片转换成诗歌并打印出来;吴恩达新课程深入了解Mistral;科学研究AI小助手data-to-paper

✨ 1: Poetry Camera 将拍摄的照片转换成诗歌并打印出来 Poetry Camera——一个能够把它所见之物转化成诗歌并打印出来的相机。你在一个美丽的公园&#xff0c;或者是一个充满故事的老街道。只要用Poetry Camera拍下这一刻&#xff0c;它就能立刻给你一首关于这个场景的诗。 …

(项目)-KDE巡检报告(模板

金山云于12月26日对建行共计【30】个KDE集群,合计【198】台服务器进行了巡检服务。共发现系统风险【135】条,服务风险【1912】条,服务配置风险【368】条。 一、系统风险 1、风险分析(图片+描述) (1)磁盘使用率高 问题描述多个集群的多台服务器磁盘使用率较高,远超过…