大数据-基础架构设施演进的过程

一、第一阶段-Hadoop

以Hadoop为代表的离线数据处理基础设施

 

1.1、围绕HDFS和MR,产生了一系列的组件

  • 面向在线KV操作的HBase
  • 面向SQL的Hive
  • 面向工作流的PIG

1.2、随着对批处理性能要求越来越高,产生了Tez、Spark、Flink等计算引擎。RM模型也逐步进化成DAG模型。

DAG模型

1、增加计算模型的抽象和并发能力

根据聚合操作把任务分为多个stage,每个stage由一个或者多个task组成,task可以并行执行,从而提供计算的并行能力

2、减少计算过程中的中间结果IO操作

为了减少处理过程中的中间结果写文件操作,spark、presto等计算引擎尽量使用计算节点的内存对数据进行缓存,从而提高整个计算过程中的数据效率和吞吐能力

二、第二阶段-lambda架构

批处理计算能力提升有限了还是无法满足需求,需要结合离线和实时才能解决问题。催生了,SparkStreaming、Flink的出现。最终“流批一体”出现了。

三、第三阶段-kapa架构

 

流批一体解决了问题,但是架构太复杂了,能不能用一套系统来跑就行了。流失处理天生的并发行和分布式特点,注定有更好的拓展性。通过流式计算提高并发行,加大流式计算的窗口。来统一批流程和流处理两种计算模式 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/478347.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

注册省市要选择你的驾驶证的发证省市

1、首先在手机应用商店(任何可以下载软件的,比如360、360)搜索流量管理12123,然后下载。 2.然后打开手机上的APP,你会看到下面的页面,然后选择注册! 3、在注册页面,根据您的实际情况…

【智能算法】多元宇宙优化算法(MVO)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献 1.背景 2016年,Mirjalili 等人受到宇宙膨胀理论启发,提出了多元宇宙优化算法(Multi-verse Optimization, MVO)。 2.算法原理 2.1算法思想 MVO基于宇宙膨胀的原理,利用…

3新 IT 技术深刻变革,驱动实体经济进入智能化时代

技术进步和创新是实体经济转型升级的内生 源动力,是企业数字化转型的核心工具,有 助于“降本增效提质”目标的达成。自 20 世 纪 90 年代至今,我国快速完成信息化的大规 模建设,典型数字化技术已发展成熟并充分 融合进企业日…

Linux——du, df命令查看磁盘空间使用情况

一、实现原理: df 命令的全称是Disk Free ,显而易见它是统计磁盘中空闲的空间,也即空闲的磁盘块数。它是通过文件系统磁盘块分配图进行计算出的。 du 命令的全称是 Disk Used ,统计磁盘有已经使用的空间。它是直接统计各文件各目…

2024年人工智能顶级会议投稿信息汇总(数据挖掘领域)

数据挖掘是信息科学领域的重要分支,致力于挖掘和分析庞大数据集中的有价值模式与规律。它融合了统计学、机器学习和数据库技术,目的是从海量数据中抽取有用的知识,辅助决策制定过程。本文首先精选介绍数据挖掘领域内的重要会议,包…

Go语言学习Day1:什么是Go?

名人说:莫道桑榆晚,为霞尚满天。——刘禹锡(刘梦得,诗豪) 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 1、走近Go①Go语言的Logo②Go语言的创始人③Go语…

在openeuler22.03上安装单机版TIDB 7.6.0

1.查看系统版本是否支持 [rootlocalhost ~]# cat /etc/os-release NAME"openEuler" VERSION"22.03 LTS" ID"openEuler" VERSION_ID"22.03" PRETTY_NAME"openEuler 22.03 LTS" ANSI_COLOR"0;31"[rootlocalhost ~…

Elasticsearch面试系列-03

1. Elasticsearch 中 refresh 和 flush 有什么区别? 整体流程: 1、数据写入buffer缓冲和translog日志文件中。当写一条数据document的时候,一方面写入到mem buffer缓冲中,一方面同时写入到translog日志文件中。 2、buffer满了或者每隔1秒(可配),refresh将mem buffer中的…

(20)C#添加微信群成员为好友-微信UI自动化(.Net)

往期知识回顾 (1)C#开启探索微信自动化之路-微信UI自动化 (2)C#创建微信窗体自动化实例-微信UI自动化 (3)C#针对系统热键管理-微信UI自动化 (4)C#采集微信通讯录和联系人-微信UI自动化 (5)C#实现针对微信窗体鼠标静默点击-微信UI自动化 (6)C#搜索微信通讯录联系人-微信UI…

电脑桌面记事本备忘录哪个好用?好用的桌面备忘录推荐

在忙碌的工作间隙,我常常需要随手记录一些重要的想法或待办事项。每当这时,我都希望我的记事本备忘录能够如影随形,方便我随时打开、随时记录。可是,常规的记事本软件往往隐藏在电脑的角落,每次需要时都得费力地寻找&a…

解决Matplotlib 画图中文无法正常显示的问题(显示方框)

解决Matplotlib 画图中文无法正常显示的问题(显示方框) 错误描述解决方案一(暂时解决)解决方法二(永久解决)测试代码 错误描述 这个错误消息来自于使用 Python 的 IPython 环境,特别是在尝试输出…

使用sortablejs 对分层数据排序

在项目中,需要对有层级关系的数据进行排序,如图 Item 1 可以在item 2 、item 3 、item 4 等之间进行拖拽,但是item 1.1 item 1.2 等 只能在item 1 里面拖拽。拖拽的范围只能是该item 所在的层级里面拖拽,不能超出,也不…

外包干了6天,技术明显进步。。。

我是一名大专生,自19年通过校招进入湖南某软件公司以来,便扎根于功能测试岗位,一晃便是近四年的光阴。今年8月,我如梦初醒,意识到长时间待在舒适的环境中,已让我变得不思进取,技术停滞不前。更令…

【计算机毕业设计】ssm073基于Word自动出题系统

基于Word自动出题系统 操作系统: Windows XP或Windows 7 开发工具: myeclipse 数据库: MySQL 系统研究目的及意义: 本课题研究通过信息化的手段进行对试题的出题工作,实现更加有效便捷的试题的编写和试卷的生成。这样不仅可以最大程度上较少学校教研工作…

阿里云4核16G服务器优惠价格26.52元1个月、79.56元3个月、149.00元半年

阿里云4核16G服务器优惠价格26.52元1个月、79.56元3个月、149.00元半年,配置为阿里云服务器ECS经济e实例ecs.e-c1m4.xlarge,4核16G、按固定带宽 10Mbs、100GB ESSD Entry系统盘,活动链接 aliyunfuwuqi.com/go/aliyun 活动打开如下图&#xf…

物联网数据报表分析

随着物联网技术的迅猛发展,越来越多的企业开始将物联网解决方案应用于各个领域,从提高生产效率到优化用户体验,物联网都发挥着至关重要的作用。然而,如何有效地分析和管理物联网产生的海量数据,成为企业面临的挑战之一…

微软首批AI电脑来了!一键Copilot带飞,英特尔酷睿Ultra加持,零售店买不到

Surface Pro 10商用版和Surface Laptop 6商用版均起售1199美元。前者配酷睿Ultra U系列芯片,新增AI增强型摄像头,PC摄像头首次具有114度超宽视野,改进后13英寸LCD显示屏亮度提高33%;后者摄像头无超广角,但搭载的H系列芯…

基于ssm的医院门诊挂号系统论文

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,医院门诊挂号系统当然也不能排除在外。医院门诊挂号系统是以实际运用为开发背景,运用软件工程开发方法&…

淘宝、京东、1688商品详情接口对比:哪个更适合你的业务?

淘宝、京东、1688商品详情接口对比:哪个更适合你的业务? 请求示例,API接口接入Anzexi58 在电商业务中,商品详情接口扮演着至关重要的角色。通过调用这些接口,商家可以获取商品的详细信息,从而更好地进行商…

tinyrenderer-zBuffer隐藏面剔除

绘制物体的深度远近会影响最终投射的效果 画家算法:是z值排序所有物体,从远往近全部绘制,近处物体覆盖远处物体。效率低,且无法处理物体相互穿插的情况 维护一个zBuffer,记录每个像素点的最近zBuffer,根据…