haddoop三大核心组件

hadoop三大核心组件分别是hdfs、mapreduce和yarn。
在这里插入图片描述

1、hdfs:即分布式文件系统,用于存储hadoop集群中的大量数据。具有高容错性,可跨多个数据节点存储数据,并提供高吞吐量的数据访问;
2、mapreduce:用于大规模数据集的并行处理。它将大数据任务分解为多个小任务,并在多个节点上并行处理,最后将结果汇总;
3、yarn:负责集群资源的分配和管理。
HDFS:HADOOP分布式文件系统
在这里插入图片描述

HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取,HDFS 是一个主/从(Master/Slave) 体系结构的分布式文件系统。HDFS 支持传统的层次型文件组织结构,用户或者应用程序可以创建目录,然后将文件保存在这些目录中。文件系统名字空间的层次结构和大多数现有的文件系统类似,可以通过文件路径对文件执行创建、读取、更新和删除操作。但是由于分布式存储的性质,它又和传统的文件系统有明显的区别。

HDFS优点:
高容错性。HDFS上传的数据自动保存多个副本,可以通过增加副本的数据来增加它的容错性。如果某一个副本丢失,HDFS 会复制其他机器上的副本,而我们不必关注它的实现。
适合大数据的处理。HDFS 能够处理 GB、TB 甚至 PB 级别的数据,规模达百万,数量非常大。(1PB=1024TB、1TB=1014GB)
流式数据访问。HDFS 以流式数据访问模式来存储超大文件,一次写入,多次读取,即文件一旦写入,则不能修改,只能增加。这样可以保持数据的一致性。
2、MapReduce:大规模数据处理

MapReduce 是 Hadoop 核心计算框架,适用于大规模数据集(大于1TB)并行运算的编程模型,包括 Map(映射)和 Reduce(规约) 两部分。

当启动一个 MapReduce 任务时,Map 端会读取 HDFS 上的数据,将数据映射成所需要的键值对类型并传到 Reduce 端。Reduce 端接收 Map 端传过来的键值对类型的数据,根据不同键进行分组,对每一组键相同的数据进行处理,得到新的键值对并输出到 HDFS,这就是 MapReduce 的核心思想。

一个完整的 MapReduce 过程包含数据的输入与分片、Map 阶段数据处理、Reduce 阶段数据处理、数据输出等阶段:

读取输入数据。MapReduce 过程中的数据是从 HDFS 分布式文件系统中读取的。文件在上传到 HDFS 时,一般按照 128MB 分成了几个数据块,所以在运行 MapReduce 程序时,每个数据块都会生成一个 Map,但是也可以通过重新设置文件分片大小调整 Map 的个数,在运行 MapReduce 时会根据所设置的分片大小对文件重新分割(Split),一个分片大小的数据块就会对应一个Map。
Map 阶段。程序有一个或多个 Map,由默认存储或分片个数决定。针对 Map 阶段,数据以键值对的形式读入,键的值一般为每行首字符与文件最初始位置的偏移量,即中间所隔字符个数,值为这一行的数据记录。根据需求对键值对进行处理,映射成新的键值对,将新的键值对传到 Reduce 端。
Shuffle/Sort 阶段:此阶段是指从 Map 输出开始,传送 Map 输出到 Reduce 作为输入的过程。该过程会将同一个 Map 中输出的键相同的数据先进行一步整合,减少传输的数据量,并且在整合后将数据按照键排序。
Reduce 阶段:Reduce 任务也可以有多个,按照 Map 阶段设置的数据分区确定,一个分区数据被一个 Reduce 处理。针对每一个 Reduce 任务,Reduce 会接收到不同 Map 任务传来的数据,并且每个 Map 传来的数据都是有序的。一个 Reduce 任务中的每一次处理都是针对所有键相同的数据,对数据进行规约,以新的键值对输出到 HDFS。

3、Yarn:资源管理器

Hadoop 的 MapReduce 架构称为 YARN(Yet Another Resource Negotiator,另一种资源协调者),是效率更高的资源管理核心。

YARN 主要包含三大模块:Resource Manager(RM)、Node Manager(NM)、Application Master(AM):

Resource Manager 负责所有资源的监控、分配和管理;
Application Master 负责每一个具体应用程序的调度和协调;
Node Manager 负责每一个节点的维护。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/632057.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python代码:一、HelloWorld

1、题目: 将字符串 Hello World! 存储到变量str中,再使用print语句将其打印出来。 2、代码 import sys str Hello World ! print(str)3、在sublime运行的结果

IT行业的现状与未来发展趋势:重塑生活与工作的无限可能

随着科技的飞速发展,IT行业已经逐渐从幕后走到台前,成为推动全球经济和社会发展的核心动力。从云计算的普及、大数据的崛起,到人工智能的爆发,再到物联网、5G通信和区块链技术的日新月异,这些技术不仅正在深刻改变着我…

2024年抖店保证金交多少?保证金常见问题解答,一文解决你所有疑惑

大家好,我是电商花花 新手如果想要开抖音小店,有一个大坑是必须要避开的。 就是我们店铺开通之后,我们一定要交保证金,如果不交,那就是0元开店。 很多新手听别人说做抖音小店可以0元开店,不用缴纳保证金就…

案例 | 澳鹏自动驾驶标注方案入选虎嗅智库行业报告

随着自动驾驶技术发展及方案演进,市场对于数据标注的数量和质量的需求都呈现指数级增长。传统的手工标注已不能满足标注需求,自动标注伴随大模型的发展应运而生。 在这一背景下,虎嗅智库发布《自动驾驶数据标注技术落地洞察》,并…

Nginx part3 创建一个https的网站

目录 HTTPS 公钥和密钥 加密解密方式: https搭建步骤 强调一下 1、准备环境 2、配置文件 3、制作证书 4、进行设置 HTTPS 啥是https,根据百度:HTTPS (全称:Hypertext Transfer Protocol Secure)&a…

8B10B编码(高速收发器五)

1、8B10B解决的问题 8B10B编码是1983年IBM公司提出的传输编码标准,通常用于高速收发器中,常见的JESD204B、SATA等接口协议,使用查表就可以实现编码和解码。 在这些高速收发器的接收端需要通过CDR技术去恢复时钟与数据的相位关系,在…

10个必备功能跨境电商ERP开发全指南

跨境电商平台开发是当前电商行业的热门话题。随着全球贸易的不断发展,企业越来越关注并重视跨境电商ERP系统的开发和应用。在本文中,我们将深入探讨跨境电商ERP开发的必备功能,为您呈现全面的指南。 1. 跨境订单管理 跨境电商平台需要具备全…

RT-Thread的 FAL 组件_使用笔记

RT-Thread的FAL分区表组件 1、FAL介绍 FAL (Flash Abstraction Layer) Flash 抽象层,是对 Flash 及基于 Flash 的分区进行管理、操作的抽象层,对上层统一了 Flash 及 分区操作的 API (框架图如下所示),并具有以下特性: 1.1 FAL目…

CSP备考---2023大湾区比赛易错题

解析 9.D无向图公式:有向图公式:本题考察无向图,故 12.D公式: 14.B有三种情况:1男2女、2男1女、3女。 17.错 因为12300400000超过了int的范围 18.错 21.D 23.对 25.A 26.D代入程序 31.C 33.C 36.D 37.A …

四川古力未来科技抖音小店:科技赋能,购物新体验!

在当下这个数字化飞速发展的时代,电商行业早已成为了人们日常生活中不可或缺的一部分。而抖音小店作为电商领域的一匹黑马,正以其独特的优势和魅力,吸引着越来越多的消费者。今天,我们就来一起探讨一下四川古力未来科技抖音小店的…

2024 年 11 款顶级Android数据恢复软件的主要功能

Android 设备上的数据丢失可能是一种令人痛苦的体验,通常会导致不可替代的信息瞬间消失。 可能会发生意外删除、系统崩溃或格式错误,关键数据的丢失可能会扰乱日常工作并影响您的工作效率。 幸运的是,技术进步带来了几种恢复解决方案&#…

单片机烧录程序时“DTR的低电平复位,RTS高电平进入bootloader”有关的串口Modem联络信号

烧录程序时常见DTR和RTS引脚 参考,参考视频 因为常常使用的都是串口下载程序,常用的芯片CH340系列,下图中标红的引脚是MODEM联络信号,其中常见的DTR和RTS就是常见的串口Modem网络输出信号,也就是通过烧录软件控制的接…

网络地址转换(nat,easy ip,nat server)资源上传

实验概述 由内到外 nat,easy ip,转换的是源ip nat server 由外到内,转换的是目的IP 实验拓扑 结果验证 nat实验得到结果 1.ar1到ar3没有路由也可以访问 2.ar3配置telent后ar1也可以通过telnet远程配置 esay ip 如果ar2 g0/0/1接口ip非固…

智能边缘计算 | 2024高通边缘智能创新应用大赛赛道解读

随着物联网设备的普及和数据的井喷式增长,用户对数据处理的效率要求进一步提升,而边缘设备的计算能力日益增强,在边缘端完成复杂计算已经成为可能。 除降低时延与减少宽带资源占用外,边缘计算在离数据源更接近的地方完成数据处理…

cdn引入vue的项目嵌入vue组件——http-vue-loader 的使用——技能提升

最近在写MVC的后台,看到全是jq的写法,但是对于用惯了vue的我,真是让我无从下手。。。 vue的双向绑定真的很好用。。。 为了能够在cdn引入的项目中嵌入vue组件,则可以使用http-vue-loader了 步骤1:下载http-vue-loader…

MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略

MLM之GPT-4o:GPT-4o(多模态/高智能/2倍速/视觉改进/128K的大窗口)的简介、安装和使用方法、案例应用之详细攻略 导读:2024年5月13日,OpenAI重磅发布新旗舰模型GPT-4o,这是一个全新的旗舰模型,可以实时跨越音频、视觉和…

【算法】网络图中的dfs

快乐的流畅:个人主页 个人专栏:《算法神殿》《数据结构世界》《进击的C》 远方有一堆篝火,在为久候之人燃烧! 文章目录 引言一、单词搜索二、黄金矿工三、不同路径 |||四、图像渲染五、岛屿数量六、岛屿的最大面积七、被围绕的区域…

Flutter+Getx仿小米商城项目实战教程又新增了Flutter调用原生地图

FlutterGetx仿小米商城项目实战教程基于Flutter3.x录制,课程紧贴企业需求,目前已完结176讲。教程所讲内容支持Android、Ios、华为鸿蒙OS,教程更新于2024年4月09日新增 Flutter 调用百度地图、新增Flutter充电桩项目地图实战。支持2024年3月29…

【亚马逊云】注册APN账号及报考AWS认证考试说明演示

文章目录 1. 登录AWS网站2. 注册APN账号3. 更改APN账号密码(选)4. 修改APN账号信息(选)5. 查看AWS认证情况(选)6. AWS认证考试报名流程7. 修改报名控制台语言版本(选)8. 开始报名AWS…