hadoop分布式计算组件

什么是计算、分布式计算?

·计算:对数据进行处理,使用统计分析等手段得到需要的结果
·分布式计算:多台服务器协同工作,共同完成一个计算任务

分布式计算常见的2种工作模式
  1. 分散->汇总(MapReduce就是这种模式)
  2. 中心调度->步骤执行(大数据体系的Spark、Flink等是这种模式)

hadoop分布式计算框架-MapReduce

MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。
MapReduce提供了2个编程接口:
·Map
·Reduce
其中
·Map功能接口提供了“分散”的功能,由服务器分布式对数据进行处理
·Reduce.功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计
用户如需使用MapReduce框架完成自定义需求的程序开发
只需要使用Java、Python等编程语言,实现Map Reduce.功能接口即可。
目前map reduce框架代码开发已经逐渐淘汰,但由于hive分布式sql框架底层是map reduce实现的,所以map reduce仍活跃在一线。
MapReduce是基于YARN运行的,99%场景下map reduce都是集成在yarn集群中运行的

YARN的资源调度

YARN管控整个集群的资源进行调度,那么应用程序在运行时,就是在YARN的监管(管理)下去运行的。
这就像:全部资源都是公司(YARN)的,由公司分配给个人(具体的程序)去使用。
比如,一个具体的MapReduce程序。
我们知道,MapReduce程序会将任务分解为若干个Map任务和Reduce任务。
假设,有一个MapReduce程序,分解了3个Map任务,和1个Reduce任务,每个map任务需要2GB运行内存,每个reduce任务需要4GB运行内存,那么如何在YARN的监管(管理)下运行呢?
在这里插入图片描述

map程序和reduce程序会告诉yarn所需的资源情况,向yarn申请资源,yarn则会根据资源情况,分配具体的任务运行

在这里插入图片描述

YARN的核心架构

YARN,主从架构,有2个角色
·主(Master)角色:ResourceManager
整个集群的资源调度者,负责协调调度各个程序所需的资源。
·从(Slave)角色:NodeManager
单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用

在这里插入图片描述

如上图,某个程序告知yarn我需要的资源情况,yarn的resource manager查看资源情况,并通知到node manager,node manager会通过容器技术,创建容器来占用对应的资源,然后再分配具体的程序来运行。yarn能抢占资源及精准分配资源是通过容器技术实现的。

YARN辅助角色

YARN的架构中除了核心角色,即:
·ResourceManager:集群资源总管家
·NodeManager:单机资源管家
还可以搭配2个辅助角色使得YARN集群运行更加稳定
。代理服务器(ProxyServer):Web Application Proxy Web应用程序代理
。历史服务器(obHistoryServer):应用程序历史信息记录服务

Web应用代理(Web Application Proxy)

代理服务器,即W2b应用代理是YARN的一部分。默认情况下,它将作为资源管理器(RM)的一部分运行,但是可以配置为在独立模式下运行。使用代理的原
因是为了减少通过YARN进行基于网络的攻击的可能性。
这是因为,YARN在运行时会提供一个WEB UI站点(同HDFS的WEB UIS站点一样)可供用户在浏览器内查看YARN的运行信息
对外提供WEB站点会有安全性问题,而代理服务器的功能就是最大限度保障对WEB UIE的访问是安全的。比如:

  • 警告用户正在访问一个不受信任的站点
  • 剥离用户访问的Cookie等

代理服务器默认集成在了ResourceManager中
也可以将其分离出来单独启动,如果要分离代理服务器

  1. 在yarn-site.xml中配置yarn.web-proxy.address参数即可(部署环节会使用到)
    在这里插入图片描述

2.并通过命令启动它即可$HADOOP_YARN_HOME/sbin/yarn-daemon.sh start proxyserver

JobHistoryServer历史服务器

历史服务器的功能很简单:记录历史运行的程序的信息以及产生的日志并提供WEBU站点供用户使用浏览器查看。它可以收集各个服务器的日志数据并统一汇总到hdfs上,方便用户查看

开启历史服务器需要配置:

  1. 开启日志聚合,允许从容器中抓取日志到hdfs中集中存储
    在这里插入图片描述

  2. 配置历史服务器端口和主机
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/524286.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在NBA我需要翻译--适配器模式

1.1 在NBA我需要翻译! "你说姚明去了几年,英语练出来了哦,我看教练在那里布置战术,他旁边也没有翻译的,不住点头,瞧样子听懂没什么问题了。" "要知道,最开始&#xff0c…

(学习日记)2024.04.04:UCOSIII第三十二节:计数信号量实验

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

激光雷达和相机的联合标定工具箱[cam_lidar_calibration]介绍

激光雷达和相机的联合标定工具箱[cam_lidar_calibration]介绍 写在前面安装过程调试过程标定成功可视化展示 写在前面 激光雷达和相机联合标定工具 论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber9564700 github地址: https://github.com…

设计方案:914-基于64路AD的DBF波束形成硬件

一、硬件概述 DBF技术的实现全部是在数字域实现,然而天线阵列接收的信号经过多次混频后得到的中频信号是模拟信号,实现DBF处理并充分发挥DB&…

[C++][算法基础]模拟堆(堆)

维护一个集合,初始时集合为空,支持如下几种操作: I x,插入一个数 x;PM,输出当前集合中的最小值;DM,删除当前集合中的最小值(数据保证此时的最小值唯一)&…

【LeetCode热题100】153. 寻找旋转排序数组中的最小值(二分)

一.题目要求 已知一个长度为 n 的数组,预先按照升序排列,经由 1 到 n 次 旋转 后,得到输入数组。例如,原数组 nums [0,1,2,4,5,6,7] 在变化后可能得到: 若旋转 4 次,则可以得到 [4,5,6,7,0,1,2]若旋转 7…

Flutter应用发布前的关键iOS设备测试策略

大家好,我是咕噜铁蛋!今天我想和大家分享一下关于Flutter应用在发布前,如何进行关键iOS设备测试的策略。随着移动应用的普及,Flutter作为一种跨平台的开发框架,越来越受到开发者的青睐。但是,跨平台也意味着…

10 Python进阶:MongoDB

MongoDb介绍 MongoDB是一个基于分布式架构的文档数据库,它使用JSON样式的数据存储,支持动态查询,完全索引。MongoDB是NoSQL数据库的一种,主要用于处理大型、半结构化或无结构化的数据。以下是MongoDB数据库的一些关键特点和优势&a…

蓝桥杯 历届真题 杨辉三角形【第十二届】【省赛】【C组】

资源限制 内存限制:256.0MB C/C时间限制:1.0s Java时间限制:3.0s Python时间限制:5.0s 思路: 由于我第一写没考虑到大数据的原因,直接判断导致只得了40分,下面是我的代码: #…

4.7 IO day6

1&#xff1a;有一个隧道&#xff0c;全长5公里&#xff0c;有2列火车&#xff0c;全长200米&#xff0c; 火车A时速 100公里每小时 火车B时速 50公里每小时 现在要求模拟火车反复通过隧道的场景(不可能2列火车都在隧道内运行) #include <stdio.h> #include <string.…

1、java语法入门(找工作版)

文章目录 一、Java简介二、Java常量与变量1、标识符2、关键字3、变量4、类的命名规则5、数据类型6、基本数据类型字面值7、变量的定义与初始化8、ASCII码和Unicode编码9、转义字符10、类型转换11、常量 三、Java运算符1、算术运算符2、赋值运算符3、关系运算符4、逻辑运算符5、…

C#/.NET/.NET Core推荐学习书籍(24年4月更新,已分类)

前言 古人云&#xff1a;“书中自有黄金屋&#xff0c;书中自有颜如玉”&#xff0c;说明了书籍的重要性。作为程序员&#xff0c;我们需要不断学习以提升自己的核心竞争力。以下是一些优秀的C#/.NET/.NET Core相关学习书籍&#xff08;包含了C#、.NET、.NET Core、Linq、EF/E…

瓦拉纳西(Varanasi)宗教重要性历史与文化旅游与经济社会生活环境挑战“赶due”赶due的特点包括:赶due的应对策略:陶行知生平简介教育实践与贡献

目录 瓦拉纳西&#xff08;Varanasi&#xff09; 宗教重要性 历史与文化 旅游与经济 社会生活 环境挑战 “赶due” 赶due的特点包括&#xff1a; 赶due的应对策略&#xff1a; 陶行知 生平简介 教育实践与贡献 教育思想 遗产与影响 1.澳洲限制半工半读&#xff…

SQL Sever 2008 安装教程

先从官网下载程序&#xff1a;下载地址 打开上述链接后&#xff0c;点击下载按钮。 就会跳出下面这个界面&#xff0c;如果你的电脑是64位的请选择下图中这两个程序。 下载完成后&#xff0c;在电脑磁盘中找到这两个文件&#xff0c;注意安装的顺序&#xff0c;先安装 SQLEXPR…

H5 点击图片翻转效果

需求 ☑ h5 实现点击图片得到的是放大的镜像图片&#xff08;不是放大镜效果 而是实现图片镜像对折&#xff0c;左右翻转&#xff09; ☑ 鼠标点击后原图消失/隐藏&#xff0c;在原来的位置上取而代之的是翻转后的图&#xff08;除了翻转之外不要改变其他的性质&#xff0c;比…

如何保证全部流量走代理

最近因为某些原因&#xff0c;需要做一些确保高匿的事情&#xff0c;便花时间做了一定的调研&#xff0c;至于是什么事情这里不便多说。 本文主要还是聊聊我看到的一些使用代理软件误区和确保流量全部走代理的方法&#xff0c;甚至也可以说是Proxifier的用户使用手册&#xff…

2024/4/1—力扣—栈的最小值

代码实现&#xff1a; typedef struct node {int val;struct node *next; } Node;typedef struct {struct node *top;int min; } MinStack;/** initialize your data structure here. */MinStack* minStackCreate() {MinStack *obj malloc(sizeof(*obj));obj->top NULL;ob…

Redis分布式锁误删情况说明

4.4 Redis分布式锁误删情况说明 逻辑说明&#xff1a; 持有锁的线程在锁的内部出现了阻塞&#xff0c;导致他的锁自动释放&#xff0c;这时其他线程&#xff0c;线程2来尝试获得锁&#xff0c;就拿到了这把锁&#xff0c;然后线程2在持有锁执行过程中&#xff0c;线程1反应过…

Open-GroundingDino和GroundingDino的推理流程实现

1、简单介绍 GroundingDino是一个多模态检测模型&#xff0c;可以输入文本提示输出视觉目标的位置&#xff0c;实现了文本和图像的匹配。相比较于一众的OVD算法&#xff0c;GroundingDino在文本处理上的灵活度高&#xff0c;因为大多OVD算法是采用clip文本编码器&#xff0c;这…

1.8.4 卷积神经网络近年来在结构设计上的主要发展和变迁——Inception-v2 和Inception-v3

1.8.4 卷积神经网络近年来在结构设计上的主要发展和变迁——Inception-v2 和Inception-v3 前情回顾&#xff1a; 1.8.1 卷积神经网络近年来在结构设计上的主要发展和变迁——AlexNet 1.8.2 卷积神经网络近年来在结构设计上的主要发展和变迁——VGGNet 1.8.3 卷积神经网络近年来…