2.Spark的工作与架构原理

概述

目标:

  • spark的工作原理
  • spark数据处理通用流程
  • rdd
    • 什么是rdd
    • rdd 的特点
  • spark架构
    • spark架构相关进程
    • spark架构原理

spark的工作原理

spark 的工作原理,如下图
在这里插入图片描述

  • 图中中间部分是spark集群,也可以是基于 yarn 的,图上可以理解为sparkstandalone 集群,集群中有 6 个节点
  • 左边是spark的客户端节点,这个节点主要的任务是向spark集群提交任务,
  • 左边的 hdfs 是提交的任务所需要的数据源,当spark读取hdfs中的数据后,会将数据转化为rddrdd是弹性分布式数据集,是一个逻辑概念,在此,可以先理解为一个数据集合就可,这个rdd是具有分区特性的,如节点1节点2节点3,这样可以轻易的提高数据的并发处理能力
  • 接下来就可以对这rdd数据进行处理了,图中使用了,flatMap 函数,计算之后的结果还是一个带有分区的rdd,就是在节点4节点5节点6
  • 当处理到最后一步的时候是需要将数据存起来的,实际工作中,针对离线计算的,大部分的结果数据都是存储在hdfs上的,也可以存储在其它的存储介质中。

针对上面几条,可以总结出,spark处理数据的基本构成,如下图
在这里插入图片描述

后面 spark 代码中基本都是这三板斧 ,可以参考 单词统计编程的代码

rdd

rddspark 中一个很重要的概念

什么是rdd

在实际工作中,rdd 通常通过 hadoop 上的文件,即 hdfs 文件进行创建,也可以通过程序中的集合来创建,rddspark 提供的核心抽象,全称为 Resillient Distributed Dataset ,即弹性分布式数据集

rdd 的特点

  1. 弹性:rdd 数据默认情况下是存储在内存中,但是在内存资源不足时,spark 也会自动将 rdd 数据写入磁盘
  2. 分布式: rdd 在抽象上来说是一种元素集合,它是被分区的,每个分区分布在集群中的不同节点上,从而让 rdd 中的数据可以被并行操作
  3. 容错性: rdd 最重要的特性就是提供了容错性,可以自动从节点失败中恢复过来,如果某个节点上的 rdd 分区,因为节点故障了,导致数据丢了,那么 rdd 会自动通过自己的数据来源重新计算该分区的数据

spark架构

下面熟悉一下 spark 架构相关的进程信息
注意: 在此是以 sparkstandalone 集群为例进行分析,其实在 spark standalone环境安装 中,成功后有查询对应的 进程 是否成功启动了

spark架构相关进程

  1. driver:编写的 spark 程序就在driver(进程)上,由 driver 进程负责执行,driver 进程所在的节点可以是spark 集群的某一个节点,或者就是提交任务的客户端节点,具体driver进程在哪个节点上启动,是由提交任务时指定的参数决定的
  2. master:集群的主节点中启动的进程,主要负责集群资源管理和分配,还有集群的监控等。
  3. worker:集群的从节点中启动的进程,主要负责启动其它进程来执行具体的数据处理和计算任务
  4. executor:此进程由worker 负责启动,主要为了执行数据处理和计算
  5. taks:是一个线程,由executor 负责启动,是真正干活的

spark架构原理

如下图来看一spark的架构原理
在这里插入图片描述

  1. spark的客户端机器上通过driver进程执行的spark代码,通过spark-submit脚本提交spark任务的时候driver进程就启动了。
  2. driver 启动之后,会做一些初始化操作,并找到集群的master 进程,对spark 程序进行注册
  3. master 收到 spark 程序注册成功之后,会向 worker 节点发送请求,进行资源调试和分配
  4. worker 收到 master 请求后,为任务启动 executor 进程,启动多少个,会根据配置来启动
  5. executor 启动之后会向 driver 进行注册,这样 driver 就能知道哪些 executor 在为它服务了
  6. driver 会根据对 rdd 定义的操作,提交一堆的 task(map,flatMap等) 去 executor 上执行

结束

spark 的工作与架构原理就介绍至此,如有问题,欢迎评论区留言。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/115480.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数字频带传输——多进制数字调制及MATLAB仿真

文章目录 前言一、MASK(一维信号)1、MASK 简介2、MASK 矢量表示 二、MPSK(二维信号)1、MPSK 简介2、MPSK 矢量表示 三、MQAM(二维信号)1、MQAM 简介2、MQAM 信号的矢量表示 四、正交 MFSK(M维信…

两个字符串的最小ASCII删除和

题目描述 给定两个字符串s1 和 s2,返回 使两个字符串相等所需删除字符的 ASCII 值的最小和 。 示例 思路 这个题的解法一和最长公共子序列的解法大致相同,我们可以在此代码基础上稍微更改即可。 代码如下 解法一 public int minimumDeleteSum1(Stri…

InSAR 数据处理误差的减弱措施

目录 1.失相干误差2.基线误差3.DEM 误差4.大气误差5.解缠误差 6.地理编码误差 本文由CSDN点云侠原创,爬虫网站请自重。 InSAR 获取的干涉相位通常可表示为: φ i n t ( η , ξ ) φ d e f ( η , ξ ) φ a t m ( η , ξ ) φ t o p o ( η , ξ )…

TCP 协议

文章目录 协议格式1面向连接:1.1三次握手(建立连接)1.2包序管理1.2四次挥手(断开连接) 2可靠传输:一。保证数据可靠有序的到达对端:确认应答机制超时重传机制 二。提高传输效率:1.提升自身发送数据量滑动窗口机制 rwnd滑动窗口丢包…

对5款驱动软件个人感受

1、基于安全考虑,个人建议优先选用官网可以下载到的版本。 2、拓展: 在线版:普通版,需要安装,且只能联网使用。离线版:把所有驱动都包含在内,无需联网也能安装驱动,一般从大小就可区…

教你怎么用Python每天自动给女朋友免费发短信

今天的教程就是教大家怎么发送免费短信给女朋友。 发送短信接口,我知道的常见的有两个平台,一个是 twilio,可以免费发短信 500 条,可发任意信息,一个是腾讯云,可以免费发短信 100 条,需要申请短…

直播间讨论区需要WebSocket,简单了解下

由于 http 存在一个明显的弊端(消息只能有客户端推送到服务器端,而服务器端不能主动推送到客户端),导致如果服务器如果有连续的变化,这时只能使用轮询,而轮询效率过低,并不适合。于是 WebSocket…

联想服务器-HTTP boot安装Linux系统

HTTP boot与传统PXE的主要差异 HTTP不再需要使用UDP协议的tftp服务(连接不可靠、不支持大文件)了,只需要dhcp 和http 两个服务即可,支持较稳定的大文件传输。 实验环境 ThinkSystem服务器SR650V2 SR660V2 通过HTTP boot安装Cen…

【C++基础知识学习笔记】精华版(复习专用)

常用语法 函数重载(Overload) 规则: 函数名相同 参数个数不同、参数类型不同、参数顺序不同 注意: 返回值类型与函数重载无关 调用函数时,实参的隐式类型转换可能会产生二义性 默认参数 C++ 允许函数设置默认参数,在调用时可以根据情况省略实参。规则如下: 默认参数只能…

Aop自定义注解生成日志

Aop自定义注解生成日志 1.编写自定义注解 //表示此注解可以标注在方法上 Target(ElementType.METHOD) //运行时生效 Retention(RetentionPolicy.RUNTIME) public interface OpetionLog {//定义一个变量,可以接收参数String value() default "";}2.Cont…

【移远QuecPython】EC800M物联网开发板的内置GNSS定位的恶性BUG(目前没有完全的解决方案)

【移远QuecPython】EC800M物联网开发板的内置GNSS定位的恶性BUG(目前没有完全的解决方案) GNSS配置如下: 【移远QuecPython】EC800M物联网开发板的内置GNSS定位获取(北斗、GPS和GNSS) 测试视频(包括BUG复…

智慧建筑工地管理平台源码

智慧工地是聚焦工程施工现场,紧紧围绕人、机、料、法、环等关键要素,综合运用物联网、云计算、大数据、移动计算和智能设备等软硬件信息技术,与施工生产过程相融合。 智慧工地管理平台充分运用数字化技术,聚焦施工现场岗位一线&am…

乌班图 Linux 系统 Ubuntu 23.10.1 发布更新镜像

Ubuntu 团队在其官网上发布了Ubuntu 23.10.1 版本,这是目前较新的 Ubuntu 23.10(Focal Fossa)操作系统系列的第一个发行版,旨在为社区提供最新的安装媒体。Ubuntu 22.04 LTS(Focal Fossa)操作系统系列于 2022 年 4 月 21 日发布。 Ubuntu 23.10 LTS(长期支持版本)可用…

数字人IP为何成家电品牌年轻化营销黑马?

伴随着数字人概念的出现,家电品牌逐渐通过3D虚拟数字人定制,让数字人成为内容、变现一体的IP,形成一定影响力的品牌效应,利用长线内容沉淀粉丝,使品牌实现年轻化营销。 *图片源于网络 如近日在海尔智家旗下品牌发布会上…

springboot--外部环境配置

外部环境配置 前言1、配置优先级配置文件优先级如下(后面的覆盖前面的)测试 2、外部配置3、导入配置4、属性占位符 前言 场景:线上应用如何快速修改配置,并引用最新配置? springBoot 使用配置优先级外部配置 简化配置…

重定向-缓冲区

1.重定向 文件描述符对应的分配规则是什么? 尝试用这个代码 关闭0,1,2文件描述符,看看有什么现象?关闭哪个,你打开的文件fd应该就是哪个 结论: 从0下标开始,寻找最小的没有没使用的数组位置,它…

基于php+thinkphp+vue的学生公寓管理系统-宿舍管理-寝室管理系统

运行环境 开发语言:PHP 数据库:MYSQL数据库 应用服务:apache服务器 使用框架:ThinkPHPvue 开发工具:VScode/Dreamweaver/PhpStorm等均可 项目简介 本系统结合计算机系统的结构、概念、模型、原理、方法,在计算机各种优势的情况下,采用PHP语…

自动曝光算法(第二讲)

序言 第一章说了,自动曝光算法的目的:已知当前raw图亮度、当前曝光时间、当前增益和目标亮度,当环境光发生变化的时候,是通过控制增益、曝光时间和光圈使raw图的亮度,保持在目标亮度附近。本章想讲一下目标亮度的相关…

美观且可以很方便自定义的MATLAB绘图颜色

函数介绍 主函数是draw_test,用于测试函数。 draw_h是函数,用于给Matlab提供美观且可以很方便自定义的绘图颜色。 draw_h函数介绍 这是一个带输入输出的函数,输入1/2/3,输出下面三种颜色库的配色,每种库均有五种颜色…

Find My手机保护壳|苹果Find My与手机保护壳结合,智能防丢,全球定位

随着科技水平的快速发展,科技美容这一行业做为新型产业新生而出。时尚IT品牌随着市场的多元化发展。针对手机品牌和功能的增加而呈多样化,将手机保护壳按质地分有PC壳,皮革 ,硅胶,布料,硬塑,皮套…