大数据 - Spark系列《十三》- spark调度流程(运行过程)

   Spark系列文章:

大数据 - Spark系列《一》- 从Hadoop到Spark:大数据计算引擎的演进-CSDN博客

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客

大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客

大数据 - Spark系列《四》- Spark分布式运行原理-CSDN博客

大数据 - Spark系列《五》- Spark常用算子-CSDN博客

大数据 - Spark系列《六》- RDD详解-CSDN博客

大数据 - Spark系列《七》- 分区器详解-CSDN博客

大数据 - Spark系列《八》- 闭包引用-CSDN博客

大数据 - Spark系列《九》- 广播变量-CSDN博客

大数据 - Spark系列《十》- rdd缓存详解-CSDN博客

大数据 - Spark系列《十一》- Spark累加器详解-CSDN博客

大数据 - Spark系列《十二》- 名词术语理解-CSDN博客

目录

  13.1. 构造并初始化SparkContext  

   13.2 创建RDD构建DAG  

  13.3 触发行动算子  

   13.4 切分Stage,生成Task和TaskSet  

  13.5 提交stage-Stage的创建过程  

🥙finalStage(ResultStage)

🥙父stage(ShuffleMapStage)

  13.6 在Executor中执行Task  

🥙ResultTask

🥙ShuffleMapTask

13.7 job执行全流程关键步骤总结


 13.1. 构造并初始化SparkContext  

用户主类的 main 方法中首先初始化 SparkContext,这会创建 DagScheduler TaskScheduler,并为与 Executor 通信创建后端。

13.2 创建RDD构建DAG  

  • 原始的RDD通过一系列的转换形成有向无环图(DAG),根据RDD之间的依赖关系划分成不同的 Stage。

  • 窄依赖的RDD操作在同一个Stage中进行计算,而宽依赖需要等待父Stage处理完成后才能开始计算。

   

13.3 触发行动算子  

  • 用户代码中的行动算子触发了 Spark 作业的执行。

  • SparkContext 的 runJob() 方法被调用,开始调度作业。

 13.4 切分Stage,生成Task和TaskSet  

  • DAGScheduler根据作业的RDD依赖关系切分Stage,生成不同的Stage对象。

  • 每个Stage对象中最关键的属性是最后一个RDD,将来生成的Task将使用此RDD的迭代器执行整个迭代器链。

 13.5 提交stage-Stage的创建过程  

  1. 首先,DAGScheduler会将上一步(划分stage)得到finalStage,拿去提交task

2. 提交逻辑会检查当前要提交的stage是否还有未提交的父stage,如果有,就得先提交父stage!  

🥙finalStage(ResultStage)
🥙父stage(ShuffleMapStage)

13.6 在Executor中执行Task  

Executor收到Task对象并反序列化后,会将Task包装成一个TaskRunner类以便放入线程池执行

🥙ResultTask
🥙ShuffleMapTask

而线程执行时,调用的就是Task的runTask方法,而runTask方法中,拿到这个task的rdd的迭代器,然后将迭代器传入一个ShuffleWriter.write(records)!

而shuffleWriter.write方法中,就是开始“迭代”这个迭代器

13.7 job执行全流程关键步骤总结

  • spark任务是通过行动算子触发执行的 ,在每个行动算子中都有sc.runjob方法 ;

foreach()行动算子
   -> sc.runJob() // 在SparkContext中执行作业
   -> dagScheduler.runJob() // DAG调度器执行作业
​
​
dagScheduler的runJob()
   —> submitJob()// 提交作业
   
dagScheduler的submitJob()
  -> eventProcessLoop.post(JobSubmitted)   // 发送作业提交事件 
  
  
DAGSchedulerEventProcessLoop收到消息
  ->doOnReceive()  
  
 
​
DAGSchedulerEventProcessLoop的doOnReceive()
  -> dagScheduler.handleJobSubmitted 
  
  
DagScheduler的handleJobSubmitted方法
  ->  finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)  // 根据finalRDD创建finalStage
  ->  submitStage(finalStage)  // 递归提交,永远是先从前面的stage开始提交
  
  
submitStage()
  ->  submitMissingTasks(stage, jobId.get)
  
​
submitMissingTasks方法
  -> 把stage的finalRDD信息序列化后广播给每个executor
  -> 根据要提交的stage的类型,以及需要计算的分区个数,生成相应类型相应个数的Task对象
  -> taskScheduler.submitTasks(new TaskSet(tasks.toArray,stage.id,job.id...))
​
​
TaskSchedulerImpl.submitTasks
  -> 将task对象序列化,发给executor
  -> task发给executor,也是有调度策略的:FIFO
  
  
Executor收到task对象,就反序列化
并将反序列化出来的task对象封装到一个TaskRunner对象中
然后把这个TaskRunner对象放入线程池执行
​
TaskRunner的run方法,就是调task对象的runTask方法
​
​
​
task对象的runTask方法就要看是哪种task了(shuffleMapTask,resultTask)
​
shuffleMapTask的runTask方法中,调ShuffleWriter.write(finalRDD.iterator)
​
​
ShuffleWriter.write(iterator)具体实现,要看是哪一种ShuffleWriter实现类
   while(iterator.hasNext)
      kv = iterator.next
      // 不同实现类的不同之处就在后续将kv放到哪里去缓存,以及缓存满了以后怎么溢出
​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/465589.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

完美解决 RabbitMQ可视化界面Overview不显示折线图和队列不显示Messages

问题场景: 今天使用docker部署了一个RabbitMQ,浏览器打开15672可视化页面发送消息后不显示Overview中的折线图,还有队列中的Messages,因为我要看队列中的消息数量。 解决方案: 进入容器内部 docker exec -it 容器id…

走进Hyperledger Fabric:企业区块链技术的简明介绍

该文章Github地址:https://github.com/AntonyCheng/blockchain-notes 在此介绍一下作者开源的SpringBoot项目初始化模板(Github仓库地址:https://github.com/AntonyCheng/spring-boot-init-template & CSDN文章地址:https://…

GPT-SoVITS语音合成服务器部署(远程访问)

GPT-SoVITS 是一个开源项目,它使用大约一分钟的语音数据便可以训练出一个优秀的TTS模型。 项目的核心技术是 Zero-shot TTS 和 Few-shot TTS。 Zero-shot TTS 可以让用户输入5秒钟的语音样本并立即体验转换后的语音,而 Few-shot TTS 则可以通过使用仅一…

静默安装OGG21.3微服务版本FOR ORACLE版本

静默安装OGG21.3微服务版本FOR ORACLE版本 silent install ogg21.3 for oracle 某度找来找去都没有找到一份可靠的静默安装OGG21.3微服务版本的案例,特别难受,为此将自己静默安装的步骤一步步贴出来分享给大家,请指点,谢谢。 至…

【赠书第20期】AI绘画与修图实战:Photoshop+Firefly从入门到精通

文章目录 前言 1 入门篇:初识Photoshop与Firefly 2 进阶篇:掌握Photoshop与Firefly的核心技巧 3 实战篇:运用Photoshop与Firefly进行创作 4 精通篇:提升创作水平,拓展应用领域 5 结语 6 推荐图书 7 粉丝福利 前…

解决谷歌浏览器最新chrome94版本CORS跨域问题

项目场景: 谷歌浏览器升级到chrome94版本出现CORS跨域问题 问题描述 解决谷歌浏览器最新chrome94版本CORS跨域问题。 CORS跨域问题: 升级谷歌浏览器最新chrome94版本后,提示Access to XMLHttpRequest at ‘http://localhost:xxxx/api’ fro…

【机器学习系列】M3DM工业缺陷检测部署与训练

一.基础资料 1.Git 地址 地址 2.issues issues 3.参考 参考 csdn 二.服务器信息 1.GPU 服务器 GPU 服务器自带 CUDA 安装(前提是需要勾选上)CUDA 需要选择大于 11.3 的版本登录服务器后会自动安装 GPU 驱动 2.CUDA 安装 GPU 服务器自带 CUDA CUDA 版本查看 3.登录信…

安装Pinia 插件 pinia-plugin-persist 添加 persist 属性时报红线解决方法

1,使用全局状态管理pinia 添加persist包红线, 网上很多都没有得到实际的解决方法。 2,接下来给大家梳理一下正确的解决方法; 首先卸载pinia-plugin-persist pnpm uninstall pinia-plugin-persist 安装pinia-plugin-persistedsta…

Git——修改历史记录详解

目录 Git1、修改历史信息1.1、启动互动模式1.2、修改Commit信息的影响1.3、取消Rebase 2、多个Commit合并位一个Commit3、一个Commit拆解成多个Commit4、在某些Commit之间插入新的Commit5、删除Commit6、调整Commit的顺序7、Revert指令7.1、取消Commit7.2、取消Revert1、再开一…

【金三银四】掌趣科技24.3.7 H项目 服务端开发笔试题

考试题型: 不定项选择题 10 道 , 填空题 10 道 , 问答题 2 道 , 编程题 4 道 目录 不定项选择题 10 道填空题 10 道问答题 2 道编程题 4 道 不定项选择题 10 道 在TCP协议中,发送方的窗口大小是由两个关键因素共同决定…

Java八股文(MyBatis Plus)

Java八股文のMyBatis Plus MyBatis Plus MyBatis Plus MyBatis Plus 是什么?它与 MyBatis 有什么区别? MyBatis Plus 是基于 MyBatis 进行扩展的一款持久层框架,它提供了一系列增强功能,简化了 MyBatis 的使用。 与 MyBatis 相比…

SpringBoot(文件上传功能,阿里云OSS存储,几种配置文件用法)【详解】

目录 一、新增员工 二、文件上传-技术点 1. 文件上传功能 1.客户端上传文件三要素 2 服务端接收文件 Controller接收文件示例 修改允许上传的文件大小 2. 本地存储文件 3. 阿里云OSS存储(这里只写一种,可以用其它的) 1.介绍 2.开通…

力扣L14--- 415.字符串相加(JAVA版)-2024年3月17日

1.题目 2.知识点 注1:你可以使用Integer.parseInt()或Double.parseDouble()等方法将字符串转换为整数或浮点数。 public class Main {public static void main(String[] args) {String str "123";int num Integer.parseInt(str);System.out.println(…

深度序列模型与自然语言处理:基于TensorFlow2实践

目录 写在前面 推荐图书 编辑推荐 内容简介 作者简介 推荐理由 写在最后 写在前面 本期博主给大家推荐一本深度学习的好书,对Python深度学习感兴趣的小伙伴快来看看吧! 推荐图书 《深度序列模型与自然语言处理 基于TensorFlow2实践》 直达链接…

iOS常见崩溃简介

1. 崩溃 多指在移动设备(如iOS、Android设备)中或不可移动设备(如:Windows、Linux等设备), 在打开或使用应用程序时出现的突然退出中断的情况(类似于Windows的应用程序崩溃)。 多表现为&#…

MySQL_数据库图形化界面软件_00000_00001

目录 NavicatSQLyogDBeaverMySQL Workbench可能出现的问题 Navicat 官网地址: 英文:https://www.navicat.com 中文:https://www.navicat.com.cn SQLyog 官网地址: 英文:https://webyog.com DBeaver 官网地址&…

使用 opencv 识别答题卡,生成填涂答案

一般答题卡设计时都在试卷4个角预留4个一样大小的黑块 仅能识别选择题判断题之类的填涂答题的题目,不能识别填空题应用题等其它主观题 使用 opencv 识别试卷图片中所有黑块,再根据黑块大小获取四个角的位置,根据四个黑块位置校正图像 将图…

【Numpy】练习题100道(51-75题)

🌻个人主页:相洋同学 🥇学习在于行动、总结和坚持,共勉! #学习笔记# Git-hub链接 目录 1.题目列表 2.题解 1.题目列表 51. 创建一个表示位置(x,y)和颜色(r,g,b)的结…

chatGLM3+chatchat实现本地知识库

背景 由于客服存在大量的问题为FAQ问题,需要精准回复客户,所以针对此类精准问题,通过自建同量数量库进行回复。 落地方案 通过chatGLM3-6Blangchain-chatchatbge-large-zh实现本地知识库库。 注意:相关介绍和说明请看官网~ 配置要…

【解读】NIST网络安全框架CSF 2.0

2014年,NIST(美国国家标准与技术研究所,类似于中国的工信部)首次发布了网络安全框架CSF(Cybersecurity Framework),十年后,在2024年2月26日发布了重大更新(CSF 2.0)&…