Spark调度底层执行原理详解(第35天)

系列文章目录

一、Spark应用程序启动与资源申请
二、DAG(有向无环图)的构建与划分
三、Task的生成与调度
四、Task的执行与结果返回
五、监控与容错
六、优化策略

文章目录

  • 系列文章目录
  • 前言
  • 一、Spark应用程序启动与资源申请
    • 1. SparkContext的创建
    • 2. 资源申请
  • 二、DAG(有向无环图)的构建与划分
    • 1. DAG的构建
    • 2. DAG的划分
    • 3. DAG的调度执行
    • 4. DAG调度的优化
  • 三、Task的生成与调度
    • 1. Task的生成
    • 2. Task的调度
  • 四、Task的执行与结果返回
    • 1. Task的执行
    • 2. 结果的返回
  • 五、监控与容错
    • 1. 监控
    • 2. 容错
  • 六、优化策略
    • 1. 内存计算
    • 2. 智能Shuffle机制
    • 3. 资源管理与调度


前言

Spark调度底层执行原理是一个复杂而精细的过程,它涉及到多个组件的交互和协同工作,以实现大数据处理的高效性和灵活性。本文主要对Spark调度底层执行原理进行详细解析。

  • Spark调度底层执行原理详解图
    在这里插入图片描述

一、Spark应用程序启动与资源申请

1. SparkContext的创建

当Spark应用程序启动时,首先会创建SparkContext对象。SparkContext是Spark的入口点,负责初始化与资源管理器(如YARN、Mesos等)的连接,注册应用,并请求分配Executor资源。

2. 资源申请

SparkContext向资源管理器注册并向其申请运行Executor。资源管理器分配Executor资源后,启动Executor进程。这些Executor是Spark在每个Worker节点上启动的进程,负责执行具体的Task。

二、DAG(有向无环图)的构建与划分

Spark的DAG(Directed Acyclic Graph,有向无环图)调度原理是Spark作业调度机制的核心部分,它负责将复杂的作业分解成可并行执行的任务集,并通过任务调度器进行高效执行。以下是Spark DAG调度原理的详细解释:
在这里插入图片描述

1. DAG的构建

用户代码中包含Transformations(转换操作)和Actions(行动操作)时,Spark会构建一个DAG来表示RDD(弹性分布式数据集)之间的依赖关系。这些依赖关系决定了数据处理的流程。

  • RDD的依赖关系:
    在Spark中,RDD(弹性分布式数据集)是数据处理的基本单位。RDD之间的依赖关系决定了数据处理的流程和顺序。这些依赖关系是有向的,总是由子RDD指向父RDD。
  • DAG的生成:
    当用户提交一个Spark作业时,Spark会根据RDD之间的依赖关系构建一个DAG。这个DAG表示了作业中所有RDD之间的转换和行动操作,以及它们之间的数据流动关系。

2. DAG的划分

  • DAG Scheduler负责将DAG划分为多个Stage(阶段)。Stage的划分依据是RDD依赖关系中的宽依赖(如shuffle操作)。宽依赖标志着数据重分布的需求,自然成为Stage的边界。每个Stage包含一组可以并行执行的Task。
  • Stage的划分:
    如果RDD之间的依赖是窄依赖(即一个父RDD的分区只会被一个子RDD的分区使用),则它们会被划分到同一个Stage中。如果依赖是宽依赖(即一个父RDD的分区会被多个子RDD的分区使用,通常涉及shuffle操作),则会在宽依赖处进行Stage的划分。
    Task的生成:
    每个Stage会被进一步划分为多个Task(任务)。这些Task是Spark实际执行的最小单元,它们将被分发到集群中的Executor上执行。

3. DAG的调度执行

  1. Task的提交与执行:
    DAG Scheduler将划分好的Stage提交给Task Scheduler。Task Scheduler负责将Stage中的Task分发到集群的Executor上执行。Executor多线程地执行Task,每个线程负责一个Task。
  2. 执行结果的收集:
    当Task执行完成后,会将结果返回给Task Scheduler。Task Scheduler将结果汇总后,通知DAG Scheduler。DAG Scheduler根据Task的执行结果和Stage的依赖关系,决定是否提交下一个Stage执行。
  3. 容错与重试:
    如果某个Task执行失败,Task Scheduler会负责重试该Task。如果某个Stage中的所有Task都执行失败,DAG Scheduler会重新提交该Stage执行。这种容错机制保证了Spark作业的健壮性和可靠性。

4. DAG调度的优化

  1. 本地性优化:
    Spark在调度Task时,会尽量将Task分配到存储了所需数据的节点上执行,以减少数据的网络传输开销。这种本地性优化策略提高了Spark作业的执行效率。
  2. 资源动态分配:
    Spark支持资源的动态分配,即根据作业的执行情况和集群的负载情况动态调整Executor的数量和资源。这种动态分配策略有助于充分利用集群资源,提高资源利用率。
    综上所述,Spark的DAG调度原理是一个复杂而高效的过程,它通过将作业分解成可并行执行的Stage和Task,并利用DAG Scheduler和Task Scheduler进行高效的调度执行。同时,Spark还通过本地性优化和资源动态分配等策略来优化DAG调度的性能。

三、Task的生成与调度

1. Task的生成

DAG Scheduler将每个Stage转换为一个或多个TaskSet(任务集),Task Scheduler负责将这些TaskSet分配到各个Executor上执行。

2. Task的调度

Task Scheduler接收DAG Scheduler提交过来的TaskSet,并将Task分发到集群中的Executor上运行。Executor多线程地执行Task,每个线程负责一个Task。

四、Task的执行与结果返回

1. Task的执行

Task在Executor上执行,处理数据,并将结果返回给Driver。对于ShuffleMapTask,计算结果会写入BlockManager中,并返回给DAG Scheduler一个MapStatus对象,存储BlockManager的基本信息,这些信息将成为下一个阶段任务获取输入数据的依据。

2. 结果的返回

对于ResultTask(最终任务),返回的是func函数的计算结果。这些结果会被发送到Driver端,供用户程序进一步处理或展示。

五、监控与容错

1. 监控

DAGScheduler监控Job与Task的完成情况,通过回调函数接收TaskScheduler的通知,了解任务的开始、结束、失败等信息,以维护作业和调度阶段的状态信息。

2. 容错

如果某个Executor失败,DAGScheduler会根据RDD的依赖关系重新计算丢失的分区。Spark通过RDD的Lineage(血统)进行容错,确保数据的完整性和一致性。

六、优化策略

1. 内存计算

Spark利用内存进行计算加速,通过存储RDD的分区在内存中来避免频繁的磁盘读写。这大大提高了数据处理的效率。

2. 智能Shuffle机制

在涉及宽依赖的Stage间,数据需经过Shuffle过程重分布。Spark使用了基于排序的Shuffle机制,优化了数据处理的效率和内存使用。

3. 资源管理与调度

Spark通过智能的资源管理与调度策略,如FIFO调度策略等,确保任务的高效执行。同时,Spark还优化了数据处理的本地性,优先安排Task在数据所在的节点上执行,以减少网络传输和提高执行效率。
综上所述,Spark调度底层执行原理是一个复杂而精细的过程,它通过高度优化的DAG执行模型、内存计算、智能的Shuffle机制和强大的资源管理与调度策略,实现了大数据处理的高效性和灵活性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/797375.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

TS真的比JS更好吗?

前言 在讨论TypeScript(TS)是否比JavaScript(JS)更好时,我们需要明确“更好”这一概念的上下文和衡量标准。TypeScript和JavaScript在多个方面有着明显的区别,但它们并不是简单的“好”与“不好”的关系&a…

接口安全配置

问题点: 有员工在工位在某个接口下链接一个集线器,从而扩展上网接口,这种行为在某些公司是被禁止的,那么网络管理员如何控制呢?可以配置接口安全来限制链接的数量,切被加入安全的mac地址不会老化&#xff…

宜春旅游集散中心展厅OLED透明屏方案设计

一、项目概述 为提升宜春旅游集散中心展厅的现代化展示水平,增强游客的参观体验,我们计划在展厅的核心区域引入OLED透明屏技术。该方案旨在通过高科技的视觉呈现方式,将展品信息以虚拟与现实相结合的方式展现,打造出一个既具科技感…

IDEA 2024 maven 配置

1 查看IDEA默认的maven版本 2 下载对应的maven maven 官网:Maven – Welcome to Apache Maven 找到对应的版本(可以选择更高一点的版本,但是不能差太大,可能会有不兼容的情况 复制下载连接,并打开新标签,只保留链接…

STL 提供的容器可以有多快?(下)「榨干最后一滴」

以下内容为本人的烂笔头,如需要转载,请声明原文链接 微信公众号「ENG八戒」https://mp.weixin.qq.com/s/QWgA97TDMGBnwR4hKA7BwA 查表的消耗 某些场景下需要用到大量的 (string, X) 键值对来存储数据,标准库提供了关联容器 std::map 来解决键…

【MySQL 进阶】MySQL 程序 -- 详解

一、MySQL 程序简介 MySQL 安装完成通常会包含如下程序: 1、Linux 系统 程序⼀般在 /usr/bin 目录下,可以通过命令查看: 2、Windows系统 目录:你的安装路径\MySQL Server 8.0\bin,可以通过命令查看: 可…

图像处理:使用 OpenCV-Python 卡通化你的图像(2)

一、说明 在图像处理领域,将图像卡通化是一种新趋势。人们使用不同的应用程序将他们的图像转换为卡通图像。如今,玩弄图像是许多人的爱好。人们通常会点击图片并添加滤镜或使用不同的东西自定义图像并将其发布到社交媒体上。但我们是程序员,…

QML界面控件加载与显示顺序

一、QML界面控件加载顺序 QML在界面加载时的顺序和我们认知的有很大的不同,有时候会对我们获取参数以及界面实现造成很大的困扰 1、加载顺序 import QtQuick 2.12 import QtQml 2.12 import QtQuick.Window 2.12 import QtQuick.VirtualKeyboard 2.4Window {id: …

java.sql.SQLException: Before start of result set

情况描述,在通过JDBC连接数据库时,想直接判断获取的值是否存在,运行时报错。 翻译: 在开始结果集之前 报错截图 解决问题的方法:对结果集ResultSet进行操作之前,一定要先用ResultSet.next()将指针移动至…

CSS学习碎碎念之卡片展示

效果展示&#xff1a; 代码展示 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>图片展示</title…

UART编程

Q:为什么使用串口前要先在电脑上安装CH340驱动&#xff1f; 中断的作用&#xff1f; 环形buffer的作用&#xff1f; static和valitate的作用 三种编程方式简介 也可以通过DMA方式减小CPU资源的消耗 直接把数据在SRAM内存和UART模块进行传输 &#xff0c;流程&#xff1a; …

【算法】平衡二叉树

难度&#xff1a;简单 题目 给定一个二叉树&#xff0c;判断它是否是 平衡二叉树 示例&#xff1a; 示例1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;true 示例2&#xff1a; 输入&#xff1a;root [1,2,2,3,3,null,null,4,4] 输出&…

调整网络安全策略以适应不断升级的威胁形势

关键网络安全统计数据和趋势 当今数字时代网络安全的重要性

项目收获总结--本地缓存方案选型及使用缓存的坑

本地缓存方案选型及使用缓存的坑 一、摘要二、本地缓存三、本地缓存实现方案3.1 自己编程实现一个缓存3.2 基于 Guava Cache 实现本地缓存3.3 基于 Caffeine 实现本地缓存3.4 基于 Encache 实现本地缓存3.5 小结 四、使用缓存的坑4.1 缓存穿透4.2 缓存击穿4.3 缓存雪崩4.4 数据…

游戏的无边框模式是什么?有啥用?

现在很多游戏的显示设置中&#xff0c;都有个比较特殊的选项“无边框”。小伙伴们如果尝试过&#xff0c;就会发现这个效果和全屏几乎一毛一样&#xff0c;于是就很欢快地用了起来&#xff0c;不过大家也许会发现&#xff0c;怎么和全屏比起来&#xff0c;似乎有点不够爽快&…

【2024_CUMCM】时间序列1

目录 概念 时间序列数据 时期和时点时间序列 数值变换规律 长期趋势T 季节趋势S 循环变动C 不规则变动I 叠加和乘积模型 叠加模型 相互独立 乘积模型 相互影响 注 spss缺失值填补 简单填补 五种填补方法 填补原则 1.随机缺失 2.完全随机缺失 3.非随机缺失…

HarmonyOS NEXT:一次开发,多端部署

寄语 这几年特别火的uni-app实现了“一次开发&#xff0c;多端使用”&#xff0c;它这个端指的是ios、安卓、各种小程序这些&#xff0c;而HarmonyOS NEXT也提出了“一次开发&#xff0c;多端部署”&#xff0c;而它这个端指的是终端设备&#xff0c;也就是我们的手机、平板、电…

Java面试题:MVCC

MVCC 保证事务的隔离性 排它锁: 一个事务获取了数据行的排他锁,其他事务就不能再获取该行的其他锁 MVCC: 多版本并发控制 维护一个数据的多个版本,使读写不存在冲突 具体实现依靠 隐藏字段 mysql中隐藏了三个隐藏字段 db_trx_id:最近修改事务 db_roll_ptr:指向上一个…

【Leetcode】最小数字游戏

你有一个下标从 0 开始、长度为 偶数 的整数数组 nums &#xff0c;同时还有一个空数组 arr 。Alice 和 Bob 决定玩一个游戏&#xff0c;游戏中每一轮 Alice 和 Bob 都会各自执行一次操作。游戏规则如下&#xff1a; 每一轮&#xff0c;Alice 先从 nums 中移除一个 最小 元素&…

[linux]IO多路复用机制:select、poll、epoll

为什么需要IO多路复用 首先我要向大家输出一个IO的概念&#xff1a;IO在我看来就是 等 拷贝&#xff08;简化IO模型&#xff09;&#xff0c;等就是等待系统资源&#xff08;设备。数据等&#xff09;就绪&#xff08;比如等待文件描述符就绪&#xff0c;等待数据就绪&#x…