Flink-执行拓扑图与作业调度

算子与作业提交

  • 一、Flink执行模式
    • 1.流执行模式
    • 2.批执行模式
  • 二、Flink拓扑图
    • 1.基本概念
    • 2.拓扑图生成过程
  • 三、拓扑生成和优化
    • 1.应用程序
    • 2.逻辑视图
    • 3.算子链
    • 4.Task Slots
  • 四、作业调度
    • 1.调度
    • 2.拓扑图数据结构
    • 3.Job状态转化
    • 4.Task状态转化
  • 总结
    • 参考链接


一、Flink执行模式

Flink对流处理和批处理采用统一的处理方式,执行模式可以通过execute.runtime-mode来配置。有三种可选的值:STREAMING:流模式,BATCH:批模式,AUTOMATIC:由系统决定。

1.流执行模式

在流模式下,所有任务需要一直在线运行,所以集群需要一次性分配足够的资源来运行所有任务。这样每个任务都可以立即执行新的记录,达到连续和低延迟的流处理。
流执行模式下,网络shuffle是流水式的,在网络层进行一些缓冲然后传递到下一个处理节点,在任务之间没有数据点。

2.批执行模式

在批处理模式下,作业可以一个阶段接一个阶段执行,集群只需要分配单个阶段的资源就可以运行任务。分阶段处理时Flink会将任务的中间结果保存到一些非永久性存储中,上游任务执行完毕可以下线,下游任务从存储中读取中间结果继续执行。

二、Flink拓扑图

1.基本概念

flink程序从编写到提交过程中执行图的转化涉及很多概念,在进行介绍执行图之前先了解一下Job、Operation、Task、SubTask、Task Slot等。

  • Operation:由Flink Stream API提供的一系列操作算子,包括输入算子、计算算子和输出算子。
  • Job:由用户将一系列Operation组合而成的程序,一个Job就是一个可以提交给Flink执行的作业。
  • Task:在JobGraph中由一个算子或者多个算子链接在一起转化而来的逻辑上的运算节点
  • SubTask:flink是一个并行的程序,因此按照并行度每个算子Task可以有多个算子子任务SubTask,每个算子子任务是彼此独立并在不同的线程中执行。
  • TaskSlot:每个TaskManager都是一个JVM进程,包含的多个Task Slot是线程,每个TaskSlot可以执行一个或者多个SubTask。

2.拓扑图生成过程

Flink的应用程序是由flink算子组合而的dataflow所组成,Flink会将程序直接映射成数据流图StreamGraph,在提交到集群前会优化生成JobGraph。JobManager会根据并发度生成执行图ExecutionGraph,然后调度部署到TaskManager的TaskSlot中形成物理执行图。
在这里插入图片描述
Flink中从程序到最后的物理执行分为四层:StreamGraph->JobGraph->ExecutionGraph->物理执行。

  • StreamGraph:是将用户Stream API算子组成的代码生成的数据流算子拓扑图。
  • JobGraph:将数据流拓扑图中一些算子进行优化合并成一个Task拓扑图,这样可以减少两个算子之间数据的交换产生的延迟和消耗。
  • ExecutionGraph:由JobManager根据JobGraph和并发度生产的可调度的subTask拓扑图。
  • 执行图:集群调度时,各个TaskManager上Task Slot部署subTask的部署情况。

三、拓扑生成和优化

1.应用程序

在这里插入图片描述
应用程序用用户自定义的算子组成,由输入算子、计算算子、输出算子三类组成。

2.逻辑视图

在这里插入图片描述
在程序执行过程中,一个流可以有多个分区,也就是每个算子可以有多个子任务,每个任务并行的处理各自的数据。每个算子子任务的数量就是这个算子的并行度。

算子之间传输数据分为两种情况:

  • 一对一模式:保留元素分区和顺序信息,也就是上游算子的输出的数据和顺序跟下游算子完全一致,也就是同一个分区数据只会进入下游算子的同一分区。
  • 重新分发模式:会改变数据的分区信息,不同的算子会根据一些信息将数据重新发送到不同分区的下游算子。比如keyBy()会根据散列值重新分区。

3.算子链

如果将每个算子都转化成一个任务,这样计算过程可能会需要线程切换、中间结果缓冲等,增加了调度开销和系统的延迟,所以会把一些算子算作一个任务进行调度,可以减少开销和延迟。如果增加算子链优化后,逻辑执行图如下:

在这里插入图片描述

4.Task Slots

每个TaskManager都是一个JVM进程,包含的多个TaskSlot是线程,每个TaskSlot可以执行一个或者多个SubTask。
在这里插入图片描述
Flink支持SubTask共享slot,即来自同一个作业的SubTask由同一个TaskSlot执行。这样所需要的TaskSlot和作业并行度一致,可以更好的利用资源,增加并行度。

在这里插入图片描述

四、作业调度

1.调度

Flink集群中JobManager负责调度SubTask在TaskManager上的执行。TaskManager通过TaskSlot来定义执行资源,每个TaskSlot可以执行一个SubTask或者来自同一个作业的多个SubTask。
比如:由一个数据源、并行度为4的Map和并行度为3的Reduce组成的作业。那么在TaskManager实际分配资源如下。
在这里插入图片描述

2.拓扑图数据结构

在JobGraph中的Task由数据结构JobVertex表示,包含并行度和运行的代码。
在ExecutionGraph中的SubTask由数据结构ExecutionVertex表示,ExecutionVertex负责跟踪子任务的执行状态,而数据结构ExecutionJobVertex会负责跟踪任务的执行状态。
在这里插入图片描述

3.Job状态转化

Flink 作业刚开始会处于 created 状态,然后切换到 running 状态,当所有任务都执行完之后会切换到 finished 状态。

  • 如果遇到失败的话,作业首先切换到 failing 状态以便取消所有正在运行的 task。
  • 如果所有 job 节点都到达最终状态并且 job无法重启, 那么 job 进入 failed 状态。
  • 如果作业可以重启,那么就会进入到 restarting状态,当作业彻底重启之后会进入到 created 状态。
  • 如果用户取消了 job 话,它会进入到 cancelling 状态,并取消所有正在运行的 task。当所有正在运行的 task 进入到最终状态的时候,job 进入 cancelled 状态。

Finished、canceled 和 failed 会导致全局的终结状态,并且触发作业的清理。跟这些状态不同,suspended 状态只是一个局部的终结。局部的终结意味着作业的执行已经被对应的 JobManager 终结,但是集群中另外的 JobManager 依然可以从高可用存储里获取作业信息并重启。因此一个处于 suspended 状态的作业不会被彻底清理掉。
在这里插入图片描述

4.Task状态转化

在整个 ExecutionGraph 执行期间,每个并行 task 都会经历多个阶段,从 created 状态到 finished 或 failed。下图展示了各种状态以及他们之间的转换关系。由于一个 task 可能会被执行多次(比如在异常恢复时),ExecutionVertex 的执行是由 Execution 来跟踪的,每个 ExecutionVertex 会记录当前的执行,以及之前的执行。
在这里插入图片描述

总结

主要介绍Flink执行模式以及Flink作业提交过程中拓扑图的生产和优化,还有作业调度和其中涉及的数据结构。


参考链接

1.Flink官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/198830.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python语言学习笔记之四(Python文档化)

本课程对于有其它语言基础的开发人员可以参考和学习,同时也是记录下来,为个人学习使用,文档中有此不当之处,请谅解。 Python文档化是指在Python代码中添加注释和文档字符串,以提供有关代码的详细信息和说明。 文档的…

这个变量要不要用volatile修饰呢?

正文 大家好,又见面了,我是bug菌~ 在嵌入式软件开发过程中,如果对volatile不熟,那可以你应该是个"假嵌入式程序员",因为一个变量需不需要使用volatile考虑的场景挺多的,如果在某些场景下乱用&…

编写安全 JavaScript 代码的最佳实践

编写安全 JavaScript 代码的最佳实践 JavaScript 的动态特性使其成为事实上的浏览器语言和世界上最流行的编程语言。 JS 最受欢迎的有用功能之一是即时分析。这意味着浏览器在下载内容的同时执行代码,这显然有其优势。然而,这种程度的自由也伴随着问题…

使用STM32微控制器实现光电传感器的接口和数据处理

光电传感器在许多领域中被广泛应用,例如工业自动化、智能家居等。本文将介绍如何使用STM32微控制器实现光电传感器的接口和数据处理的方案,包括硬件设计、引脚配置、数据采集、滤波和阈值判断等关键步骤,并给出相应的代码示例。 一、引言 光…

深入浅出 Vue 中的插槽 slot

深入浅出 Vue 中的插槽 slot start 最近被问到好几次 Vue 中的插槽相关知识,掌握的还是有些不全面。抱着重新学习的心态,写这篇博客。首先对基础知识做一个回顾,然后再对源码实现做一个学习。作者:番茄编写时间:2023…

【藏经阁一起读】(78)__《Apache Tomcat 的云原生演进》

【藏经阁一起读】(78) __《Apache Tomcat 的云原生演进》 目录 __《Apache Tomcat 的云原生演进》 一、读后感 二、文章知识点摘要 2.1、Tomcat的技术内幕和在喜马拉雅的实践 2.2、GraalVM static compilation in web container application&…

企业级开发链表思路

项目结构 头文件代码 头文件代码LinkList.h #ifndef LINKLIST_H #define LINKLIST_H #include <stdio.h> #include <stdlib.h> #include <iostream> // 链表小节点 typedef struct LINKBODE {struct LINKBODE* next;}LinkNode; // 遍历的函数指针 typedef …

UE5、CesiumForUnreal实现加载GeoJson绘制多面(MultiPolygon)功能(支持点选高亮)

文章目录 1.实现目标2.实现过程2.1 数据与预处理2.2 GeoJson解析2.3 Mesh构建与属性存储2.4 核心代码2.5 材质2.6 蓝图应用测试3.参考资料1.实现目标 在之前的文章中,基于GeoJson数据加载,实现了绘制单面功能,但只支持单个要素Feature。本文这里实现对Geojson内所有面要素的…

Python字典类型

目录 目标 版本 官方文档 简介 实战 创建 循环 常用方法 目标 掌握字典类型的使用方法&#xff0c;包括&#xff1a;创建、循环、常用方法等操作。 版本 Python 3.12.0 官方文档 Mapping Types — dicthttps://docs.python.org/3/library/stdtypes.html#mapping-type…

绝地求生:成长型皮肤异色定价是否有些夸张?

大家好&#xff0c;我闲游盒小盒子&#xff01; 自从26.2更新上架回归的黑市中四款成长型皮肤以后&#xff0c;能看到社区里很多玩家都分享抽中了自己心仪的成长型皮肤。 但是对于异色很少有人去实装&#xff0c;大多数玩家都是选择去分解异色换取五张图纸然后追求升级原皮等级…

【PyQt】(自定义类)阴影遮罩

写了一个感觉有些用的小玩具。 用于给控件添加阴影遮罩(强调主控件的同时屏蔽其余控件的点击) 自定义阴影遮罩Mask&#xff1a; from PyQt5.QtCore import QPoint,QRect,Qt,QPoint,QSize from PyQt5.QtWidgets import QWidget,QLabel,QPushButton,QVBoxLayout from PyQt5.QtGu…

L型骨牌覆盖问题。

问题&#xff1a;解决一个2k*2k的特殊棋牌上的L型骨牌覆盖问题。 思路&#xff1a; 棋盘覆盖实现的基本方法为分治法 当k0时(1ⅹ1棋盘)&#xff0c;及特殊方格&#xff0c;骨牌数为0 当k >0时&#xff0c;将2kⅹ2k棋盘分割为4个2k-1ⅹ2k-1子棋盘了 特殊方格位于4个较小…

【3D程序软件】SideFX与上海道宁一直为设计师提供程序化 3D动画和视觉效果工具,旨在创造高质量的电影效果

Houdini是一个 从头开始构建的程序系统 使艺术家能够自由工作 创建多次迭代 并与同事快速共享工作流程 Houdini FX为 视觉特效艺术家创作故事片 广告或视频游戏 凭借其基于程序节点的工作流程 Houdini FX可让 您更快地创建更多内容 从而缩短时间并 在所有创意任务中…

制作电脑微信双开快捷方式

一、介绍 电脑下载的微信正常只能打开一个&#xff0c;那有时候需要双开甚至多开微信我们需要怎么操作呢&#xff1f; 我这里就讲一个制作微信双开快捷键方式的办法&#xff0c;争对其他应用也是一样的原理。 二、制作过程 1、右击微信快捷方式 2、点击属性 3、复制目标 …

微服务实战系列之Cache

前言 欢迎来到Cache&#xff08;缓存&#xff09;的世界&#xff01; 自从世界第一台计算机诞生之日起&#xff0c;人们对效率的渴望逐步增强。从CPU到存储&#xff0c;从芯片到内存&#xff0c;一批又一批的先驱以一种孜孜不倦的“工匠”精神&#xff0c;为计算机运行效率的提…

MyBatis-Plus及多数据源入门教程

开发环境配置 JDK 1.8、Maven 3.8.8、 IDEA CE 2023.2、MySQL 8.0.34 框架介绍 MyBatis-Plus&#xff08;简称 MP&#xff09;是一个 MyBatis的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。MyBatis 是一款非常优秀的开源…

快速了解Spring AOP的概念及使用

文章目录 1. AOP概念1.1 什么是AOP&#xff1f;1.2 什么是Spring AOP&#xff1f; 2. Spring AOP的使用2.1 引入Spring AOP依赖2.2 编写AOP程序 3. Spring AOP详解3.1 Spring AOP核心概念1. 切点&#xff08;Pointcut&#xff09;2. 连接点&#xff08;Join Point&#xff09;3…

C++ day37 贪心算法 单调递增的数字 监控二叉树

题目1&#xff1a;738 单调递增的数字 题目链接&#xff1a;单调递增的数字 对题目的理解 返回小于或等于n的最大数字&#xff0c;且数字是单调递增&#xff08;单调递增数字的定义&#xff1a;每个相邻位上的数字满足x<y&#xff09; 贪心算法 注意本题的遍历顺序是从…

【算法刷题】Day7

文章目录 283. 移动零1089. 复写零 283. 移动零 原题链接 看到题目&#xff0c;首先看一下题干的要求&#xff0c;是在原数组内进行操作&#xff0c;平切保持非零元素的相对顺序 这个时候我们看到了示例一&#xff1a; [ 0, 1, 0, 3,12 ] 这个时候输出成为了 [ 1, 3, 12, 0, …

16.spirng源码解析-registerBeanPostProcessors

注册拦截bean创建的bean处理器 此部分实质上是在BeanDefinitions中寻找BeanPostProcessor&#xff0c;之后调用BeanFactory.addBeanPostProcessor方法保存在一个List中&#xff0c;注意添加时仍然有优先级的概念&#xff0c;优先级高的在前面。