Flink-串讲面试题

1. 概念

 

有状态的流式计算框架

可以处理源源不断的实时数据,数据以event为单位,就是一条数据。

2. 开发流程

先获取执行环境env,然后添加source数据源,转换成datastream,然后使用各种算子进行计算,使用sink算子指定输出的目的地,最后调用execute方法执行。

3. flink运行模式

  1. standalone
  2. yarn
  3. k8s

4. flink部署模式(yarn)

  1. session
    1. 先启动集群,再提交job到集群
  2. per-job
    1. 一个job启动一个集群
  3. aplication
    1. 一个job启动一个集群

per-job和application区别:

  • 提交代码位置不一样,单作业模式的main方法在客户端执行,应用模式的main方法在JobManager执行

应用模式是生产上主要提交模式,单作业模式和应用模式都是一个job启动一个集群,所以可以做到资源隔离,而会话模式是多个job分享一个集群,适合小作业共享。

5. 运行时架构

  1. Client
    1. 解析代码,提交作业
  2. JobManager

    1. 管理节点,任务切分分配

    2. dispatcher:将job传递给Jobmaster

    3. resourManager:申请资源

    4. JobMaster:切分任务

    5. Checkpointcoordinator:向数据源注入barrier

  3. TaskManager

    1. 执行任务计算 

    2. 资源最小单位slot ,算子就是我们task任务

6. 基本概念

6.1.task和subtask区别?

一个算子(map,filter,flatmap)就是一个task

算子并行子任务就是subtask 

6.2 task和slot的关系

一个task的子任务不能在一个slot中执行

一个slot中可以执行不同算子的subtask

6.3 并行度的优先级

算子 > 全局env  > 提交命令行  >   配置文件

6.4 算子链路的合并

多个subtask组成一个大的subtask

条件:

  1. 前后算子的并行度一致
  2. forward(数据分区规则)
  3. subtask必须在一个共享槽(.slotSharingGroup("default"), 在一个slot槽中执行)

算子合并优点和缺点 ?

  1. 优点
    1. 节省数据传输IO
  2. 缺点
    1. 如果有subtask计算逻辑复杂会有抢占资源问题

如何禁用算子链?

env.disableOperatorChaining()

如何设置不同的共享槽?

.slotSharingGroup("aa")

6.5 流图转化

产生发送做了什么事情
StreamGraphClientClient代码解析
JobGraphClientJM算子链的合并
ExecutionGraphJMTM并行子任务显示
物理执行图

6.6 per-job模式提交作业流程

  1. 客户端提交代码,解析参数 生成StreamGraph
  2. 由StreamGraph生成jobGraph,主要是做了算子链合并
  3. 封装参数 提交给集群yarn 的RM
  4. yarn找一个NM,启动JM
  5. 启动dispatcher,RM,Jobmaster,生成executionGraph
  6. 向JM的RM申请资源,然后去找Yarn的RM申请资源,创建TM启动slot 
  7. 注册slot,分配任务

7. API

7.1 source

kafkasource(算子状态,保存offset) 

7.2 transform

  1. 单流:map,flatmap,filter
  2. keyby :sum, min, max ,reduce 
  3. 侧输出流
  4. 物理分流算子:shuffle,forwawrd,rebalance(默认),rescale
  5. union(类型要求一致)  connect(可以不一致)

7.3 sink

kafkasink,dorissink, jdbcsink, filesink 

7.4 join

  1. API
    1. windowjoin
    2. interval join :两条实时流去根据范围关联,如果一些迟到特别久的数据关联不上
  2. SQL
    1. 常规join(比如left join ,支持回撤流)
    2. lookupjoin:读取外部系统数据,可以缓存, 适用于数据量小,而且基本不变化的表(比如字典表)
    3. interval join
    4. window tvf函数 :累积函数,滚动,滑动

8. 时间语义

  1. 事件时间:业务数据推动,获取数据中时间戳,推进时间
  2. 处理时间:获取操作系统时间
  3. 摄入时间:数据进入到flink集群的系统时间
  • 共同点
    • 时间不能倒退,单调递增 
  • 区分
    • (处理时间)速度稳定,不能停滞 
    • (事件时间)速度不稳定,可能会停滞

9. WaterMark

9.1 你对watermakr的理解

逻辑时钟,单调递增,解决乱序迟到问题

9.2 水位线传递

  • 一对多:广播水位线
  • 多对一:取最小
  • 多对多:先广播,再取最小

场景题:上游算子发生数据倾斜,某一个subtask没有数据,水位线无法抬升怎么办?

解决办法:
            调用withIdleness()方法,如果某一个subtask没有数据,超过了空闲等待时间,那么放弃使用这个subtask的水位线。

9.3 迟到数据问题如何解决?

  1. 设置乱序时间:针对于迟到时间短的数据
  2. 窗口延迟关闭:迟到中级
  3. 侧输出流:迟到特别长

9.4 水位线注入规则

当前最大时间戳 - 乱序时间  - 1ms

10. 窗口

概念:无界流切分为有界流, 集合中是一个个的桶

10.1 分类

  1. 滑动
  2. 滚动
  3. 会话:按照时间间隔划分窗口

10.2 四大组成

  1. assigner:分配器
  2. trigger :触发窗口计算
  3. evictor:驱逐器,清除窗口数据
  4. 聚合逻辑:增量聚合, 全量聚合(reduce    aggregate)

场景问题:表的字段有mid  timestamp  price   ,要求算当前累积GMV, 5分钟输出一次

解决方案:

  1. 第1种方案:windowtvf函数 Cumulate Windows
  2. 第2种方案:用滚动窗口 1天  ,实现ContinuousEventTimeTrigger,自定义每5分钟输出一次

10.3 核心概念

划分(数据属于哪个窗口)

开一个5s滚动窗口  数据是3s  会落到哪个窗口:0-5   3-8 

结论:窗口的向下取整
                timestamp - (timestamp - offset) % windowSize

生命周期

创建:属于窗口第一条数据到来

销毁:事件时间 >= 窗口长度 +允许迟到时间

左闭右开

        endtime -1ms

10.4 设置乱序时间 和窗口延迟关闭时间 有什么区别?

5s滚动窗口   乱序时间设置2s   销毁时间5s  (7s数据过来时候,时间推进到5s)

5s滚动窗口   窗口延迟关闭2s   销毁时间7s   (7s数据过来时候,时间推进到7s)

结论:

设置乱序时间,并不会影响窗口销毁时间,影响时间推进规则,窗口延迟关闭时间影响窗口的关闭时间。

举个栗子:

10s滚动窗口,设置乱序时间5s,窗口延迟关闭时间5s 

窗口销毁:水位线15s时候销毁, 数据携带20s及以上过来触发窗口销毁

11. 状态

概念:用户定义的一些变量 

状态数据是交由Flink托管的,考虑程序数据的恢复 

11.1 分类

  1. 算子状态:每个subtask
    1. list:恢复状态时候轮询
    2. unionlist:广播
  2. 键控状态:每个key去维护的状态
    1. value  map  list  reduce  aggregate 

11.2 状态后端

本地远端
hashmapTM堆内存hdfs
rocksdbrocksdbhdfs

使用场景:rocksdb存储数据量级别比hashmap大

11.3 状态后端场景选择

企业中大状态场景选用的rocksdb  ,大状态场景优化

举个例子:

用户新老访客修复  1000w用户    1k      ≈  10G

rocksdb支持:增量检查点  、 本地恢复 、预定义选项

11.4 TTL

状态的过期时间是由哪个类设置的:

StateTttlConfig

12. 容错机制

12.1 端到端一致性 (kafka  flink   kafka)

源头:offset可重发

Flink:checkpoint

sink:事务(2pc 预写日志) 幂等 

12.2 checkpoint流程

  1. JM的checkpoint协调器发送命令startcheckpint开始
  2. 定期向数据源注入barrier (特殊事件,不会跳过数据向下游发送)
  3. barrier随数据流过每个subtask 
  4. barrier到每个算子,将本地状态快照到hdfs文件系统,快照完之后acks应答(barrier之前的数据已经进入kafka,预提交)
  5. JM中协调器收到所有算子的acks,标志所有快照做完,向算子分发消息
  6. 正式提交kafka

12.3 barrier

  1. 精确一次性
    1. barrier对齐:等待所有barrier到来,快照,等待的时候将数据缓存不处理
    2. 1.11版本,barrier不对齐,状态数据和缓存数据同时快照
  2. 至少一次
    1. barrier对齐:等待所有barrier到来,快照,数据直接向下游传递,不阻塞在缓存中
    2. 问题:出现意外恢复,状态中有重复数据问题

12.4 savepoint 和checkpoint区别

  1. checkpoint:自动帮我做
  2. savepoint手动:配置文件指定savepoint的路径,取消任务触发保存点停止

场景:程序升级 (算子增加,算子减少)
            增加uid

13. FlinkSql

Flinksql如何转化成底层的api?

使用calcite解析语法树

sql转化  ast语法树   逻辑执行    物理执行     底层api执行 

14. Flink生产经验

14.1 提交任务脚本

bin/flink run 
        -d   后台运行 
        -D   并行度     5
        -D   JM内存     1~4 G   
        -D   TM内存     4~8 G 
        -D   TM的slot个数  3(1~4)  
        -c  主类
        ./jar包
        

如果并行设置为5个,slot个数设置为3个,那么会启动2个TM

14.2 TM内存模型

  1. JVM
    1. 元空间
    2. 执行开销
  2. FLink内存
    1. 堆内:框架内存,task计算内存(分配,剩余内存)
    2. 堆外:框架内存,task计算内存(0)  网络内存(组件之间交互,算子缓存区)  托管内存(状态数据)

14.3 Flink部署多少台机器

FLink充当客户端, ds的worker节点都需要部署 

如果是streampark:需要部署一台

15. Flink和sparkstreaming区别 /Flink优点

Flinksparkstreaming
模型流式微批次
时间丰富处理时间
乱序解决不能解决
窗口多灵活窗口长度必须是批次整数倍
容错机制没有
状态没有

16. Flink的Interval Join的实现原理?Join不上的怎么办?

底层调用的是keyby + connect ,处理逻辑:

(1)判断是否迟到(迟到就不处理了,直接return)

(2)每条流都存了一个Map类型的状态(key是时间戳,value是List存数据)

(3)任一条流,来了一条数据,遍历对方的map状态,能匹配上就发往join方法

(4)使用定时器,超过有效时间范围,会删除对应Map中的数据(不是clear,是remove)

Interval join不会处理join不上的数据,如果需要没join上的数据,可以用 coGroup+join算子实现,或者直接使用flinksql里的left join或right join语法。

17. Flink的keyby怎么实现的分区?分区、分组的区别是什么?

分组和分区在 Flink 中具有不同的含义和作用:

分区:分区(Partitioning)是将数据流划分为多个子集,这些子集可以在不同的任务实例上进行处理,以实现数据的并行处理。

数据具体去往哪个分区,是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash,通过上述计算得到的值再与并行度进行相应的计算得到。

分组:分组(Grouping)是将具有相同键值的数据元素归类到一起,以便进行后续操作(如聚合、窗口计算等)。key 值相同的数据将进入同一个分组中。

注意:数据如果具有相同的 key 将一定去往同一个分组和分区,但是同一分区中的数据不一定属于同一组。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/71104.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构笔记--二叉树经典高频题

1--二叉树的最近公共祖先 主要思路: 最近祖先只有两种情况:① 自底向上,当两个目的结点分别在当前结点的左右子树时,当前结点为两个目的结点的最近祖先;② 最近祖先与其中一个目的结点相同,则另一个目的结点…

Linux命令200例:ls用于列出指定目录下的文件和子目录

🏆作者简介,黑夜开发者,全栈领域新星创作者✌。CSDN专家博主,阿里云社区专家博主,2023年6月csdn上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 &…

android ndk clang交叉编译ffmpeg动态库踩坑

1.ffmpeg默认使用gcc编译,在android上无法使用,否则各种报错,所以要用ndk的clang编译 2.下载ffmpeg源码 修改configure文件,增加命令 cross_prefix_clang 修改以下命令 cc_default"${cross_prefix}${cc_default}" cxx…

selenium环境搭建

文章目录 1、下载谷歌浏览器2、下载谷歌驱动 1、下载谷歌浏览器 浏览器下载完成后,在任务管理器中禁止浏览器的自动更新。因为驱动版本必须和浏览器一致,如果浏览器更新了,驱动就用不起了。 2、下载谷歌驱动 谷歌驱动需要和谷歌浏览器版本…

AutoDL服务器的镜像版本太高,配置python3.7 tensorflow1.15版本的框架的步骤

1.选择一个实例,进入后端界面 2. 更新bashrc中的环境变量 conda init bash && source /root/.bashrc查看虚拟环境 conda info --envs可以看到此时有一个base的虚拟环境 但是它的python版本为3.8.10,无法安装tensorflow1.15,所以我们要创建一个…

Java实现对称加密(DES,AES)快速入门示例

对称加密是使用相同的密码进行加密和解密, 对称加密实现简单,安全性相比非对称加密较弱, 常用的对称加密算法有 DES,AES以及PDE等,关于对称加密相关概念参考: 对称加密、非对称加密深度解析 本篇介绍Java的…

模拟信号和数字信号的转换

此文章介绍的模拟信号与数字信号转换相关的知识有如下: 通信原理的PCM脉冲编码调制 数字电子技术的A/D与D/A 以及stm32的ADC与DAC 模拟信号是指-----时间和数值均连续变化的电信号,如正弦波、三角波等。 数字信号是指-----在时间上和数值上均是离散的…

小兔鲜项目 uniapp (1)

目录 项目架构 uni-app小兔鲜儿电商项目架构 小兔鲜儿电商课程安排 创建uni-app项目 1.通过HBuilderX创建 2.通过命令行创建 pages.json和tabBar案例 uni-app和原生小程序开发区别 用VS Code开发uni-app项目 拉取小兔鲜儿项目模板代码 基础架构–引入uni-ui组件库 操…

图的拓扑排序算法

拓扑排序 什么是拓扑排序? 比如说,我们平时工作过程中一定听过一个词叫做—不能循环依赖。什么意思? A依赖BCD,B依赖CD,C依赖D,D依赖EF,想要获得A的话,首先就要先有EF,有…

PostgreSQL查询慢sql原因和优化方案

PostgreSQL sql查询慢优化方案有一下几种解决方案: 1.关闭会话 查询慢sql的执行会话,关闭进程。 查看数据库后台连接进程 SELECT count(*) FROM pg_stat_activity;SELECT * FROM pg_stat_activity; 查看数据库后台连接进程,但是此条SQL不…

分类预测 | Matlab实现基于TSOA-CNN-GRU-Attention的数据分类预测

分类预测 | Matlab实现基于TSOA-CNN-GRU-Attention的数据分类预测 目录 分类预测 | Matlab实现基于TSOA-CNN-GRU-Attention的数据分类预测效果一览基本介绍研究内容程序设计参考资料 效果一览 基本介绍 Matlab实现分类预测 | Matlab实现基于TSOA-CNN-GRU-Attention的数据分类预…

Golang 基本常量声明及 iota 使用

文章目录 一、局部常量声明二、全局常量声明三、多行常量定义,值表达式为空时自动继承前一个四、常量声明 - iota 一、局部常量声明 package mainimport "fmt"func main() {//局部常量声明//方式一:主动声明类型const lengthA int 10//方式二…

设计模式(6)原型模式

一、介绍 Java中自带的原型模式是clone()方法。该方法是Object的方法,native类型。他的作用就是将对象的在内存的那一块内存数据一字不差地再复制一个。我们写简单类的时候只需要实现Cloneable接口,然后调用Object::clone方法就可实现克隆功能。这样实现…

SpringBoot携带Jdk绿色部署项目

文章目录 SpringBoot携带Jdk绿色部署运行项目1. 实现步骤2. 自测项目文件目录及bat文件内容,截图如下:2-1 项目文件夹列表:2-2. bat内容 SpringBoot携带Jdk绿色部署运行项目 说明: 实际应用的不方便场景:1. 实际项目…

Centos7.9系统_亲测成功_磁盘满了_分区和挂载新盘_创建文件夹并挂载分区---Linux工作笔记057

由于在某些部署环境下,运维管理员,仅仅是给分配一些硬盘容量,但是并没有进行分区和挂载到对应的合适的目录下,因此这个时候就需要我们自己去处理了. 这个是自己亲测成功的:由于是后面记录的,尽量记录详细 free -h 查看一下内存情况 df -h查看 硬盘的使用情况,还有是否有没挂载…

【博客692】grafana如何解决step动态变化时可能出现range duration小于step

grafana如何解决step动态变化时可能出现range duration小于step 1、grafana中的step和resolution grafana中的 “step” grafana本身是没有提供step参数的,因为仪表盘根据查询数据区间以及仪表盘线条宽度等,对于不同查询,相同的step并不能…

实例 -- Loadrunner实现Android / IOS 手机APP压力测试

随着手机APP用户量的增大,大的手机APP一般都需要进行压力测试,这几天用了Loadrunner 12进行了手机APP的压力测试,整理了下,大家可以参考参考怎样给Andorid / IOS手机APP进行压力测试,以下是操作实例。 先前我的一个帖…

Spring MVC 简介

目录 1. 什么是MVC2. 什么是SpringMVC 1. 什么是MVC MVC是一种常用的软件架构模式。可以看作是一种设计模式,也可以看作是一种软件框架。经典MVC模式中,M是指模型,V是视图,C则是控制器,使用MVC的目的是将M和V的实现代…

mysql8和mysql5的安装过程都有!!!超多图超详细保姆级教程最新教程新手小白轻松上手,带你了解清楚你安装过程的每一个术语

目录 前言mysql5和mysql8的区别1.官网下载2.mysql8的安装2.1安装程序打开前2.2Choosing a Setup Type选择安装模式2.3Select Products选择组件2.3.1Select Products的组件解释2.3.2Select Products的组件选择2.3.3电脑操作系统位数查看2.3.4Select Products的组件的内容配置2.3…

Stable Diffuion webui Mac版本安装过程

系统环境 操作系统:MacOS Ventura13.5 芯片:Apple M2 Max Python: 3.10 安装前置准备 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git注意事项:修改源码内全部 git clone 链接,设置代理 https://ghpr…