Flink 本地单机/Standalone集群/YARN模式集群搭建

准备工作

本文简述FlinkLinux中安装步骤,和示例程序的运行。需要安装JDK1.8及以上版本。

下载地址:下载Flink的二进制包

在这里插入图片描述
点进去后,选择如下链接:
在这里插入图片描述
解压flink-1.10.1-bin-scala_2.12.tgz,我这里解压到soft目录

[root@hadoop1 softpackage]# tar -zxvf flink-1.10.1-bin-scala_2.12.tgz -C ../soft/

单节点安装

解压后进入Flinkbin目录执行如下脚本即可

 [root@hadoop1 bin]# ./start-cluster.sh 
 Starting cluster.
 Starting standalonesession daemon on host hadoop1.
 Starting taskexecutor daemon on host hadoop1.

进入Flink页面看看,如果没有修改配置中的端口,默认是8081
在这里插入图片描述## 集群安装

集群安装分为以下几步:(注意:hadoopx都是我配置了/etc/hosts域名的)bin
【1】将hadoop1中解压的Flink分发到其他机器上,同时我也配置了免密登录SSH(也可以手动复制low)。

[root@hadoop1 soft]# xsync flink-1.10.1

执行完后,我们就可以在hadoop2hadoop3中看到flink
在这里插入图片描述
【2】选择hadoop1作为master节点,然后修改所有机器conf/flink-conf.yaml(修改hadoop1分发即可)jobmanager.rpc.address密钥以指向您的主节点。您还应该通过设置jobmanager.heap.size和taskmanager.memory.process.size键来定义允许Flink在每个节点上分配的最大主内存量。这些值以MB为单位。如果某些工作节点有更多的主内存要分配给Flink系统,则可以通过在这些特定节点上设置 taskmanager.memory.process.size或taskmanager.memory.flink.sizeconf / flink-conf.yaml中覆盖默认值。

jobmanager.rpc.address = master主机名

【3】修改masterconf/slaves提供集群中所有节点的列表,这些列表将用作工作节点。我的是hadoop2hadoop3。类似于HDFS配置,编辑文件conf / slaves并输入每个辅助节点的IP /主机名。每个工作节点稍后都将运行TaskManager

hadoop2
hadoop3

以上示例说明了具有三个节点(主机名hadoop1作为masterhadoop2hadoop3作为worker)的设置,并显示了配置文件的内容。Flink目录必须在同一路径下的每个工作线程上都可用。您可以使用共享的NFS(网络文件系统)目录,也可以将整个Flink目录复制到每个工作节点。特别是:
1、每个JobManager的可用内存量jobmanager.heap.size
2、每个TaskManager的可用内存量(taskmanager.memory.process.size并查看内存设置指南);
3、每台计算机可用的CPU数(taskmanager.numberOfTaskSlots);
4、集群中的CPU总数(parallelism.default);
5、临时目录(io.tmp.dirs);
【4】在master上启动集群(第一行)以及执行结果。下面的脚本在本地节点上启动JobManager,并通过SSH连接到slaves文件中列出的所有辅助节点,以在每个节点上启动TaskManager。现在,您的 Flink系统已启动并正在运行。现在,在本地节点上运行的JobManager将在配置的RPC端口上接受作业。要停止Flink,还有一个stop-cluster.sh脚本。

 [root@hadoop1 flink-1.10.1]# bin/start-cluster.sh 
 Starting cluster.
 Starting standalonesession daemon on host hadoop1.
 Starting taskexecutor daemon on host hadoop2.
 Starting taskexecutor daemon on host hadoop3.

【5】Flink界面展示 :进入8081端口,例如:http://hadoop1:8081/ 或者通过jps命令查看服务也可行。
在这里插入图片描述Standalone集群架构展示:client客户端提交任务给JobManagerJobManager负责Flink集群计算资源管理,并分发任务给TaskManager执行,TaskManager定期向JobManager汇报状态。
在这里插入图片描述

运行 flink示例程序

批处理示例:提交Flink的批处理examples程序:也可以在页面中进行提交,但是作为一名NB的程序员就使用命令

 [root@hadoop1 flink-1.10.1]# bin/flink run examples/batch/WordCount.jar

执行上面的命令后,就会显示如下信息,这是Flink提供的examples下的批处理例子程序,统计单词个数。

[root@hadoop1 flink-1.10.1]# bin/flink run examples/batch/WordCount.jar
Executing WordCount example with default input data set.
Use --input to specify file input.
Printing result to stdout. Use --output to specify output path.
Job has been submitted with JobID 99f4c579947a66884ec269ddf5f5b0ed
Program execution finished
Job with JobID 99f4c579947a66884ec269ddf5f5b0ed has finished.
Job Runtime: 795 ms
Accumulator Results:
- b70332353f355cf0464b0eba21f61075 (java.util.ArrayList) [170 elements]


(a,5)
(action,1)
(after,1)
(against,1)
(all,2)
(and,12)
(arms,1)
(arrows,1)
(awry,1)
(ay,1)
(bare,1)
(be,4)
(bear,3)
(bodkin,1)
(bourn,1)
(but,1)
(by,2)
(calamity,1)
(cast,1)
(coil,1)
(come,1)
(conscience,1)
(consummation,1)
(contumely,1)
(country,1)
(cowards,1)
(currents,1)
......

得到结果,这里统计的是默认的数据集,可以通过--input --output指定输入输出。我们可以在页面中查看运行的情况:
在这里插入图片描述流处理示例:启动nc服务器:

[root@hadoop1 flink-1.10.1]# nc -lk 9000

提交Flink的批处理examples程序:

[root@hadoop1 flink-1.10.1]# bin/flink run examples/streaming/SocketWindowWordCount.jar  --hostname hadoop1  --port 9000

这是Flink提供的examples下的流处理例子程序,接收socket数据传入,统计单词个数。在nc端随意写入单词

 [root@hadoop1 flink-1.10.1]# nc -lk 9000
 g
 s

进入slave节点(hadoop2hadoop3),进入Flink安装目录输入如下命令,查看实时数据变化

[root@hadoop2 flink-1.10.1]# tail -f log/flink-*-taskexecutor-*.out
s : 1
 : 2
w : 1
d : 1
g : 1
d : 1

停止Flink

[root@hadoop1 flink-1.10.1]# bin/stop-cluster.sh

Flinkweb中查看运行的job
在这里插入图片描述

将 JobManager / TaskManager 实例添加到集群(扩展)

您可以使用bin/jobmanager.shbin/taskmanager.sh脚本将JobManagerTaskManager实例添加到正在运行的集群中。添加JobManager(确保在要启动/停止相应实例的主机上调用这些脚本)

[root@hadoop1 flink-1.10.1]# bin/jobmanager.sh ((start|start-foreground) [host] [webui-port])|stop|stop-all

添加任务管理器

[root@hadoop1 flink-1.10.1]# bin/taskmanager.sh start|start-foreground|stop|stop-all

YARN模式

在企业中,经常需要将Flink集群部署到YARN,因为可以使用YARN来管理所有计算资源。而且Spark程序也可以部署到YARN上。CliFrontend是所有job的入口类,通过解析传递的参数(jar包,mainClass等),读取flink的环境,配置信息等,封装成PackagedProgram,最终通过ClusterClient提交给Flink集群。Flink运行在YARN上,提供了两种方式:
第一种使用yarn-session模式来快速提交作业到YARN集群。如下,在Yarn中初始化一个flink集群,开辟指定的资源,以后提交任务都向这里提交,这个flink集群会常驻在Yarn集群中,除非手动停止。共享DispatcherResourceManager,共享资源。有大量的小作业,适合使用这种方式;
在这里插入图片描述
YarnSessionClusterEntrypointFlinkYarn上的线程。ApplicationMasterJobManagerYarnTaskExecutorRunner负责接收subTask并运行,是TaskManager
【1】修改Hadoopetc/hadoop/yarn-site.xml,添加该配置表示内存超过分配值,是否将任务杀掉。默认为true。运行Flink程序,很容易超过分配的内存。

<property> 
    <name>yarn.nodemanager.vmem-check-enabled</name>    
    <value>false</value> 
</property> 

【2】 添加环境变量

//查看是否配置HADOOP_CONF_DIR,我这里没有配置输出为空
[root@hadoop1 hadoop-2.7.2]# echo $HADOOP_CONF_DIR

//在系统变量中添加 HADOOP_CONF_DIR
[root@hadoop1 hadoop-2.7.2]# vim /etc/profile
//添加如下内容,wq保存退出
export HADOOP_CONF_DIR=$HADOOP_HOME/conf/
//刷新 /etc/profile
[root@hadoop1 hadoop-2.7.2]# source /etc/profile

//重新查看是否配置HADOOP_CONF_DIR
[root@hadoop1 hadoop-2.7.2]# echo $HADOOP_CONF_DIR
/opt/module/hadoop-2.7.2/conf/

【3】启动HDFSYARN集群。通过jps查看启动状况。关闭flink的其他集群。

[root@hadoop1 hadoop-2.7.2]# sbin/start-all.sh
[root@hadoop2 hadoop-2.7.2]# jps
10642 NodeManager
11093 Jps
10838 ResourceManager
10535 DataNode
10168 TaskManagerRunner

【4】将官方指定Pre-bundled Hadoop 2.7.5包放到flinklib目录下。使用yarn-session模式提交作业
在这里插入图片描述
使用Flink中的yarn-sessionyarn客户端),会启动两个必要服务JobManagerTaskManagers
客户端通过yarn-session提交作业;
yarn-session会一直启动,不停地接收客户端提交的作用。

-n 表示申请2个容器
-s 表示每个容器启动多少个slot
-tm 表示每个TaskManager申请800M内存
-nm yarn 的 appName,
-d detached表示以后台程序方式运行

如下表示启动一个yarn session集群,每个JM1GTM的内存是1G

[root@hadoop1 flink-1.10.1]# bin/yarn-session.sh -n 2 -jm 1024m -tm 1024m -d

客户端默认是attach模式,不会退出 。可以ctrl+c退出,然后再通过如下命令连上来。或者启动的时候用-d则为detached模式

./bin/yarn-session.sh -id application_1594027553009_0001(这个id来自下面hadoop集群)

在这里插入图片描述Yarn上显示为Flink session cluster,一致处于运行状态。
在这里插入图片描述点击ApplicationMaster就会进入Flink集群
在这里插入图片描述启动命令行中也会显示如下的JobManager启动的Web界面

JobManager Web Interface: http://hadoop1:34431

在这里插入图片描述

然后我们可以通过jps来看下当前的进程,其中YarnSessionClusterEntrypoint就是我们Yarn Session的分布式集群。

[root@hadoop1 flink-1.10.1]# jps
69923 NodeManager
81267 Jps
69394 NameNode
69531 DataNode
80571 FlinkYarnSessionCli
80765 YarnSessionClusterEntrypoint

/tmp下生成了一个文件

Flink应用部署到Flink On Yarn 之 session方式中。

[root@hadoop1 flink-1.10.1]# bin/flink run -d examples/streaming/WordCount.jar 

在这里插入图片描述
查看运行结果:
在这里插入图片描述
Flink On Yarnsession部署方式集群停止:关闭Yarn就会关闭Flink集群。。。

第二种模式:使用Per-JOBYarn分离模式(与当前客户端无关,当客户端提交完任务就结束,不用等到Flink应用执行完毕)提交作业:每次提交都会创建一个新的flink集群,任务之间相互独立,互不影响,方便管理。任务执行完成之后创建的集群也会消失。 直接提交任务给YARN,独享DispatcherResourceManager。按需要申请资源。适合执行时间较长的大作业。
在这里插入图片描述
AM启动类是YarnJobClusterEntrypointYarnTaskExecutorRunner负责接收subTask,就是TaskManager。需要打开hadoopyarn分布式集群。不需要启动flink分布式集群,它会自动启动flink分布式集群。

[root@hadoop1 flink-1.10.1]# bin/flink run -m yarn-cluster -d ./examples/streaming/WordCount.jar
2020-07-13 03:21:50,479 WARN  org.apache.flink.yarn.cli.FlinkYarnSessionCli                 - The configuration directory ('/usr/local/soft/flink-1.10.1/conf') already contains a LOG4J config file.If you want to use logback, then please delete or rename the log configuration file.
2020-07-13 03:21:50,479 WARN  org.apache.flink.yarn.cli.FlinkYarnSessionCli                 - The configuration directory ('/usr/local/soft/flink-1.10.1/conf') already contains a LOG4J config file.If you want to use logback, then please delete or rename the log configuration file.
Executing WordCount example with default input data set.
Use --input to specify file input.
Printing result to stdout. Use --output to specify output path.
2020-07-13 03:21:50,707 INFO  org.apache.hadoop.yarn.client.RMProxy                         - Connecting to ResourceManager at hadoop2/192.168.52.129:8032
2020-07-13 03:21:50,791 INFO  org.apache.flink.yarn.YarnClusterDescriptor                   - No path for the flink jar passed. Using the location of class org.apache.flink.yarn.YarnClusterDescriptor to locate the jar
2020-07-13 03:21:50,928 WARN  org.apache.flink.yarn.YarnClusterDescriptor                   - Neither the HADOOP_CONF_DIR nor the YARN_CONF_DIR environment variable is set. The Flink YARN Client needs one of these to be set to properly load the Hadoop configuration for accessing YARN.
2020-07-13 03:21:51,001 INFO  org.apache.flink.yarn.YarnClusterDescriptor                   - Cluster specification: ClusterSpecification{masterMemoryMB=1024, taskManagerMemoryMB=1728, slotsPerTaskManager=1}
2020-07-13 03:21:53,906 INFO  org.apache.flink.yarn.YarnClusterDescriptor

-ynyarncontainer表示TaskManager的个数;
-yquyarnqueue指定yarn的队列;
-ysyarnslots每一个TaskManager对应的slot个数;

上传成功之后,我们可以在Hadoop的图形化界面:http://hadoop2:8088/cluster/apps 中看到当前任务的信息;
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/232586.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

UniGui禁用缓存

今天有人问到如何禁用缓存&#xff0c;原因是引用了第三方js,css等文件&#xff0c;但是因为缓存的原因&#xff0c;修改后没有及时生效。 首先纠正一点&#xff0c;地址后加?不会禁用缓存 可以看到&#xff0c;后面即使加了&#xff1f;但仍然是from memory cache。对于浏览…

管理类联考——数学——真题篇——按知识分类——数据

文章目录 排列组合2023真题&#xff08;2023-05&#xff09;-数据分析-排列组合-组合-C运算-至少-需反面思考真题&#xff08;2023-08&#xff09;-数据分析-排列组合-相邻不相邻-捆绑法插空法-插空法注意空位比座位多1个&#xff0c;是用A&#xff1b;捆绑法内部排序用A&#…

ubuntu 20.04.6 server 服务器 下载与安装(配置静态IP)

下载地址&#xff1a;https://releases.ubuntu.com/20.04.6/ubuntu-20.04.6-live-server-amd64.iso 第一步&#xff1a; 准备U盘&#xff0c;使用软碟通将下载好的镜像写入到U盘中 软碟通网址&#xff1a;https://www.cn.ultraiso.net/xiazai.html 点击&#xff1a;文件 ->…

iOS——UIPickerView选择器

UIPickerView UIPickerView是 iOS 开发中常用的用户界面组件之一&#xff0c;用于在垂直方向上显示一个滚动的列表&#xff0c;用户可以通过滚动选择其中的一项。 UIPickerView的协议方法 UIPickerView和UItableView差不多&#xff0c;UIPickerView也要设置代理和数据源。UI…

JAVA+SSM+springboot+MYSQL企业物资库存进销存管理系统

。该系统从两个对象&#xff1a;由管理员和员工来对系统进行设计构建。主要功能包括首页、个人中心、员工管理、项目信息管理、仓库信息管理、供应商管理、项目计划管理、物资库存管理、到货登记管理、物资出库管理、物资入库管理等功能进行管理。本企业物资管理系统方便员工快…

Jenkins简单介绍

学习目标 知道jenkins应用场景能够安装部署jenkins服务器能够实现gitgithubjenkins手动构建能够实现gitgitlabjenkins自动发布系统 认识jenkins Jenkins是一个可扩展的持续集成引擎&#xff0c;是一个开源软件项目&#xff0c;旨在提供一个开放易用的软件平台&#xff0c;使软…

【SpringBoot】请求参数

1. BS 架构 BS架构&#xff1a;Browser/Server&#xff0c;浏览器/服务器架构模式。客户端只需要浏览器&#xff0c;应用程序的逻辑和数据都存储在服务端。 在SpringBoot进行web程序开发时&#xff0c;它内置了一个核心的Servlet程序 DispatcherServlet&#xff0c;称之为 核…

ARP欺骗攻击

一.大概原理 ARP&#xff1a;address solution protocol 地址解析协议 ARP是一种基于局域网的TCP/IP协议&#xff0c;arp欺骗就是基于此协议的漏洞来达成我们的目的的&#xff0c;局域网中的数据传输并不是用ip地址传输的&#xff0c;而是靠mac地址。 我们如果出于某种目的想…

HTML中表格的语法及使用(详解)

Hi i,m JinXiang ⭐ 前言 ⭐ 本篇文章主要介绍HTML中表格的语法及详细使用以及部分理论知识 &#x1f349;欢迎点赞 &#x1f44d; 收藏 ⭐留言评论 &#x1f4dd;私信必回哟&#x1f601; &#x1f349;博主收将持续更新学习记录获&#xff0c;友友们有任何问题可以在评论区留…

学校安全检查系统

校园面积大、安全盲区多对学校安全管理带来诸多挑战&#xff1b;传统依靠人工纸质巡检记录存在漏检、管理难、联动差等诸多问题和缺点&#xff0c;巡检过程中很容易遗漏安全隐患的存续&#xff0c;从而导致安全事故的发生。 通过凡尔码平台模块化搭建学校安全管理系统&#xf…

黑豹程序员-EasyExcel实现导出

需求 将业务数据导出到excel中&#xff0c;老牌的可以选择POI&#xff0c;也有个新的选择EasyExcel。 有个小坑&#xff0c;客户要求样式比较美观&#xff0c;数字列要求千位符&#xff0c;保留2位小数。 可以用代码实现但非常繁琐&#xff0c;用模板就特别方便&#xff0c;模…

什么是RabbitMQ

目录 ​编辑 一、引言 二、概念和特性&#xff1a; 1、消息代理&#xff1a; 2、队列&#xff1a; 3、发布/订阅模型&#xff1a; 4、路由和交换机&#xff1a; 5、持久性&#xff1a; 6、灵活的消息模式&#xff1a; 7、可扩展性&#xff1a; 我的其他博客 一、引言…

湖科大计网:计算机网络概述

一、计算机网络的性能指标 一、速率 有时候数据量也认为是以10为底的&#xff0c;看怎么好算。&#xff08;具体吉大考试用什么待商榷&#xff09; 二、带宽 在模拟信号系统中带宽的含义&#xff0c;本课程中用到的地方是&#xff1a;香农定理和奈奎斯特定理公式的应用之中。 …

OCRmyPDF让你能搜索扫描版PDF文档

什么是 OCRmyPDF &#xff1f; PDF 是存储和交换扫描文档的最佳格式。不幸的是&#xff0c;PDF 可能很难修改。OCRmyPDF 是一个 Python 应用程序和库&#xff0c;可以轻松地将图像处理和 OCR&#xff08;可识别、可搜索的文本&#xff09;应用于现有 PDF&#xff0c;通过向扫描…

持续集成交付CICD:使用Jenkins插件上传Nexus制品

目录 一、实验 1.使用Jenkins插件上传Nexus制品 一、实验 1.使用Jenkins插件上传Nexus制品 &#xff08;1&#xff09;Jenkins安装插件Nexus Artifact Uploader &#xff08;2&#xff09;添加凭据 &#xff08;3&#xff09;使用片段生成器生成DSL &#xff08;4&#xf…

【计算机网络】IP协议

目录 引言 1、数据包格式&#xff1a; IP数据包格式&#xff1a; 2、IP地址&#xff1a; IP地址的组成&#xff1a; IP地址的分配&#xff1a; IP地址的重要性&#xff1a; 3、路由&#xff1a; 1. 基本概念&#xff1a; 2. 路由的过程&#xff1a; 3. 路由的重要性&…

线上盲盒小程序,开启互联网盲盒时代

近年来&#xff0c;盲盒经济在国内非常火爆&#xff0c;各类盲盒品牌层出不穷&#xff0c;深受国内外年轻人、消费者的喜爱。 目前&#xff0c;根据数据显示&#xff0c;盲盒市场不仅在线下异常火热&#xff0c;线上盲盒也是成为了大众的新选择。各类电商平台中盲盒的成交额更…

红队攻防实战之ThinkPHP-RCE集锦

你若不勇敢&#xff0c;谁又可以替你坚强&#xff1f; ThinkPHP 2.x RCE漏洞 1、查询phpinfo() 2、任意代码执行 3、Getshell 蚁剑连接&#xff1a; ThinkPHP5 5.0.23 RCE漏洞 发送数据包&#xff1a; 成功执行id命令&#xff1a; 工具验证 ThinkPHP5 SQL注入漏洞 &&am…

高德地图加载三维模型vue(.obj转.gltf)

官方glTF模型案例 obj2gltf 的开发文档 第一步&#xff1a;这里首先要将我们的.obj文件转换为.gltf文件 全局安装 npm install -g obj2gltf终端打开.obj文件所在的文件夹执行 obj2gltf -i model.obj -o model.gltf -t &#xff08;-i model.obj对应你的obj文件的名字&#x…

架构LAMP

目录 1.什么是LAMP 2.LAMP组成及作用 3.搭建Apache httpd服务 4.编译安装mysqld 服务 5.编译安装PHP 解析环境 6.安装论坛 1.什么是LAMP LAMP架构是目前成熟的企业网站应用模式之一&#xff0c;指的是协同工作的一整套系统和相关软件&#xff0c;能够提供动态Web站点服务…