【大数据之Hadoop】二、Hadoop生产集群搭建之完全分布式集群

在这里插入图片描述

1 运行准备

(1)准备3台客户机(关闭防火墙、设置静态IP和主机名称)
(2)安装JDK,配置环境变量
(3)安装Hadoop,配置环境变量
(4)配置集群
(5)单点启动
(6)配置ssh
(7)群起并测试集群

2 编写集群分发脚本xsync

集群分发脚本
在/home/atguigu/bin目录下创建xsync文件

#!/bin/bash

#1. 判断参数个数
if [$# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
forhost in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host ====================
    #3. 遍历所有目录,挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file);pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p$pdir"
                rsync -av $pdir/$fname$host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

赋予脚本权限:chmod 777 xsync
测试脚本:xsync /home/atguigu/bin
将脚本复制到/bin中,供全局使用:sudo cp xsync /bin/
前提,先给hadoop102配置jdk和hadoop,再通过集群分发拷贝到hadoop103和hadoop104上。
在这里插入图片描述
分发文件时用了sudo需要补全脚本路径:sudo 脚本路径 文件路径。

[liao@hadoop102~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

3 ssh免密登录

在这里插入图片描述
(1)服务器A生成公钥私钥。
(2)服务器A把公钥拷贝到服务器B上,即两个服务器达成协议表示可访问。
(3)A用ssh访问B(访问数据用A的私钥加密)。
(4)B接收到数据之后到授权的key中找是否有A发送过来的公钥,若有则解密。
(5)B将解密后的数据用A公钥加密返回给A。(公钥A加密的数据只有A可以看,保证数据的可靠性)。
(6)A接收到数据之后用A私钥来解加密的数据。此后正常通信。

可以理解为把公钥发给谁,就和谁免密通信。

生成公钥和私钥:ssh-keygen -t rsa,然后三个回车,生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)。

将公钥拷贝到要免密登录的目标机器上:ssh-copy-id hadoop103,需要在hadoop103上采用liaoyanxia账号配置免密登录到hadoop102和hadoop103;还需要在hadoop102上采用liaoyanxia账号配置免密登录到hadoop102和hadoop103。

4 分布式集群配置

因为NameNode和SecondaryNameNode耗内存,所以分别配置在不同的节点上;同样ResourceManager也很耗内存,所以也不和NameNode和SecondaryNameNode配置在同一个节点。
在这里插入图片描述
(1)分布式集群配置:

core-site.xml核心配置文件
<configuration>
   <!-- 指定NameNode的地址 -->
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://hadoop102:8020</value>
   </property>

   <!-- 指定hadoop数据的存储目录 -->
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/module/hadoop-3.3.1/data</value>
   </property>

   <!-- 配置HDFS网页登录使用的静态用户为atguigu -->
   <property>
       <name>hadoop.http.staticuser.user</name>
       <value>atguigu</value>
   </property>
</configuration>
hdfs-site.xml HDFS配置文件
<configuration>
   <!-- nn web端访问地址-->
   <property>
       <name>dfs.namenode.http-address</name>
       <value>hadoop102:9870</value>
   </property>
   <!-- 2nn web端访问地址-->
   <property>
       <name>dfs.namenode.secondary.http-address</name>
       <value>hadoop104:9868</value>
   </property>
</configuration>
yarn-site.xml YARN配置文件
<configuration>
    <!-- 指定MR走shuffle -->
    <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
    </property>
    <!-- 指定ResourceManager的地址-->
    <property>
       <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>
    <!-- 环境变量的继承-->
    <property>
       <name>yarn.nodemanager.env-whitelist</name>
       <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>    
    <!-- 开启日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!-- 设置日志聚集服务器地址 -->
    <property>  
        <name>yarn.log.server.url</name>  
        <value>http://hadoop102:19888/jobhistory/logs</value>
    </property>
    <!-- 设置日志保留时间为7-->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>
mapred-site.xml MapReduce配置文件
<configuration>
   <!--指定MapReduce程序运行在Yarn上-->
   <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
   </property>
   <!-- 历史服务器端地址-->
    <property>
       <name>mapreduce.jobhistory.address</name>
       <value>hadoop102:10020</value>
    </property>
    <!-- 历史服务器web端地址-->
    <property>
       <name>mapreduce.jobhistory.webapp.address</name>
       <value>hadoop102:19888</value>
    </property>
</configuration>

集群上分发配置好的Hadoop配置文件。

xsync /opt/module/hadoop-3.3.1/etc/hadoop/

(2)群起集群
配置workers:vim /opt/module/hadoop-3.3.1/etc/hadoop/workers 文件中添加的内容结尾不允许有空格,文件中不允许有空行。

hadoop102
hadoop103
hadoop104

同步配置文件:xsync /opt/module/hadoop-3.3.1/etc

(3)启动集群
第一次启动集群,需要在hadoop102节点格式化NameNode:hdfs namenode -format
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据(因为DataNode版本号是唯一绑定的)。如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。

在hadoop102节点启动hdfs:sbin/start-dfs.sh 浏览器中查看NameNode:http://hadoop102:9870

在hadoop103节点启动yarn:sbin/start-yarn.sh 浏览器中查看ResourceManager:http://hadoop103:8088 查看job信息

在hadoop102节点启动历史服务器:mapred --daemon start historyserver 在浏览器中查看JobHistory:http://hadoop102:19888/jobhistory

(4)集群测试
在hdfs文件管理系统中新建文件夹:hadoop fs -mkdir /input
从本地上传文件到hdfs文件管理系统:hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
运行wordcount程序:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar wordcount /input /output

(5)集群启动和停止方式

分别启动/停止HDFS组件:hdfs --daemon start/stop namenode/datanode/secondarynamenode
分别启动/停止YARN:yarn --daemon start/stop resourcemanager/nodemanager
整体启动/停止HDFS:start-dfs.sh/stop-dfs.sh
整体启动/停止YARN:start-yarn.sh/stop-yarn.sh

(6)常用脚本
/home/atguigu/bin中新建myhadoop.sh

#!/bin/bash

if [ $# -lt 1 ]
then
   echo "No Args Input..."
   exit ;
fi

case $1 in
"start")
       echo " =================== 启动 hadoop集群==================="

       echo " --------------- 启动 hdfs---------------"
       ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
       echo " --------------- 启动 yarn---------------"
       ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
       echo " --------------- 启动 historyserver---------------"
       ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon starthistoryserver"
;;
"stop")
       echo " =================== 关闭 hadoop集群==================="

       echo " --------------- 关闭 historyserver---------------"
       ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stophistoryserver"
       echo " --------------- 关闭 yarn---------------"
       ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
       echo " --------------- 关闭 hdfs---------------"
       ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
   echo "Input Args Error..."
;;
esac

赋予权限:chmod 777 myhadoop.sh
/home/atguigu/bin中新建jpsall

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
       echo =============== $host ===============
       ssh $host jps 
done

赋予权限:chmod 777 jpsall
分发目录到三台机器上:xsync /home/atguigu/bin/
启动集群:myhadoop.sh start
关闭集群:myhadoop.sh stop
查看jps:jpsall

5 集群时间同步

生产环境中,如果服务器能连接外网则不需要时间同步,因为服务器会定期和公网时间进行校准。
在这里插入图片描述
如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。
在这里插入图片描述

6 开发和面试的重点

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/5019.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenGL | 渲染带透明通道的2D精灵

一、Alpha测试 Alpha 测试的基本原理为&#xff1a;当绘制一个片元时&#xff0c;首先检测其 Alpha 值&#xff0c;若 Alpha 值满足要求&#xff0c;就通过测试&#xff0c;绘制此片元&#xff1b;否则丢弃此片元&#xff0c;不进行绘制。 glEnable(GL_ALPHA_TEST)&#xff1b…

基于springboot实现私人健身与教练预约管理系统【源码+论文】

基于springboot实现私人健身与教练预约管理系统演示开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea M…

举一反三学python(2)—函数应用

Con_Info ["王伟(男),河南郑州, 137****8331","杨秀娟(女),陕西西安, 138****4117","刘子豪(男),河北廊坊, 136****2964","李发魁(男),河南洛阳, 139***3297","王小花(女),山西太原, 138****0042",] 要求对上述文本数据解析…

main主函数参数解析

默认的main函数参数 int main(int argc, char *argv[]) {// 主函数的代码逻辑return 0; }其中&#xff0c;int 是主函数的返回值类型&#xff0c;主函数执行完后会返回一个整数值给操作系统&#xff0c;通常返回值为 0 表示程序正常结束&#xff0c;非 0 的返回值表示程序运行…

【Spring6】资源操作:Resources

8、资源操作&#xff1a;Resources 8.1、Spring Resources概述 Java的标准java.net.URL类和各种URL前缀的标准处理程序无法满足所有对low-level资源的访问&#xff0c;比如&#xff1a;没有标准化的 URL 实现可用于访问需要从类路径或相对于 ServletContext 获取的资源。并且缺…

配置案例丨EtherCAT转Profinet网关连接凯福科技总线步进驱动器

西门子S7-1200/1500系列的PLC&#xff0c;采用PROFINET实时以太网通讯协议&#xff0c;需要连接带EtherCAT的通讯功能的伺服驱动器等设备&#xff0c;就必须进行通讯协议转换。小疆GW-PN-ECATM系列的网关提供了&#xff0c;快速可行的解决方案。GW-PN-ECATM支持两种实时以太网通…

关于SpringBoot项目的jar包使用命令执行无法读取到外部logback配置文件的问题解决

如题。 在SpringBoot配置了logback管理日志&#xff0c;application.yml配置的logback配置文件相关如下&#xff1a; logging:config: classpath:logback-spring.xml将项目打成jar包&#xff0c;在jar包同级目录下创建config文件夹&#xff0c;并复制了resources文件夹下的配置…

Ubuntu22.04部署Kubernetes集群(亲测可用)

本文将使用kubeadm在Ubuntu22.04上部署k8s集群&#xff0c;kubeadm 是官方社区推出的一个用于快速部署kubernetes 集群的工具&#xff0c;用于快速部署Kubernetes 集群。 虚拟机准备 下载ubuntu22.04镜像&#xff0c;使用vmware部署三台ubuntu22.04虚拟机并配置静态ip和主机名…

第一个Vue程序

第一个Vue程序 <body> <!--view层 变成了一个模板--> <div id"app">{{message}} </div><!--导入vue.js--> <script src"https://cdn.jsdelivr.net/npm/vue2.5.16/dist/vue.min.js"></script> <script>va…

蓝桥杯3月刷题集训-A 【枚举模拟】Day3

蓝桥杯3月刷题集训-A 【枚举&模拟】Day3 文章目录蓝桥杯3月刷题集训-A 【枚举&模拟】Day3一、扫雷二、含2天数一、扫雷 我们首先读取输入中的方格图&#xff0c;将其保存在一个二维数组 grid 中。然后&#xff0c;遍历方格图中的每一个方格&#xff0c;对于每个空白方格…

Java设计模式-观察者模式

1 概述 定义&#xff1a; 又被称为发布-订阅&#xff08;Publish/Subscribe&#xff09;模式&#xff0c;它定义了一种一对多的依赖关系&#xff0c;让多个观察者对象同时监听某一个主题对象。这个主题对象在状态变化时&#xff0c;会通知所有的观察者对象&#xff0c;使他们…

pandas基本应用记录

查询行数和列数 data.describe() 查询前3行数据 data.head(3) 打印第几行第几列 data.loc[index, cloumn_name ] 分组统计 不带行索引 data.groupby( column_1 )[ column_2 ].apply(sum) 去除含有NAN数据行/列 df df.dropna() # default: axis0, howany 意思是只要…

Python3,一次掌握这些数据可视化图表技能,老板不给涨薪都不好意思。

一次性掌握数据可视化图表1、引言2、代码示例2.1 等高线密度图2.1.1 安装2.1.2 示例2.2 旭日图2.3 分簇散点图2.4 点图2.5 小提琴图2.6 词云3、总结1、引言 小屌丝&#xff1a;鱼哥&#xff0c; 老板让我把数据整理成视图。 小鱼&#xff1a;那你就整啊。 小屌丝&#xff1a;我…

【人工智能】—约束传播、弧约束、问题结果与问题分解、局部搜索CSP

【人工智能】—约束传播、弧约束、问题结果与问题分解、局部搜索CSP约束传播弧约束弧相容算法AC-3问题结构化简约束图-树结构CSP问题的局部搜索CSP的迭代算法举例&#xff1a;4-Queens加速&#xff1a;模拟退火法加速&#xff1a;最小最大优化(约束加权法)小结约束传播 前向检…

【Docker学习笔记】8.Docker Compose

Docker Compose Compose 简介 Compose 是用于定义和运行多容器 Docker 应用程序的工具。通过 Compose&#xff0c;您可以使用 YML 文件来配置应用程序需要的所有服务。然后&#xff0c;使用一个命令&#xff0c;就可以从 YML 文件配置中创建并启动所有服务。 如果你还不了解 …

2023蓝牙耳机性价比推荐:高品质蓝牙耳机盘点分享

无论我们是看视频还是在路上听音乐&#xff0c;真无线蓝牙耳机可以丰富我们的一天。然而&#xff0c;问题是有太多的选择&#xff0c;许多人不知道哪一款的性价比高音质好&#xff0c;下面小编特意整理了一期性价比高音质好的蓝牙耳机。 1.南卡小音舱lite2蓝牙耳机 南卡小音舱…

composer 使用细则

一、composer install 和 composer update 的区别 1.composer.json 文件 指定了项目依赖组件的版本规则及镜像地址 如果没有配置镜像地址&#xff0c;则默认使用全局安装的composer镜像地址 2.composer.lock 文件 保存着当前项目所依赖的php组件的镜像地址及具体的版本号&…

2022(一等奖)D277:1998-2019年中国植被动态变化及其影响因素分析

作品介绍 1 应用背景 近半个世纪以来&#xff0c;随着全球气候变化和人类活动的双重干扰&#xff0c;自然生态系统遭到了不同程度的影响。植被作为陆地生态系统的重要组成部分&#xff0c;在陆地生态系统的物质循环和能量流动中发挥着不可替代的作用&#xff0c;是自然生态系统…

Vue自创插件发布到npm以及使用方法

Vue自创插件发布到npm以及使用方法 目标&#xff1a;创建my-popup-selector下拉框组件&#xff0c;并发布到npm&#xff0c;效果如下图&#xff1a; 禁用时样式&#xff1a; ①创建vue项目&#xff1a; my-popup-selector ②项目目录结构截图如下&#xff1a; ③在项目根目录…

JVM垃圾回收算法

垃圾标记阶段 对象存活判断&#xff1a;在堆里存放着几乎所有的Java对象实例&#xff0c;在GC执行垃圾回收之前&#xff0c;首先需要区分出内存中哪些是存活对象&#xff0c;哪些是已经死亡的对象。只有被标记为己经死亡的对象&#xff0c;GC才会在执行垃圾回收时&#xff0c;…