Hadoop-入门

资料来源:尚硅谷-Hadoop

一、Hadoop 概述

1.1 Hadoop 是什么

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2)主要解决:海量数据的存储和海量数据的分析计算问题。

3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

1.2 Hadoop 发展历史

1)Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,在Lucene框架基础上进行优化升级查询引擎和索引引擎。

2)2001年年底Lucene成为Apache基金会的一个子项目。

3)对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢。

4)学习和模仿Google解决这些问题的办法 :微型版Nutch。

5)可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

  • GFS --->HDFS
  • Map-Reduce --->MR
  • BigTable --->HBase

6)2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。

7)2005 年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

8)2006 年 3 月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入到 Hadoop 项目中,Hadoop就此正式诞生,标志着大数据时代来临。

9)名字来源于Doug Cutting儿子的玩具大象Hadoop的logo

1.3 Hadoop 三大发行版本

Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。

  • Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
  • Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008
  • Hortonworks 文档较好,对应产品 HDP。2011

Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。

Apache Hadoop

官网地址:Apache Hadoop

下载地址:Apache Hadoop

1.4 Hadoop 优势(4 高)

优势:

  • 高可靠性
  • 高扩展性
  • 高效性
  • 高容错性

1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4)高容错性:能够自动将失败的任务重新分配。

1.5 Hadoop 组成

Hadoop1.x、2.x、3.x区别

在Hadoop1.x时代 ,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。

在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。

Hadoop3.x在组成上没有变化。

1.5.1 HDFS架构概述

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。

HDFS架构概述

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

1.5.2 YARN 架构概述

Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是Hadoop的资源管理器

YARN架构概述

1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大

2)NodeManager(NM):单个节点服务器资源老大

3)ApplicationMaster(AM):单个任务运行的老大

4)Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。

说明1:客户端可以有多个

说明2:集群上可以运行多个ApplicationMaster

说明3:每个NodeManager上可以有多个Container

1.5.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段:Map 和 Reduce

1)Map 阶段并行处理输入数据

2)Reduce 阶段对Map结果进行汇总

1.5.4 HDFS、YARN、MapReduce 三者关系

1.6 大数据技术生态体系

图中涉及的技术名词解释如下:

1)Sqoop:Sqoop 是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的 HDFS中,也可以将 HDFS 的数据导进到关系型数据库中。

2)Flume:Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 支持在日志系统中定制各类数据发送方,用于收集数据;

3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统;

4)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5)Flink:Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6)Oozie:Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。

7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

1.7 推荐系统框架图

二、Hadoop 运行环境搭建

2.1 模板虚拟机环境准备

0)安装模板虚拟机,IP 地址 192.168.10.100、主机名称 hadoop100、内存 4G、硬盘 50G

配置IP:

(1)修改克隆虚拟机的静态 IP

[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfgens33

DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"

IPADDR=192.168.10.100
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2

(2)查看 Linux 虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8

(3)查看 Windows 系统适配器 VMware Network Adapter VMnet8 的 IP 地址

(4)保证 Linux 系统 ifcfg-ens33 文件中 IP 地址、虚拟网络编辑器地址和 Windows 系统VM8网络IP地址相同。

修改主机名:

1、修改主机名称

vim /etc/hostname

hadoop100

2、配置 Linux 克隆机主机名称映射 hosts 文件

打开/etc/hosts,添加如下内容

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

修改 windows 的主机映射文件(hosts 文件)

C:\Windows\System32\drivers\etc 路径 hosts 文件

1)hadoop100 虚拟机配置要求如下

  1. 使用 yum 安装需要虚拟机可以正常上网,yum 安装前可以先测试下虚拟机联网情况
  2. 安装 epel-release
  3. 注意:如果 Linux 安装的是最小系统版,还需要安装 net-tool、vim
 yum install -y epel-release
 yum install -y net-tools
 yum install -y vim

2)关闭防火墙,关闭防火墙开机自启

systemctl stop firewalld
systemctl disable firewalld.service

注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙

3)创建用户,并修改用户的密码

[root@hadoop100 ~]# useradd xiang
[root@hadoop100 ~]# passwd xiang

4)配置用户具有root权限,方便后期加sudo执行root权限的命令

修改/etc/sudoers 文件,在%wheel 这行下面添加一行,如下所示:

xiang ALL=(ALL) NOPASSWD:ALL

5)在/opt 目录下创建文件夹,并修改所属主和所属组

  1. 在/opt 目录下创建 module、software 文件夹
  2. 修改 module、software 文件夹的所有者和所属组均为使用用户
[root@hadoop100 ~]# chown xiang:xiang /opt/module
[root@hadoop100 ~]# chown xiang:xiang /opt/software

6)卸载虚拟机自带的 JDK

注意:如果你的虚拟机是最小化安装不需要执行这一步。

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e--nodeps
  • rpm -qa:查询所安装的所有 rpm 软件包
  • grep -i:忽略大小写
  • xargs -n1:表示每次只传递一个参数
  • rpm -e –nodeps:强制卸载软件

7)重启虚拟机

2.2 克隆虚拟机

1)利用模板机 hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104

注意:克隆时,要先关闭 hadoop100

2)修改克隆机IP

3)修改克隆机主机名

4)重启克隆机

2.3 在 hadoop102 安装JDK

1)卸载现有JDK。注意:安装 JDK 前,一定确保提前删除了虚拟机自带的 JDK

2)用 XShell 传输工具将 JDK 导入到 opt 目录下面的 software 文件夹下面

3)在 Linux 系统下的 opt 目录中查看软件包是否导入成功

4)解压 JDK 到/opt/module 目录下

5)配置 JDK 环境变量

1、新建/etc/profile.d/my_env.sh 文件

# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_401
PATH=$PATH:$JAVA_HOME/bin

2、保存后退出

3、source /etc/profile,让新的环境变量PAT 生效

4、检查JDK是否安装成功

2.4 在 hadoop102 安装 Hadoop

Hadoop 下载地址:Index of /dist/hadoop/common

1)用 XShell 文件传输工具将 hadoop-3.1.3.tar.gz 导入到 opt 目录下面的 software 文件夹下面

2)进入到 Hadoop 安装包路径下

3)解压安装文件到/opt/module 下面

4)查看是否解压成功

5)将 Hadoop 添加到环境变量

1、打开/etc/profile.d/my_env.sh 文件,在 my_env.sh 文件末尾添加如下内容:

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.3.6
PATH=$PATH:$HADOOP_HOME/bin
PATH=$PATH:$HADOOP_HOME/sbin

2、保存并退出

3、让修改后的文件生效 source /etc/profile

4、测试是否安装成功

2.5 Hadoop 目录结构

1)查看 Hadoop 目录结构

drwxr-xr-x. 2 xiang xiang   203 6月  18 2023 bin
drwxr-xr-x. 3 xiang xiang    20 6月  18 2023 etc
drwxr-xr-x. 2 xiang xiang   106 6月  18 2023 include
drwxr-xr-x. 3 xiang xiang    20 6月  18 2023 lib
drwxr-xr-x. 4 xiang xiang   288 6月  18 2023 libexec
-rw-rw-r--. 1 xiang xiang 24276 6月  14 2023 LICENSE-binary
drwxr-xr-x. 2 xiang xiang  4096 6月  18 2023 licenses-binary
-rw-rw-r--. 1 xiang xiang 15217 6月  10 2023 LICENSE.txt
-rw-rw-r--. 1 xiang xiang 29473 6月  10 2023 NOTICE-binary
-rw-rw-r--. 1 xiang xiang  1541 6月  10 2023 NOTICE.txt
-rw-rw-r--. 1 xiang xiang   175 6月  10 2023 README.txt
drwxr-xr-x. 3 xiang xiang  4096 6月  18 2023 sbin
drwxr-xr-x. 4 xiang xiang    31 6月  18 2023 share

2)重要目录

  • bin 目录:存放对 Hadoop 相关服务(hdfs,yarn,mapred)进行操作的脚本
  • etc 目录:Hadoop 的配置文件目录,存放 Hadoop 的配置文件
  • lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能)
  • sbin 目录:存放启动或停止 Hadoop 相关服务的脚本
  • share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例

三、Hadoop运行模式

1)Hadoop官方网站:http://hadoop.apache.org/

2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。

  • 本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。
  • 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。可用来测试,生产环境不用。
  • 完全分布式模式:多台服务器组成分布式环境。生产环境使用。

3.1 本地运行模式(官方 WordCount)

1)在hadoop文件下面创建一个 wcinput 文件夹

2)在 wcinput 文件下创建一个 word.txt 文件

3)编辑 word.txt 文件

hadoop yarn
hadoop mapreduce
atguigu
atguigu

4)回到 Hadoop 目录

5)执行程序

 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount wcinput wcoutput

6)查看结果

3.2 完全分布式运行模式(开发重点)

分析:

1)准备 3 台客户机(关闭防火墙、静态 IP、主机名称)

2)安装 JDK

3)配置环境变量

4)安装 Hadoop

5)配置环境变量

6)配置集群

7)单点启动

8)配置 ssh

9)启动集群并测试集群

3.2.1 虚拟机准备

详见 2.1、2.2 两节。

3.2.2 编写集群分发脚本 xsync

1)scp(secure copy)安全拷贝

(1)scp 定义

scp 可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)

(2)基本语法

scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称

2)rsync 远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更新。scp 是把所有文件都复制过去。

(1)基本语法

rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
  • -a 归档拷贝
  • -v 显示复制过程

3)xsync 集群分发脚本

需求:循环复制文件到所有节点的相同目录下

脚本实现:

(a)在/home/xiang/bin 目录下创建 xsync 文件

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ==================== $host ====================
    #3. 遍历所有目录,挨个发送
    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
        then
            #5. 获取父目录
            pdir=$(cd -P $(dirname $file); pwd)
            #6. 获取当前文件的名称
            fname=$(basename $file)
            ssh $host "mkdir -p $pdir"
            rsync -av $pdir/$fname $host:$pdir
        else
            echo $file does not exists!    
        fi
    done
done

3.2.3 SSH 无密登录配置

1) ssh基本语法

ssh 另一台电脑的IP地址

2)无密钥配置

(1)免密登录原理

(2)生成公钥和私钥

[xiang@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲(三个回车),就会生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)

(3)将公钥拷贝到要免密登录的目标机器上

[xiang@hadoop102 .ssh]$ ssh-copy-id hadoop102
[xiang@hadoop102 .ssh]$ ssh-copy-id hadoop103
[xiang@hadoop102 .ssh]$ ssh-copy-id hadoop104

注意:

还需要在 hadoop103、hadoop104上采用 atguigu 账号配置一下无密登录到 hadoop102、hadoop103、hadoop104 服务器上。

还需要在 hadoop102 上采用 root 账号,配置一下无密登录到 hadoop102、hadoop103、hadoop104;

3).ssh文件功能解释

  • known_hosts 记录 ssh 访问过计算机的公钥(public key)
  • id_rsa 生成的私钥
  • id_rsa.pub 生成的公钥
  • authorized_keys 存放授权过的无密登录服务器公钥

3.2.4 集群配置

1)集群部署规划

注意:

  • NameNode 和 SecondaryNameNode 不要安装在同一台服务器
  • ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

2)配置文件说明

Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

(1)默认配置文件:

(2)自定义配置文件:

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop 这个路径上,用户可以根据项目需求重新进行修改配置。

3)配置集群

(1)核心配置文件

配置 core-site.xm

<configuration>
    <!-- 指定 NameNode 的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>
    <!-- 指定 hadoop 数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.3.6/data</value>
    </property>
    <!-- 配置 HDFS 网页登录使用的静态用户 -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>xiang</value>
    </property>
</configuration>

(2)HDFS 配置文件

配置 hdfs-site.xml

<configuration>
    <!-- nn web 端访问地址-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
    <!-- 2nn web 端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

(3)YARN 配置文件

配置 yarn-site.xml

<configuration>

    <!-- Site specific YARN configuration properties -->
    <!-- 指定 MR 走 shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- 指定 ResourceManager 的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>
    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

(4)MapReduce 配置文件

配置 mapred-site.xml

<configuration>
    <!-- 指定 MapReduce 程序运行在 Yarn 上 -->
     <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
     </property>

</configuration>

4)在集群上分发配置好的 Hadoop 配置文件

xsync /opt/module/hadoop-3.3.6/etc/hadoop/

3.2.5 启动集群

1)配置 workers

vim /opt/module/hadoop-3.3.6/etc/hadoop/workers

hadoop102
hadoop103
hadoop104

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

同步所有节点配置文件:

xsync /opt/module/hadoop-3.3.6/etc

2)启动集群

(1)如果集群是第一次启动,需要在 hadoop102 节点格式化 NameNode

(注意:格式化 NameNode,会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化。)

[xiang@hadoop102 hadoop-3.3.6]$ hdfs namenode -format

(2)启动 HDFS

[xiang@hadoop102 hadoop-3.3.6]$ sbin/start-dfs.sh

(3)在配置了 ResourceManager 的节点(hadoop103)启动 YARN

[xiang@hadoop103 hadoop-3.3.6]$ sbin/start-yarn.sh

(4)Web 端查看

(a)查看 HDFS 上存储的数据信息:http://hadoop102:9870

(b)查看 YARN 上运行的 Job 信息:http://hadoop103:8088

3)集群基本测试

(1)上传文件到集群

上传小文件

[xiang@hadoop102 ~]$ hadoop fs -mkdir /input
[xiang@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input

上传大文件

[xiang@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u401-linux-x64.tar.gz /

(2)上传文件后查看文件存放在什么位置

查看 HDFS 文件存储路径

cd /opt/module/hadoop-3.3.6/data/dfs/data/current/BP-322709393-192.168.10.102-1707663797010/current/finalized/

查看 HDFS 在磁盘存储文件内容

(3)执行 wordcount 程序

[xiang@hadoop102 hadoop-3.3.6]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

3.2.6 配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:

1)配置 mapred-site.xml

    <!-- 历史服务器端地址 -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop102:10020</value>
    </property>
    <!-- 历史服务器 web 端地址 -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop102:19888</value>
    </property>

2)分发配置

[xiang@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

3)在 hadoop102 启动历史服务器

[xiang@hadoop102 hadoop]$ mapred --daemon start historyserver

4)查看历史服务器是否启动

5)查看 JobHistory http://hadoop102:19888/jobhistory

3.2.7 配置日志的聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和HistoryServer。

开启日志聚集功能具体步骤如下:

1)配置 yarn-site.xml

    <!-- 开启日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!-- 设置日志聚集服务器地址 -->
    <property>
        <name>yarn.log.server.url</name>
        <value>http://hadoop102:19888/jobhistory/logs</value>
    </property>
    <!-- 设置日志保留时间为 7 天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>

2)分发配置

[xiang@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

3)关闭 NodeManager 、ResourceManager 和 HistoryServer

[xiang@hadoop103 hadoop-3.3.6]$ sbin/stop-yarn.sh

[xiang@hadoop102 hadoop-3.3.6]$ mapred --daemon stophistoryserver

4)启动 NodeManager 、ResourceManage 和 HistoryServer

[xiang@hadoop103 ~]$ start-yarn.sh

[xiang@hadoop102 ~]$ mapred --daemon start historyserver

5)删除 HDFS 上已经存在的输出文件

[xiang@hadoop102 ~]$ hadoop fs -rm -r /output

6)执行 WordCount 程序

7)查看日志

(1)历史服务器地址http://hadoop102:19888/jobhistory

(2)历史任务列表

(3)查看任务运行日志

(4)运行日志详情

3.2.8 集群启动/停止方式总结

1)各个模块分开启动/停止

(配置 ssh 是前提)

(1)整体启动/停止HDFS

 start-dfs.sh
 stop-dfs.sh

(2)整体启动/停止 YARN

start-yarn.sh
stop-yarn.sh

2)各个服务组件逐一启动/停止

(1)分别启动/停 HDFS 组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

(2)启动/停止 YARN

yarn --daemon start/stop resourcemanager/nodemanager

3.2.9 编写 Hadoop 集群常用脚本

1)Hadoop 集群启停脚本

myhadoop.sh(包含 HDFS,Yarn,Historyserver)

#!/bin/bash
if [ $# -lt 1 ]
then
    echo "No Args Input..."
exit ;
fi

case $1 in
    "start")
        echo " =================== 启动 hadoop 集群 ==================="
        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.3.6/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.3.6/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.3.6/bin/mapred --daemon start historyserver"
        ;;
    "stop")
        echo " =================== 关闭 hadoop 集群 ==================="
        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.3.6/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.3.6/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.3.6/sbin/stop-dfs.sh"       
       ;;
    "shutdown")
        echo " =================== 关闭 hadoop 集群 及主机 ==================="
        /home/xiang/bin/myhadoop.sh stop
        echo " =================== 关闭主机 ==================="
        ssh hadoop102 "sudo shutdown"
        ssh hadoop103 "sudo shutdown"
        ssh hadoop104 "sudo shutdown"

       ;;
    *)
    echo "Input Args Error..."
    ;;
esac

2)查看三台服务器 Java 进程脚本

jpsall

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
    echo =============== $host ===============
    ssh $host jps
done

3)分发/home/atguigu/bin 目录

保证自定义脚本在三台机器上都可以使用

[xiang@hadoop102 ~]$ xsync /home/xiang/bin/

3.2.10 常用端口号说明

3.2.11 集群时间同步

如果服务器在公网环境(能连接外网),可以不采用集群时间同步,因为服务器会定期和公网时间进行校准;

如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。

1)需求

找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,生产环境根据任务对时间的准确程度要求周期同步。

测试环境为了尽快看到效果,采用 1 分钟同步一次。

2)时间服务器配置(必须 root 用户)

(1)查看所有节点 ntpd 服务状态和开机自启动状态

[xiang@hadoop102 ~]$ sudo systemctl status ntpd
[xiang@hadoop102 ~]$ sudo systemctl start ntpd
[xiang@hadoop102 ~]$ sudo systemctl is-enabled ntpd

(2)修改 hadoop102 的 ntp.conf 配置文件

[xiang@hadoop102 ~]$ sudo vim /etc/ntp.conf

# 授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

# 集群在局域网中,不使用其他互联网上的时间
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

# 当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
server 127.127.1.0
fudge 127.127.1.0 stratum 10

(3)修改 hadoop102 的/etc/sysconfig/ntpd 文件

# (让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes

(4)重新启动 ntpd 服务

[xiang@hadoop102 ~]$ sudo systemctl start ntpd

(5)设置 ntpd 服务开机启动

[xiang@hadoop102 ~]$ sudo systemctl enable ntpd

3)其他机器配置(必须 root 用户)

(1)关闭所有节点上 ntp 服务和自启动

[xiang@hadoop103 ~]$ sudo systemctl stop ntpd
[xiang@hadoop103 ~]$ sudo systemctl disable ntpd

[xiang@hadoop104 ~]$ sudo systemctl stop ntpd
[xiang@hadoop104 ~]$ sudo systemctl disable ntpd

(2)在其他机器配置 1 分钟与时间服务器同步一次

[xiang@hadoop103 ~]$ sudo crontab -e

*/1 * * * * /usr/sbin/ntpdate hadoop102

(3)修改任意机器时间

[xiang@hadoop103 ~]$ sudo date -s "2024-01-11 11:11:11"

(4)1 分钟后查看机器是否与时间服务器同步

四、常见错误及解决方案

1)防火墙没关闭、或者没有启动 YARN

2)主机名称配置错误

3)IP 地址配置错误

4)ssh 没有配置好

5)root 用户和 atguigu 两个用户启动集群不统一

6)配置文件修改不细心

7)不识别主机名称

(1)在/etc/hosts 文件中添加 192.168.10.102 hadoop102

(2)主机名称不要起 hadoop hadoop000 等特殊名称

8)DataNode 和 NameNode 进程同时只能工作一个。

9)执行命令不生效,粘贴 Word 中命令时,遇到-和长–没区分开。导致命令失效解决办法:尽量不要粘贴 Word 中代码。

10)jps 发现进程已经没有,但是重新启动集群,提示进程已经开启。原因是在 Linux 的根目录下/tmp 目录中存在启动的进程临时文件,将集群相关进程删除掉,再重新启动集群。

11)jps 不生效原因:全局变量 hadoop java 没有生效。解决办法:需要 source /etc/profile 文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/519456.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

文件服务器之二:SAMBA服务器

文章目录 什么是SAMBASAMBA的发展历史与名称的由来SAMBA常见的应用 SAMBA服务器基础配置配置共享资源Windows挂载共享Linux挂载共享 什么是SAMBA 下图来自百度百科 SAMBA的发展历史与名称的由来 Samba是一款开源的文件共享软件&#xff0c;它基于SMB&#xff08;Server Messa…

wordpress全站开发指南-面向开发者及深度用户(全中文实操)--php函数

php函数 wordpress会封装一部分函数&#xff0c;比如bloginfo该函数的作用是直接调用你设置的你的网站的名称 示例 This is our amazing custom theme <?php echo 22; function myfirstfunction(){ echo 33; echo "<p>Hello ,this is my first function</…

移动开发技术历史演化简介h5,跨平台,原生的各种技术实现方案的简单介绍

移动端的开发技术是指针对移动设备如智能手机和平板电脑等便携终端进行应用程序和服务创建的过程。本文将主要介绍一下移动端的开发技术的历史进化历程。讲述h5&#xff0c;跨平台&#xff0c;原生的各种技术实现方案和他们各自的优势与不足。 移动开发&#xff0c;不仅是编程技…

微电网优化:基于巨型犰狳优化算法(Giant Armadillo Optimization,GAO)的微电网优化(提供MATLAB代码)

一、微电网优化模型 微电网是一个相对独立的本地化电力单元&#xff0c;用户现场的分布式发电可以支持用电需求。为此&#xff0c;您的微电网将接入、监控、预测和控制您本地的分布式能源系统&#xff0c;同时强化供电系统的弹性&#xff0c;保障您的用电更经济。您可以在连接…

jvm基础三——类加载器

类加载器 在Java中&#xff0c;类加载器&#xff08;Class Loader&#xff09;是Java虚拟机&#xff08;JVM&#xff09;的一部分&#xff0c;负责将类文件&#xff08;.class文件&#xff09;加载到JVM中&#xff0c;使得程序能够使用这些类。类加载器在Java中具有重要的作用&…

(ISPRS,2023)深度语义-视觉对齐用于zero-shot遥感图像场景分类

文章目录 相关论文摘要引言类别嵌入局限性——问题1普通ZSL模型局限性——问题2自动属性注释过程——对应问题1深度语义-视觉对齐&#xff08;DSVA&#xff09;模型——对应问题2 基于遥感多模态相似性的自动属性标注属性词汇表构造使用CLIP模型自动标注属性对CLIP模型进行训练…

wordpress全站开发指南-面向开发者及深度用户(全中文实操)--初尝php

初尝php 打开你下载的wordpress文件夹&#xff0c;如果你用的xampp那它就在xampp安装的文件夹–htdocs文件夹–你可以新建一个test文件夹–新建一个test.php文件 <html><head><title>First attempt at PHP</title></head><body><?ph…

52岁TVB前绿叶退隐8年转做司仪晒流利英文。

现年52岁的陈霁平&#xff08;Maria&#xff09;在1995年参选港姐后加入TVB&#xff0c;离巢后转型做专业司仪&#xff0c;精通多国语言的她更成为司仪界的抢手货。 日前陈霁平分享了担任活动主持的近照&#xff0c;身穿高衩晚装的她身形Fit爆&#xff0c;皮肤依然白滑紧致&…

2024最新在线工具箱/ 站长IT工具箱/网站系统源码下载

2024最新在线工具箱/ 站长IT工具箱/网站系统源码下载- 更多详情及下载地址请访问https://a5.org.cn/a5_ziyuan/39525.html 转载请注明出处!

前端与后端协同:实现Excel导入导出功能

&#x1f31f; 前言 欢迎来到我的技术小宇宙&#xff01;&#x1f30c; 这里不仅是我记录技术点滴的后花园&#xff0c;也是我分享学习心得和项目经验的乐园。&#x1f4da; 无论你是技术小白还是资深大牛&#xff0c;这里总有一些内容能触动你的好奇心。&#x1f50d; &#x…

详解 Redis 在 Ubuntu 系统上的安装

在 Ubuntu 20.04 安装 Redis 1. 先切换到 root 用户 在 Ubuntu 20.04 中&#xff0c;可以通过以下步骤切换到 root 用户&#xff1a; 输入以下命令&#xff0c;以 root 用户身份登录&#xff1a; sudo su -按回车键&#xff0c;并输入当前用户的密码&#xff08;即具有 sudo…

解决nginx代理后,前端拿不到后端自定义的header

先说结论&#xff0c;因为前端和nginx对接&#xff0c;所以需要在nginx添加如下配置向前端暴露header add_header Access-Control-Expose-Headers Authorization 排查过程 1.后端设置了Authorization 的响应头作为token的返回&#xff0c;前后端本地联调没有问题 response.s…

Java_自定义实体类的列表List<T>调用remove()失败讲解

示例1 前提&#xff1a; 新建一个主类Demo1。 需求&#xff1a; 在一个列表中有三条String的数据&#xff0c;想要使用remove(Object o)删掉其中一条。 结果&#xff1a; remove(Object o)成功把数据删掉。 示例2 前提&#xff1a; 新建一个自定义实体类DataExample和一个主…

ObjectiveC-10-OOP面向对象程序设计-分类/类别

类别(Category)是OjectiveC的一个特性&#xff0c;主要目的是让开发者可以以模块的形式向类添加方法&#xff08;扩展&#xff09;&#xff0c;创建标准化的方法列表供给其他人实现。 有些文档也会翻译成类别&#xff0c;其实是一个意思。 概述 语法说明 类别提供了一个简单的…

Vue3从入门到实战:掌握状态管理库pinia(下部分)

1.storeToRefs 在Count.vue文件中 显的冗余了&#xff0c;如何更加优雅简化代码。用storeToRefs 补充&#xff1a; 为什么不用ToRefs呢&#xff1f; 使用的话会将所有数据都用ref引用包裹&#xff0c;其实方法等是没必要包裹的&#xff0c;具有一定风险 2.getters的使用 …

使用Arcpy进行数据批处理-批量裁剪

时空大数据使我们面临前所未有的机遇和挑战&#xff0c;尤其在地学、遥感或空间技术等专业领域&#xff0c;无疑是一个全新的时代。 伴随着时空大数据的到来&#xff0c;海量数据的处理是一个所有科研工作者都无法忽视的重要问题。传统的数据&#xff08;主要指空间数据&#x…

选择企业邮箱,扬帆迈向商务新纪元!

企业邮箱和个人邮箱不同&#xff0c;它的邮箱后缀是企业自己的域名。企业邮箱供应商一般都提供手机app、桌面端、web浏览器访问等邮箱使用途径。那么什么是企业邮箱&#xff1f;如何选择合适的企业邮箱&#xff1f;好用的企业邮箱应具备无缝迁移、协作、多邮箱管理等功能。 企…

后端开发框架Spring Boot快速入门

写在前面 推荐将本文与Spring Boot 相关知识和工具类一文结合起来看&#xff0c;本文为主&#xff0c;上面那篇文章为辅&#xff0c;一起食用&#xff0c;以达到最佳效果&#xff0c;当然&#xff0c;大佬随意。 IDEA创建Spring Boot工程 关于Spring Boot框架项目&#xff0…

Go协程池gopool源码解析

1、gopool简介 Repository&#xff1a;https://github.com/bytedance/gopkg/tree/develop/util/gopool gopool is a high-performance goroutine pool which aims to reuse goroutines and limit the number of goroutines. It is an alternative to the go keyword. gopool的…

数的基础概念

数的基本概念 结点 每一个圆圈就表示一个结点&#xff0c;每个结点里而会存放一些数据(点权值) 边 连接两个结点的一条线&#xff0c;我们认为上面的是父亲&#xff0c;下面的是儿子&#xff0c;边也可以存储权值(边权)。在树中&#xff0c;边的条数严格等于点…