Hadoop3集群实战：从零开始的搭建之旅

目录=

一、概念

1.1 Hadoop是什么

1.2 历史

1.3 三大发行版本（了解）

1.4 优势

1.5 组成💗

1.6 HDFS架构

1.7 YARN架构

1.8 MapReduce概述

1.9 HDFS\YARN\MapReduce关系

二、环境准备

2.1 准备模版虚拟机

2.2 安装必要软件

2.3 安装xshell

2.4 创建用户并赋予root权限

2.5 克隆虚拟机

2.6 时间同步

2.7 ssh免密登录

2.8 xsync脚本分发

2.9 安装JDK和Mysql

安装jdk(三个节点)

安装mysql（主节点）目前不需要

三、完全分布式集群搭建

3.1 安装hadoop（三台）

3.2 集群部署

3.2.1 部署规划

3.2.2 配置文件(三台)

3.2.3 启动集群

参考：

一、概念

1.1 Hadoop是什么

apache的分布式系统基础架构
Hadoop实际上是一个生态圈，里面有多个组件，主要解决海量数据存储和分析计算问题

1.2 历史

Hadoop是Apache Lucene创始人 Doug Cutting 创建的。最早起源于Nutch，它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题：如何解决数十亿网页的存储和索引问题。
2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构，该架构称为：谷歌分布式文件系统（GFS）,可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。
同时期，以谷歌的论文为基础，Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP
到2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期。
2006年Google发表了论文是关于BigTable的，这促使了后来的Hbase的发展。

因此，Hadoop及其生态圈的发展离不开Google的贡献。

1.3 三大发行版本（了解）

Apache 最基础的版本，完全开源免费
CDH，集成了大数据框架发行版本
HDP，Ambari是HDP的安装工具和管理界面

Cloudera公司已经正式终止了对CDH的支持。分别在2021年12月、2022年3月，Cloudera正式终止了对HDP（Hortonworks Data Platform）及CDH的支持

后续推出CDP，新一代数据平台产品，它整合了HDP和CDH的功能并进行了优化和扩展。

1.4 优势

高可靠性：底层维护多个数据副本，避免故障时数据丢失
高扩展性：集群间分配任务数据，方便扩展节点，动态扩容缩减
高效性：并行工作
高容错性：自动将失败的任务重新分配

1.5 组成💗

Hadoop1.x、2.x、3.x的区别

Hadoop1.*中MapReduce中计算和资源调度同时处理，耦合性比较大
Hadoop2.*新增了YARN进行资源调度，MapReduce只用来计算
Hadoop2和3在组成上没有区别

1.6 HDFS架构

分布式文件系统

NameNode 数据存储位置（存储文件元数据，如：文件名目录结构文件属性所在位置），相当于目录
DataNode 存储数据，相当于内容
2NN 辅助NameNode工作（每隔一段时间对NameNode做数据备份）

1.7 YARN架构

资源管理器

Resource Manager 集群资源管理（内存、cup）
Node Manager 单节点资源管理
Container 容器，相当于一台独立服务器
ApplicationMaster，单个任务资源管理

1.8 MapReduce概述

map阶段，并行处理输入数据
reduce阶段，对map结果汇总

1.9 HDFS\YARN\MapReduce关系

大数据技术生态体系

二、环境准备

目标：需要准备3台虚拟机(本次使用Ubuntu24.04，但是教程大多是Centos，大差不差)，机器名为hadoop102、hadoop103、hadoop104，对应ip：192.168.10.102、192.168.10.103、192.168.10.104

2.1 准备模版虚拟机

软件操作系统安装参考：（这部分没有详细记录，一般使参考视频和博客，要细心）

VMware 虚拟机图文安装和配置 Ubuntu Server 22.04 LTS 教程_00-installer-config.yaml-CSDN博客

19_尚硅谷_Hadoop_入门_Centos7.5软硬件安装_哔哩哔哩_bilibili

配置静态ip 192.168.10.100，nat桥接模式
配置文件修改/etc/netplan
配置主机名称和ip映射：修改服务器hosts文件 192.168.10.100 hadoop100
修改一些配置虚拟机和windows上的

2.2 安装必要软件

安装vim、iputils-ping、net-tools、rsync（一般安装最小体积的server版本才需要安装这些）

sudo apt install vim
sudo apt update
sudo apt-get update
sudo apt install iputils-ping
sudo apt install net-tools
sudo apt install rsync

测试网络：ping www.baidu.com

测试：ip ifconfig

2.3 安装xshell

c21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili参考：21_尚硅谷_Hadoop_入门_Xshell远程访问工具_哔哩哔哩_bilibili

主要是做本机和虚拟机的交互和文件上传。因为本地安装了termius就不需要这个了，感觉termius更好用

2.4 创建用户并赋予root权限

给用户mlj root权限：vim /etc/sudoers

mlj ALL=(ALL:ALL) NOPASSWD:ALL

2.5 克隆虚拟机

在vmware上克隆模版虚拟机
修改ip和主机名分别为hadoop102 hadoop103 hadoop104
修改ip和主机名的映射：vim /etc/hosts

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

报错：使用termius进行root用户登录时报错：SSH配置不允许root登录

修改/etc/ssh/sshd_config PermitRootLogin:yes
重启生效sudo systemctl restart sshd

2.6 时间同步

如果服务器在公网环境（能连接外网），可以不采用集群时间同步

安装ntp时间同步服务器（所有节点）：apt install ntp
查看状态、启动、设置开机自启

systemctl status ntpdsec

systemctl start ntpsec

systemctl enable ntpsec

重启服务器：reboot
所有节点设置时区：中国上海 timedatectl set-timezone Asia/Shanghai
修改配置同步时间的机器 vim /etc/ntpsec/ntp.conf

#注释（主节点需要，子节点注释掉）
#集群在局域网中，不使用其他互联网上的时间
pool 0.ubuntu.pool.ntp.org iburst
pool 1.ubuntu.pool.ntp.org iburst
pool 2.ubuntu.pool.ntp.org iburst
pool 3.ubuntu.pool.ntp.org iburst
#pool ntp.ubuntu.com

#（子节点配置，使用102作为时间同步机器）
server hadoop102

#当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
#（所有节点需要）
server 127.127.1.0fudge 
127.127.1.0 stratum 10

#授权网段(主节点需要)
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

ntpq -p 查看同步情况

问题：时间和windows实践不一致

（1）安装ntpdate工具：sudo apt-get install ntpdate

（2）同步系统时间与网络时间：sudo ntpdate cn.pool.ntp.org

（3）其他节点同步hadoop102的时间： sudo ntpdate hadoop102

2.7 ssh免密登录

~/.ssh/

（1）102生成公私钥三次回车 ssh-keygen -t rsa

（2）copy公钥到102 103 104 （本机也要配置）ssh-copy-id hadoop103

（3）103、104执行相同的步骤

（4）验证：ssh hadoop103

2.8 xsync脚本分发

（1）编写分发脚本xsync

注意：每台机器都要有rsync才能分发成功

/home/mlj/bin目录下，新建xsync

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

（2）修改xsync环境变量，否则找不到该命令

export PATH=$PATH:/home/mlj/bin

注意：rsync基于ssh服务需要配置秘钥，免密登录

2.9 安装JDK和Mysql

安装jdk(三个节点)

（1）下载上传到虚拟机：scp .\jdk-8u202-linux-x64.tar.gz root@192.168.10.104:/opt/soft/

（2）解压缩：sudo tar -zxvf jdk-8u202-linux-x64.tar.gz -C /opt/module/

（3）环境变量配置

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_202

export PATH=$PATH:$JAVA_HOME/bin

（4）验证：java-version

安装mysql（主节点）目前不需要

步骤：

安装docker
使用docker安装mysql
docker-compose启动mysql

问题：

（1）docker-compose报错，缺少python的一个包setuptools

安装pipx ：sudo apt install pipx
安装包setuptools ：sudo pipx install setuptools
docker-compose -version

（2）拉取镜像报错修复：Get "https://registry-1.docker.io/v2/": net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

使用第三方镜像库：

AtomHub 可信镜像仓库平台 · OpenAtom Foundation

三、完全分布式集群搭建

3.1 安装hadoop（三台）

（1）上传hadoop包：tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module

（2）解压缩 tar -zxvf hadoop-3.4.1.tar.gz -C /opt/module

（3）环境变量配置

#hadoop环境变量 
export HADOOP_HOME=/opt/module/hadoop-3.4.1 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

（4）集群配置

3.2 集群部署

3.2.1 部署规划

NameNode和SecondaryNameNode不要安装同一台
ResourceManager也很消耗内存，不要和NameNode和SecondaryNameNode配置在一台机器

3.2.2 配置文件(三台)

自定义配置文件 4个

配置core-site.xml

<!-- 指定 NameNode 的地址 -->
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://hadoop102:8020</value>
   </property>
   <!-- 指定 hadoop 数据的存储目录 -->
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/module/hadoop-3.4.1/data</value>
   </property>
   <!-- 配置 HDFS 网页登录使用的静态用户为 mlj -->
   <property>
       <name>hadoop.http.staticuser.user</name>
       <value>mlj</value>
   </property>

hdfs-site.xml

<!-- nn web 端访问地址-->
<property>
   <name>dfs.namenode.http-address</name>
   <value>hadoop102:9870</value>
</property>
<!-- 2nn web 端访问地址-->
<property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>hadoop104:9868</value>
</property>
<!--HDFS 中是否启用权限检查-->
<property>
   <name>dfs.permissions</name>
   <value>false</value>
</property>

yarn-site.xml

<!-- Site specific YARN configuration properties -->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
<!-- 指定 ResourceManager 的地址-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>hadoop10</value>
</property>
<!--是否将对容器实施虚拟内存限制-->
<property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
</property>

mapred-site.xml

<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

配置works(不能有空格换行！)

hadoop102

hadoop103

hadoop104

3.2.3 启动集群

sudo chmod -R a+w /opt/module/hadoop-3.4.1/

初次启动初始化（初始化失败可能是没有权限，执行上一步）

hdfs namenode -format

修改hadoop的环境变量hadoop-env.sh：vim /opt/module/hadoop-3.4.1/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_202

脚本分发（文件夹需要修改权限），xsync 脚本
启动dfs集群：sbin/start-dfs.sh
jps 验证
访问hdfs web页面 http://192.168.10.102:9870/
启动yarn sbin/start-yarn.sh
登录yarn web页面 http://192.168.10.103:8088/

参考：

尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放_哔哩哔哩_bilibili

Hadoop3.1.4完全分布式集群搭建_hadoop 3.1.4-CSDN博客