文章目录
- 集群节点状态异常的解决方式
- 问题概述
- 解决方式
- 1.关闭所有服务
- 2.对所有集群删除Hadoop相关文件
- 2.1 删除Hadoop系统运行时创建的临时数据和文件
- 2.2 删除Hadoop的数据文件
- 3.重新对Hadoop节点进行初始化和启用
- 4.重启服务,检查节点状态
集群节点状态异常的解决方式
问题概述
集群的主要架构是有两个主节点(master01、master02)和一个工作节点(worker01)的Hadoop高可用集群,在过了较长时间重启后,发现主节点的状态都为Standby,不存在Active的节点。
解决方式
具体的统一调用脚本可以看我的另一篇博客集群管理脚本中有统一调用脚本remote_call.sh
1.关闭所有服务
stop-all.sh
2.对所有集群删除Hadoop相关文件
2.1 删除Hadoop系统运行时创建的临时数据和文件
对所有集群中的机器调用(可以使用统一调用脚本)
rm -rf /tmp/hadoop
2.2 删除Hadoop的数据文件
删除安装目录下的Hadoop数据文件
rm -rf /opt/software/hadoop-3.1.3/data/*
3.重新对Hadoop节点进行初始化和启用
启动zk服务
zkServer.sh start
这两个命令需要对集群中的所有机器执行(可以调用统一调用脚本)
# 启动 journalnode 集群
hdfs --daemon start journalnode # *4
#格式化zkfc
hdfs zkfc -formatZK
对Master01节点进行格式化。
#主NN节点格式化
hdfs namenode -format
对另一个主节点执行下列命令
#从NN节点格式化和启动
ssh root@master02 hdfs namenode -bootstrapStandby
ssh root@master02 hdfs --daemon start namenode
4.重启服务,检查节点状态
检查Master01节点是否变为Active状态。