【总结】hbase master重启恢复失败问题修复

问题现象

最近hbase master 莫名其妙宕机了,查看最后输出日志,也没有发现有效信息。

于是想着先重启一把,在hbase master 选主成active状态的过程中,发现重启多次都很漫长,且最终因重启时间过长,被hbase-daemon.sh 强杀掉。

从hbase-master.out 可查看到hbase master 被强杀,如下图:
在这里插入图片描述
以前也出现过类似情况,当时解决的办法是加大hbase master jvm 内存。
但最近再次宕机,一直加大jvm内存也不现实。只能想办法,从根本上解决。

原因分析

再次查看hbase master log,发现hbase 在恢复过程中,先是一直不断刷如下日志:
INFOorg.apache.hadoop.hbase.util.FSHDFSUtils: Recover lease on dfs filehdfs://nameservice1/hbase/MasterProcWALs/pv-00000000000000011601.log

然后开始不断刷gc回收暂停时间过长
2024-04-24 10:01:47,315 WARN [master/ark-73:16000] util.Sleeper: We slept 15775ms instead of 3000ms, this is likely due to a long garbage collecting pause and it’s usually bad, see http://hbase.apache.org/book.html#trouble.rs.runtime.zkexpired
在这里插入图片描述
再次查看gc 日志,gc.log-202404240937 发现如下日志:

2024-04-24T10:04:47.890+0800: 1630.478: [Full GC (Allocation Failure) 2024-04-24T10:04:47.890+0800: 1630.478: [CMS: 5183936K->5183935K(5183936K), 13.3839186 secs] 6180735K->6180727K(6180736K), [Metaspace: 52023K->52023K(1095680K)], 13.3840933 secs] [Times: user=13.39 sys=0.00, real=13.39 secs]

2024-04-24T10:05:01.275+0800: 1643.863: [Full GC (Allocation Failure) 2024-04-24T10:05:01.276+0800: 1643.863: [CMS

在这里插入图片描述
种种迹象表明,hbase已经因为内存爆了,导致垃圾回收也无法释放内存。

查阅了一番资料,最终定位到是MasterProcWals pv日志过多,在重启HBase Master 的过程中,HBase Master进入活动状态需要读取并实例化所有正在运行的程序当前记录在/apps/hbase/data/MasterProcWALs/目录下对应的文件。此文件夹太大,HBase Master将在完全变为活动状态之前超时并崩溃。

解决方法

查阅了相关资料,MasterProcWALs 目录下的文件是可以删除的,在删除之前,先备份。

于是执行了以下命令:

 # 查看MasterProcWALs 目录下文件存储总大小
 hdfs dfs -du -s -h /apps/hbase/data/MasterProcWALs
# 将该文件备份
hdfs dfs -mv /apps/hbase/data/MasterProcWALs /apps/hbase/data/bakMasterProcWALs
# 重新创建空文件夹
hdfs dfs -mkdir /apps/hbase/data/MasterProcWALs

最后重启hbase master,几乎很快hbase master就启动成功,并成功变成active 活跃状态。

至此,成功解决该问题。

参考资料:https://www.yisu.com/jc/564592.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/570415.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【NMPA-国家药品监督管理局】

NMPA-国家药品监督管理局 ■ NMPA简介■ (1) 监管逻辑■ 1.1)注册检验■ 1.2)临床试验■ 1.3)体系考核■ 1.4)专家评审■ 1.5)飞行检查 ■ (2) 上市流程■ 2.1)注册申请:■ 2.2)注册…

水滴式粉碎机:高效、精细破碎利器

水滴式粉碎机是一种适用于多种物料的粉碎设备。它能够处理硬质物料如石头、陶瓷、玻璃等,也能粉碎食品和饲料原料如大米、小麦、玉米等。此外,水滴式粉碎机还适用于秸秆、木材等物料的粉碎。部分水滴式粉碎机还具备粗粉碎和细粉碎两种功能,可…

重发布实验:

要求: 配置: 配置IP地址: Ar1: [a1]int g 0/0/0 [a1-GigabitEthernet0/0/0]ip add 100.1.1.1 24 [a1-GigabitEthernet0/0/0]int l 0 [a1-LoopBack0]ip add 192.168.0.1 32 [a1-LoopBack0]int l1 [a1-LoopBack1]ip add 192…

k8s 报错:x509: certificate has expired or is not yet valid

程序员的公众号:源1024,获取更多资料,无加密无套路! 最近整理了一份大厂面试资料《史上最全大厂面试题》,Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 获取方式: 关注公众号并回复 666 领取,更多内容持续奉…

Java正则表达式 提取文本中所有的匹配数据

前言 在Java编程中,有时我们需要从字符串中找出符合某种规则的字符串。这时候,我们可以使用正则表达式来进行模式匹配。正则表达式是一种强大的文本匹配工具,它可以用来匹配复杂的字符串模式。 正则表达式的基础 正则表达式是一种通过字符…

Skill Check: OCI Generative AI Service Deep Dive

Skill Check: OCI Generative AI Service Deep Dive

dial tcp 192.168.0.190:443: connect: connection refused

1、场景 用nerdctl登录镜像仓库192.168.0.190(Harbor),报错 ERRO[0006] failed to call tryLoginWithRegHost error"failed to call rh.Client.Do: Get \"https://192.168.0.190/v2/\": dial tcp 192.168.0.190:…

fakak详解(2)

Kafka和Flume整合 Kafka与flume整合流程 Kafka整合flume流程图 flume主要是做日志数据(离线或实时)地采集。 图-21 数据处理 图-21显示的是flume采集完毕数据之后,进行的离线处理和实时处理两条业务线,现在再来学习flume和kafka的整合处理。 配置fl…

04.JAVAEE之线程2

1.线程的状态 1.1 观察线程的所有状态 线程的状态是一个枚举类型 Thread.State public class ThreadState {public static void main(String[] args) {for (Thread.State state : Thread.State.values()) {System.out.println(state);}} } NEW:Thread 对象已经有了.start 方…

AI大模型日报#0424:全球首个AI基因编辑器、出门问问上市、微软开源Phi-3 Mini、昆仑万维年收49亿

导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。标题: 爱诗科技完成A2轮超亿元融资,蚂蚁集团领投摘要: 爱诗科技完成A2轮超亿元融资,成为视频大模型领域融资规模最…

MySQL中的死锁预防和解决

MySQL中的死锁预防和解决 死锁是数据库管理系统中常见的问题,特别是在高并发的应用场景下。MySQL数据库中的死锁会导致事务处理速度减慢,甚至完全停止,因此理解并预防死锁至关重要。本文将详细介绍如何预防MySQL中的死锁,包括常用…

山海鲸电力看板:运维数据一目了然

在信息化高速发展的今天,电力行业的运维管理也迎来了前所未有的变革。山海鲸可视化智慧电力运维可视化看板,以其独特的数据整合能力和直观的可视化效果,成为了电力行业运维管理的得力助手,为电力的稳定运行提供了强大的技术支撑。…

李沐64_注意力机制——自学笔记

注意力机制 1.卷积、全连接和池化层都只考虑不随意线索 2.注意力机制则显示的考虑随意线索 (1)随意线索倍称之为查询(query) (2)每个输入是一个值value,和不随意线索key的对 (3)通过注意力池…

客服话术分享:客服如何挖掘需求?

电商客服主动挖掘询问顾客需求是非常重要的,这就需要我们具备一定的沟通技巧。今天这篇客服话术分享,很适合想提升业绩的你们哦! 一、打招呼式询问需求: 1.欢迎光临,本店竭诚为您服务~请问您有什么具体想了解的问题吗&…

java-spring 06 图灵 getBean方法和 doGetBean方法

01.一般的流程是,这里是从上一章的preInstantiateSingleton方法顺序过来的。 getBean() -> doGetBean() -> createBean() -> doCreateBean() -> createBeanInstance() -> populateBean() -> initializeBean() 02.getBean方法,一般就…

C语言(1):初识C语言

0 安装vs2022 见 鹏哥视频即可 1 什么是C语言 c语言擅长的是底层开发! 现在一般用的是C89和C90的标准 主要的编辑器: 2 第一个C语言项目 .c 源文件 .h头文件 .cpp c文件 c语言代码中一定要有main函数 标准主函数的写法: int main() { …

菜鸟Java面向对象 1. Java继承

1. Java继承 Java继承 1. Java继承1. 继承的概念_简单介绍继承的用处生活中的继承: 2. 类的继承格式类的继承格式 3. 为什么需要继承企鹅类:老鼠类:公共父类:企鹅类:老鼠类: 4. 继承类型_多重继承5. 继承的…

视频怎么批量压缩?5个好用的电脑软件和在线网站

视频怎么批量压缩?有时候我们需要批量压缩视频来节省存储空间,便于管理文件和空间,快速的传输发送给他人。有些快捷的视频压缩工具却只支持单个视频导入,非常影响压缩效率,那么今天就向大家从软件和在线网站2个角度介绍…

AI建模效果到底行不行?试用这些AI工具告诉你!

当前AI大模型技术浪潮正掀起一股颠覆性的变革浪潮。诸如Midjourney、Stable Diffusion等AI绘画生成工具变得日益成熟,赋能千行百业。在之前的文章中我给大家介绍了很多Midjourney、Stable Diffusion的使用方法和对应的功能: Midjourney vs Stable Diffu…

【连接管理,三次握手,拥塞控制原理】

文章目录 连接管理TCP连接管理同意建立连接TCP3次握手3次握手解决:半连接和接受老数据问题TCP:关闭连接 拥塞控制原理拥塞控制的方法 连接管理 TCP连接管理 TCP连接管理 在正式交换数据之前,发送方和接收方握手建立通信关系: 同…