解析线上HBase集群CPU飙高的原因与解决方案

在日常的运维工作中,CPU负载高是一种常见的故障状况,它可能对系统的正常运行和性能产生不利影响。为了准确地定位具体的异常原因,掌握一些专业的工具和方法是至关重要的。本文将通过一个实际的案例,详细介绍如何排查在线上HBASE集群CPU飙高问题,并分享相关工具的使用技巧以及基本的排查思路。通过阅读本文,读者将能够更加全面地了解和应对CPU负载高的问题,提升运维工作的效率和准确性。

解析线上HBase集群CPU飙高的原因与解决方案

1.线上现象描述

业务侧反馈,客户调用hbase集群相关操作的接口出现超时现象。查看监控信息,对应hbase集群有CPU负载突增且持续飚高的告警。

cm的监控图表:分别是CPU、网络、磁盘、集群请求。

图片

图片

图片

图片

2.定位原因

一般出现上面cpu直接飙高的问题,最容易想到的排查方式就是到主机上查看单个主机cpu的状况,定位出单个主机CPU占比很高的进程;

主机高CPU的进程定位通常有以下几种方式

  • 使用top命令:top命令可以实时监视系统的进程和资源使用情况。在top命令的输出中,按下"Shift + P"键,可以按照CPU使用率对进程进行排序,最高的进程将位于列表的顶部。

  • 使用htop命令:htop是top命令的改进版,提供了更多的交互式功能。在htop命令的界面中,按下"F6"键,然后选择"PERCENT_CPU"选项,可以按照CPU使用率对进程进行排序。

  • 使用ps命令:ps命令可以列出当前运行的进程。使用命令"ps -eo pid,ppid,%cpu,%mem,cmd"可以显示进程的PID、父进程ID、CPU使用率、内存使用率和命令行。

  • 使用pidstat命令:pidstat命令可以提供有关进程的详细统计信息,包括CPU使用率。使用命令"pidstat -p <PID> -u"可以查看指定进程的CPU使用率。

  • 使用perf工具:perf是一个功能强大的性能分析工具,可以用于定位高CPU占用的进程。使用perf可以获取进程的堆栈跟踪信息和性能计数器数据,帮助分析进程的性能瓶颈。

上面用的最多一般是top命令,本文也是结合top来做的分析:

下面是主机top下的截图:

图片

从上图中可以定位到cpu飙高是因为hbase用户的一个java进程导致,如果主机上用hbase用户启用了多个java进程,此时想定位具体的进程详细信息时,就需要借助于ps命令;

图片

定位到具体的进程之后,我们只能看到进程级别的CPU使用情况,如果想具体的分析原因,还需要定位到进程中线程级别的cpu使用情况。此时就需要结合top的一些参数使用。

top -H -p <PID>  
// 这个指令可以展示出指定进程的线程的资源使用情况;

图片

上面可以定位出具体的线程cpu使用情况,只能获取哪些线程占用较高的cpu,但是仅有一个线程id号,如果想知道具体线程的详细信息,就需要使用到java的堆栈分析工具jstack 。

jstack 介绍

jstack是Java开发工具包(JDK)中提供的一个命令行工具,用于生成Java虚拟机(JVM)中所有线程的堆栈跟踪信息。

使用jstack命令可以获取以下信息:

  1. 所有线程的堆栈跟踪:jstack命令会输出JVM中所有线程的堆栈跟踪信息,包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的执行路径和可能的问题。

  2. 死锁检测:jstack命令可以检测并输出JVM中的死锁情况。它会显示死锁的线程以及导致死锁的资源。

tips:遇到java进程出现如死锁、死循环、长时间停顿等问题,都可以借助此工具来定位分析问题

图片

提示:在执行上面指令的时候,需要切换到进程启动的用户下,否则会有报错。

等指令运行完成,会输出所有线程的堆栈跟踪信息到指定的文件中,文件的大致内容格式如下:

图片

获取到内容还不可以根据线程的id直接来匹配线程的详细信息,这里需要将top 展示出来的线程id转换成16进制格式,转换的方式直接使用linux系统自带的格式输出工具 printf。

图片

"printf "%x\n" 7888"命令将输出16进制整数30648的值,即1ed0。

最后就可以通过转换后的16进制的id值在上述文件中匹配到对应的线程信息;

图片

内容分析

  • "regionserver/10-xxx-xxx:16020-longCompactions-1694499929193" #451 daemon prio=5 os_prio=0 tid=0x00007fe4dc7a6800 nid=0x1ed0 runnable [0x00007fdc59236000]:线程名称是"regionserver/10-xxx-xxx:16020-longCompactions-1694499929193",线程ID(TID)为0x00007fe4dc7a6800,线程优先级为5,是守护线程(daemon),线程状态为runnable,线程在内存中的地址为0x00007fdc59236000。

  • java.lang.Thread.State: RUNNABLE:Java线程的状态为RUNNABLE(可运行)。

  • at org.apache.hadoop.hbase.CellComparatorImpl.compareQualifiers(CellComparatorImpl.java:169):此行显示了线程正在执行的方法,即org.apache.hadoop.hbase.CellComparatorImpl.compareQualifiers,位于CellComparatorImpl.java文件的第169行。

  • 其他的几行也是类似的,显示了线程在执行过程中经过的方法调用和对应的代码行号。

3.问题处理

通过以上方法的问题定位,最终知道导致集群cpu飙高的原因是Hbase集群在进行表的compaction导致的。

由此也知道hbase表的compaction操作确实是十分的损耗集群的性能的,但是这个又是Hbase集群的数据清理和优化的重要操作。所以需要集群的资源状态和结合业务的情况来合理的调起compaction。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/356195.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】C++入门基础讲解(二)

&#x1f497;个人主页&#x1f497; ⭐个人专栏——C学习⭐ &#x1f4ab;点击关注&#x1f929;一起学习C语言&#x1f4af;&#x1f4ab; 导读 接着上一篇的内容继续学习&#xff0c;今天我们需要重点学习引用。 1. 引用 在C中&#xff0c;引用是一种特殊的变量&#xff…

动态gif图如何在线做?这一招分分钟生成

Gif动图是怎么制作呢&#xff1f;Gif动画已经是日常聊天娱乐必备的了&#xff0c;那么这种有趣的gif表情要怎么操作呢&#xff1f;很简单&#xff0c;使用gif动图生成&#xff08;https://www.gif.cn/&#xff09;工具无需下载软件&#xff0c;小白也能轻松操作。可上传MP4格式…

Vue2 VS Vue3 生命周期

一、生命周期的概念 Vue组件实例在创建时要经历一系列的初始化步骤&#xff0c;在此过程中Vue会在合适的时机&#xff0c;调用特定的函数&#xff0c;从而让开发者有机会在特定阶段运行自己的代码&#xff0c;这些特定的函数统称为&#xff1a;生命周期钩子&#xff08;也会叫…

每日一道面试题:Java中序列化与反序列化

写在开头 哈喽大家好&#xff0c;在高铁上码字的感觉是真不爽啊&#xff0c;小桌板又拥挤&#xff0c;旁边的小朋友也比较的吵闹&#xff0c;影响思绪&#xff0c;但这丝毫不影响咱学习的劲头&#xff01;哈哈哈&#xff0c;在这喧哗的车厢中&#xff0c;思考着这样的一个问题…

对Spring当中AOP的理解

AOP(面向切面编程)全称Aspect Oriented Programminge AOP就是把系统中重复的代码抽取出来&#xff0c;单独开发&#xff0c;在系统需要时&#xff0c;使用动态代理技术&#xff0c;在不修改源码的基础上&#xff0c;将单独开发的功能通知织入(应用)到系统中的过程&#xff0c;完…

shopee,lazada卖家自养号测评补单的方法和技巧

现在很多卖家都是自己管理几百个账号&#xff0c;交给服务商不是特别靠谱 一&#xff1a;送测不及时&#xff0c;产品时常送不出去 二&#xff1a;账号质量不稳定&#xff0c;账号一天下了多少你也不清楚&#xff0c;如果下了很多单万一封号被关联了怎么办 三&#xff1a;as…

ESP8266采用AT指令连接华为云服务器方法(MQTT固件)

一、前言 本篇文章主要介绍3个内容&#xff1a; &#xff08;1&#xff09;ESP8266-WIFI模块常用的AI指令功能介绍 &#xff08;2&#xff09;ESP8266烧写MQTT固件连接华为云IOT服务器。 &#xff08;3&#xff09;介绍华为云IOT服务器的配置过程。 ESP8266是一款功能强大…

vite引入图片用法

在 vite 中 引入图片方式跟其他脚手架创建项目的引入方式不一样 要使用 import.meta.url 他是一个 ESM 的原生功能 const mapPicSrc ref(new URL(/assets/charts/bdf.png, import.meta.url).href) 如果使用 require 引入会报错 说没有 require 模块

【Shell实战案例面试题】输入网卡的名字,来输出网卡的IP

1.问题 参数后判断要加"" 名字为空时显示ip 2.分析 把本机的所有网卡名列出来&#xff0c;来引导用户输入 使用命令列出所有网卡信:ifconfig/ip a 设计一个函数&#xff0c;把网卡名作为参数&#xff0c;函数返回网卡的IP 在获取某个网卡IP时&#xff0c;考虑网…

解决NuxtJS3中安装pinia报错

使用npm install pinia 安装pinia报错。 修改镜像后也报错&#xff1a; 方式一&#xff1a; npm config set registry https://registry.npm.taobao.org/ npm install pinia方式二&#xff1a; npm config set registry https://registry.npmjs.org/ npm install pinia解决方…

C++仿函数、万能头文件、transform学习

这是网上的一个代码,里面的一些东西以前没用过; #include <bits/stdc++.h> using namespace std;// A Functor class increment { private:int num; public:increment(int n) : num(n) { }int operator () (int arr_num) const {return num + arr_num;} };// Driver …

关于TongWeb部署应用报错java.lang.NoSuchFieldError: REFLECTION (by liuhui)

关于TongWeb部署应用报错java.lang.NoSuchFieldError: REFLECTION &#xff08;by liuhui&#xff09; 关于TongWeb部署应用报错java.lang.NoSuchFieldError: REFLECTION 问题现象&#xff1a;xml解析对象工厂类错误导致解析失败 解决办法&#xff1a;增加配置参数问题解决 -…

awk命令使用方法

简介 awk 是一种强大的文本处理工具&#xff0c;可以用于处理结构化的文本数据。它可以根据指定的模式和动作来筛选、处理和格式化文本。 下面是一些常见的 awk 命令使用方法。 详细介绍 基本语法&#xff1a; awk pattern { action } filename其中&#xff0c;pattern 是用…

【LeetCode: Z 字形变换 + 模拟】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

(自用)learnOpenGL学习总结-高级OpenGL-帧缓冲Framebuffers

我们在之前使用了很多缓冲了&#xff1a;颜色缓冲、深度缓冲、模板缓冲。这些缓冲结合起来叫做帧缓冲&#xff0c; 其实也能从名字理解&#xff0c;每一帧屏幕都需要不断更新画面&#xff0c;对应的缓冲也需要更新。 不过上面这些都是在默认的缓冲里面做的&#xff0c;现在我…

数据建模及可视化解决方案

一、需求背景 1. 数据量的爆炸性增长:随着互联网和物联网技术的发展,我们正处于一个数据爆炸的时代。企业和组织需要有效地管理和利用这些海量数据,而数据建模平台可以帮助他们实现这一目标。 2. 数据多样性和复杂性:数据来源的多样化和复杂性使得数据管理和分析变得更加…

基于 GPU 渲染的高性能空间包围计算

空间包围检测在计算机图形学、虚拟仿真、工业生产等有着广泛的应用。 现代煤矿开采过程中&#xff0c;安全一直是最大的挑战之一。地质空间中存在诸多如瓦斯积聚、地质构造异常、水文条件不利等隐蔽致灾因素&#xff0c;一旦被触发&#xff0c;可能引发灾难性的后果。因此在安…

架构整洁之道-组件构建原则

5 组件构建原则 大型软件系统的架构过程与建筑物修建很类似&#xff0c;都是由一个个小组件组成的。所以&#xff0c;如果说SOLID原则是用于指导我们如何将砖块砌成墙与房间的&#xff0c;那么组件构建原则就是用来指导我们如何将这些房间组合成房子的。 5.1 组件 组件是软件的…

漏洞原理SQL注入 手工注入漏洞

漏洞原理SQL注入 手工注入漏洞 SQL 注入的前置知识 information_schema库information_schema 是mysql5.0以上版本中自带的一个数据库。tables表information_schema库中的tables表中table_schema列&#xff08;存储数据库名&#xff09;和table_name列&#xff08;存储表名&…

慎投!这3本期刊诚信风险高,被警告和风险低的期刊选哪个?

近年来&#xff0c;学术界对学术诚信的关注越来越多&#xff0c;期刊的学术诚信风险也日益受到关注。科睿唯安在今年三月份剔除的35本SCI期刊中&#xff0c;绝大多数涉及学术诚信问题&#xff01;据官方介绍&#xff0c;其已正式开发了一款AI工具&#xff0c;可以锁定存在学术诚…