CPU标高load标高;linux故障日志排查

        一般情况下,服务器不太会出问题。但是遇到特别诡异的情况,多半是服务器本身的问题。遇到问题,我们不能一味的去排查应用,中间件。更应该想到服务器的问题。否则很容易出现南辕北辙的情况。
        这次分享的是一次服务器故障,导致的线上问题。涉及到了服务器的内存的排查,和CPU的排查。

现象:  

线上es集群突然报警。本来一个机器上两个节点,但是在早晨6点48分,突然cpu飙升到100,期间没有什么查询,正常量的写入。

关闭一个节点以后,负载正常,但是再启动节点,集群负载还是很高。

请求命中此台机器,触发了很多的慢查询告警 。

该节点 gc的时间特别长

[2023-11-21T11:36:38,263][WARN ][o.e.m.j.JvmGcMonitorService] [10.99.100.98] [gc][young][1279][13] duration [2.4s], collections [1]/[2.5s], total [2.4s]/[44.4s], memory [2.9gb]->[1.4gb]/[31.9gb], all_pools {[young] [1.5gb]->[0b]/[0b]}{[old] [1.3gb]->[1.3gb]/[31.9gb]}{[survivor] [52.5mb]->[32.3mb]/[0b]}
[2023-11-21T11:36:38,274][WARN ][o.e.m.j.JvmGcMonitorService] [10.99.100.98] [gc][1279] overhead, spent [2.4s] collecting in the last [2.5s]

监控如下,可以看出来CPU飙升

同时间段其它机器的监控

排查linux日志 

grep -i cpu /var/log/messages

使用 dmesg 命令可以查看内核环缓冲区的内容,其中包含了系统启动时和运行时的信息,包括一些硬件错误。查看排查cup问题。

dmesg | grep -i cpu

[11215201.664127] CPU20: Package temperature above threshold, cpu clock throttled (total events = 1493)
[11215201.664168] CPU56: Package temperature above threshold, cpu clock throttled (total events = 1493)
这里是cpu过热保护发生的次数

[20227904.755122] EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
[20227904.755820] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:slot:page:0x7c960e offset:0xdc0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:imc:rank:bg:ba:row:0x1d4a9 col:0x2d8)

dmesg | grep -i memory

查看排查内存问题

[20227904.755121] EDAC skx MC0: HANDLING MCE MEMORY ERROR
[20227904.755820] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:slot:page:0x7c960e offset:0xdc0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:imc:rank:bg:ba:row:0x1d4a9 col:0x2d8)

section_type: memory error 表示这是一个内存错误。

EDAC skx MC0 表示这是与 EDAC(Error Detection and Correction)相关的信息。

HANDLING MCE MEMORY ERROR 指示系统正在处理一个 MCE(Machine Check Exception)的内存错误。

EDAC MC0: 0 CE memory read error 表示这是一个可纠正的内存读取错误。

CPU_SrcID#0_MC#0_Chan#0_DIMM#0 提供了有关错误位置的详细信息,指明了错误发生在第一个 CPU(CPU 0)的第一个内存通道(channel 0)的第一个 DIMM(DIMM 0)。

channel:0 slot:0 指示错误发生在通道 0 的插槽 0。

page:0x7c960e offset:0xdc0 提供了错误地址的详细信息,包括页面、偏移。

syndrome:0x0 表示错误的纠错码。

err_code:0x0000:0x009f 提供了错误代码,这里指示了一个 CE(Correctable Error)错误。

socket:0 imc:0 rank:1 bg:1 ba:0 row:0x1d4a9 col:0x2d8 提供了更详细的关于错误位置的信息,包括套接字、内存控制器、rank、bank、行和列。

这里有一篇参考文

和我遇到的现象一样。可能是内存有问题

Linux服务器EDAC CE memory read error - 简书

故障处理

结合监控信息,我最先想到的是的服务器存在问题。于是就检查了内存和cpu。从排查的信息来看,多半是硬件存在问题。于是联系运维,与机房人员。由于是数据集群,先把服务器上的数据迁移到别的机器上,然后做重启操作。结果发现服务器起不开了,厂商的人过来升级了固件版本,做了修复。然后观察了两天,没有再发现系统异常日志。重新加回集群。我们这次遇到的不算是内存条有问题。但是也属于服务器故障,导致的应用故障。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/212701.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【小沐学Python】Python实现Web服务器(Flask+celery,生产者-消费者)

文章目录 1、简介2、安装和下载2.1 flask2.2 celery2.3 redis 3、功能开发3.1 创建异步任务的方法3.1.1 使用默认的参数3.1.2 指定相关参数3.1.3 自定义Task基类 3.2 调用异步任务的方法3.2.1 app.send_task3.2.2 Task.delay3.2.3 Task.apply_async 3.3 获取任务结果和状态 4、…

Java LeetCode篇-深入了解关于栈的经典解法(栈实现:中缀表达式转后缀)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 中缀表达式转后缀说明 1.1 实现中缀表达式转后缀思路 2.0 逆波兰表达式求值 2.1 实现逆波兰表达式求值思路 3.0 有效的括号 3.1 实现有效的括号思路 4.0 栈的压…

一文读懂MongoDB的全部知识点(1),惊呆面试官。

文章目录 01、mongodb是什么?02、mongodb有哪些特点?03、你说的NoSQL数据库是什么意思?NoSQL与RDBMS直接有什么区别?为什么要使用和不使用NoSQL数据库?说一说NoSQL数据库的几个优点?04、NoSQL数据库有哪些类型?05、M…

SmartSoftHelp8,端口安全进程查看管理工具

PID 协议 端口 所属进程名 本地绑定地址 远程地址 当前状态 关闭进程 下载地址: https://pan.baidu.com/s/1zBgeYsqWnSlNgiKPR2lUYg?pwd8888

ctfhub技能树_web_web前置技能_HTTP

目录 一、HTTP协议 1.1、请求方式 1.2、302跳转 1.3、Cookie 1.4、基础认证 1.5、响应包源代码 一、HTTP协议 1.1、请求方式 注:HTTP协议中定义了八种请求方法。这八种都有:1、OPTIONS :返回服务器针对特定资源所支持的HTTP请求方法…

微服务的流量管理-服务网格

对于单体应用来说,一般只有流入和流出两种流量。而微服务架构引入了跨进程的网络通信,流量发生在服务之间。由许多服务组成了复杂的网络拓扑结构,每次请求都会产生流量。 这些流量如果没有妥善的管理,整个应用的行为和状态将会不…

Linux安装nginx超完整步骤

1、到官网(http://nginx.org)下载nginx包,推荐使用稳定版本 2、上传nginx到linux系统,我上传的默认路径在/usr/local/下 3、安装依赖环境: ①安装gcc环境 yum install gcc-c ②安装PCRE库,用于解析正则表达式 yum…

轻易云AI:引领企业数智化转型提升企业AI效率

近期,轻易云AI与汤臣倍健的合作引起了业界的广泛关注。通过这一合作,轻易云AI不仅成功打造了集团小汤AI助手这一标志性的企业智能助手,更重要的是,这一合作凸显了轻易云AI作为专业AI应用集成专家的核心能力。轻易云AI已成功集成了…

数据结构算法-冒泡排序算法

引言 虽然选择排序好用 ,但有点问题 也就是频繁找最大值下标 放到 未排序的后面 因为每次需要扫描整个未排序序列,找到最大值或最小值的下标,并将其交换到未排序序列的最后一个位置。这样做的问题在于,在后面的迭代中&#xff0c…

LinkWeChat,唯一以开源为核心的SCRM

LinkWeChat是国内首个基于企业微信的开源SCRM,在集成了企微强大的开放能力的基础上,进一步升级拓展灵活高效的客户运营能力及多元化精准营销能力,让客户与企业之间建立强链接,帮助企业提高客户运营效率,强化营销能力&a…

python 图书馆选座小程序源码

开发工具: PyCharm,mysql5.7,微信开发者工具 技术说明: python django html 小程序 功能介绍: 用户端: 登录注册(含授权登录) 首页显示搜索房间,轮播图&#xff0…

三个写法统计整数前导0个数

从键盘输入一个整数(可能有前导0),编程统计其前导0个数,其法有三。 (笔记模板由python脚本于2023年12月03日 12:32:32创建,本篇笔记适合对python整型int和字符型str熟悉的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:http…

ftp的服务安装配置

安装 yum install -y vsftpd # 是否安装成功 rpm -qa | grep vsftpd # 是否开机启动 systemctl list-unit-files | grep vsftpd # 开机启动 systemctl enable vsftpd.service # ftp端口 netstat -antup | grep ftp # 状态 service vsftpd status service vsftpd start service…

使用drawio图表,在团队中,做计划,设计和跟踪项目

使用drawio图表,在团队中,做计划,设计和跟踪项目 drawio是一款强大的图表绘制软件,支持在线云端版本以及windows, macOS, linux安装版。 如果想在线直接使用,则直接输入网址draw.io或者使用drawon(桌案), drawon.cn内部…

如何做好小红书?9条小红书运营起号心得(必读)

关于小红书运营细节和方法,总结了以下9条起号心得,希望给近期新手们一些经验借鉴。 一、出现一条爆文后的策略当账号新发的一篇笔记流量起飞了,不要急于发布新内容。先让爆文的流量消耗殆尽,等流量开始减少时再发布新笔记。同时&…

vscode问题:此扩展在此工作区中被禁用,因为其被定义为在远程扩展主机中运行

mac按shiftcommandp windows按ctrlshiftP: 将当前项目文件夹添加进去就ok了。

布隆过滤器(Bloom Filter)全面讲解

目录 一. 前言 二. 使用场景 三. 布隆过滤器的原理 3.1. 数据结构 3.2. 空间计算 3.3. 增加元素 3.4. 查询元素 3.5. 修改元素 3.6. 删除元素 四. Redis 集成布隆过滤器 4.1. 版本要求 4.2. 安装 & 编译 4.3. Redis 集成 4.3.1. Redis 配置文件修改 4.3.2. …

【每日一题】可获得的最大点数

文章目录 Tag题目来源题目解读解题思路方法一:滑动窗口方法二:前缀和 写在最后 Tag 【滑动窗口】【前缀和】【数组】【2023-12-03】 题目来源 1423. 可获得的最大点数 题目解读 在一排卡牌中拿出 k 张卡牌,每次必须从这一排卡牌的开头或者…

基于OpenAPI工具包以及LSTM的CDN网络流量预测

基于LSTM的CDN网络流量预测 本案例是基于英特尔CDN以及英特尔 OpenAPI Intel Extension for TensorFlow* Intel oneAPIDPC Library 的网络流量预测,CDN是构建在现有网络基础之上的智能虚拟网络,目的是将源站内容分发至最接近用户的节点,使用…

视频生成的发展史及其原理解析:从Gen2、Emu Video到PixelDance、SVD、Pika 1.0

前言 考虑到文生视频开始爆发,比如11月份就是文生视频最火爆的一个月 11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品(runway是Stable Diffusion最早版本的开发商,Stability AI则开发的SD后续版本)11月16日&a…