【银河麒麟高级服务器操作系统】soft lockup软锁实例详细记录分析及处理建议

了解更多银河麒麟操作系统全新产品,请点击访问

麒麟软件产品专区:https://product.kylinos.cn

开发者专区:https://developer.kylinos.cn

文档中心:https://documentkylinos.cn

现象描述

启nginx服务,但是报了softlock的错误,而且当时负载比较高,资源占用

现象分析

message日志分析

查看message日志,发现在问题发生时在CPU 3上运行的nginx进程触发了大量的soft lockup软锁报错。

查看这些soft lockup软锁日志信息,发现从11:17-13:03里出现的这三十多次软锁报错基本一致,下面选取11:17:28时第一次出现软锁报错的日志进行分析。

May 14 11:17:28 localhost kernel: [1712957.391935] watchdog: BUG: soft lockup - CPU#3 stuck for 22s! [nginx:2858164]

May 14 11:17:28 localhost kernel: [1712957.393937] Modules linked in: qax_tq_base(OE) binfmt_misc ipt_MASQUERADE nf_conntrack_netlink nfnetlink iptable_nat nf_nat_ipv4 xt_addrtype iptable_filter xt_conntrack nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 br_netfilter bridge stp llc overlay sunrpc vfat fat aes_ce_blk crypto_simd cryptd aes_ce_cipher ghash_ce sha2_ce sha256_arm64 sha1_ce sch_fq_codel ip_tables virtio_net net_failover failover virtio_gpu ttm virtio_console [last unloaded: qax_tq_base]

May 14 11:17:28 localhost kernel: [1712957.403317] CPU: 3 PID: 2858164 Comm: nginx Kdump: loaded Tainted: G           OE     4.19.90-17.ky10.aarch64 #1

May 14 11:17:28 localhost kernel: [1712957.405727] Hardware name: SmartX SMTX OS, BIOS 0.0.0 02/06/2015

May 14 11:17:28 localhost kernel: [1712957.407187] pstate: 60400005 (nZCv daif +PAN -UAO)

May 14 11:17:28 localhost kernel: [1712957.408391] pc : clear_page+0x10/0x24

May 14 11:17:28 localhost kernel: [1712957.409341] lr : __cpu_clear_user_page+0xc/0x18

May 14 11:17:28 localhost kernel: [1712957.410470] sp : ffff8003d655fb70

May 14 11:17:28 localhost kernel: [1712957.411351] x29: ffff8003d655fb70 x28: 0000000000000002

May 14 11:17:28 localhost kernel: [1712957.412656] x27: ffff8003cf72f360 x26: ffff8003d1f94f80

May 14 11:17:28 localhost kernel: [1712957.413956] x25: 0000ffff6f680000 x24: 0000ffff6f680000

May 14 11:17:28 localhost kernel: [1712957.415244] x23: ffff8003cf72f300 x22: ffff8003d9ce7710

May 14 11:17:28 localhost kernel: [1712957.416559] x21: ffff8003d655fc88 x20: ffff7fe000441700

May 14 11:17:28 localhost kernel: [1712957.417853] x19: 0000000000000000 x18: 0000000000000000

May 14 11:17:28 localhost kernel: [1712957.419165] x17: 0000000000000000 x16: 0000000000000000

May 14 11:17:28 localhost kernel: [1712957.420475] x15: 0000000000000000 x14: 0000000000000000

May 14 11:17:28 localhost kernel: [1712957.421774] x13: 0000000000000000 x12: 0000000000000000

May 14 11:17:28 localhost kernel: [1712957.423109] x11: 0000000000000000 x10: 0000000000000001

May 14 11:17:28 localhost kernel: [1712957.424453] x9 : ffff8003ffeb3ed8 x8 : 00008003f6e80000

May 14 11:17:28 localhost kernel: [1712957.425768] x7 : 0000000000000000 x6 : 0000000000000001

May 14 11:17:28 localhost kernel: [1712957.427096] x5 : 000000000000fffd x4 : 00008003f6e80000

May 14 11:17:28 localhost kernel: [1712957.428427] x3 : 0000000000000897 x2 : 0000000000000004

May 14 11:17:28 localhost kernel: [1712957.429751] x1 : 0000000000000040 x0 : ffff8001105c0000

May 14 11:17:28 localhost kernel: [1712957.431061] Call trace:

May 14 11:17:28 localhost kernel: [1712957.431732]  clear_page+0x10/0x24

May 14 11:17:28 localhost kernel: [1712957.432624]  wp_page_copy+0x514/0x6d0

May 14 11:17:28 localhost kernel: [1712957.433590]  do_wp_page+0x98/0x648

May 14 11:17:28 localhost kernel: [1712957.434476]  __handle_mm_fault+0x828/0xc10

May 14 11:17:28 localhost kernel: [1712957.435519]  handle_mm_fault+0x104/0x200

May 14 11:17:28 localhost kernel: [1712957.436520]  do_page_fault+0x210/0x508

May 14 11:17:28 localhost kernel: [1712957.437471]  do_mem_abort+0x3c/0xd0

May 14 11:17:28 localhost kernel: [1712957.438368]  el0_da+0x24/0x28

问题时间点首次触发soft lockup的内核日志如上所示,可以看到触发软锁的原因是CPU 3上nginx:2858164卡住22秒无响应。之后查看该软锁对应的call trace堆栈,可以看到此时nginx进程遇到了一个内存缺页异常,在进行写时复制处理时尝试清理内存页面内容,但该操作长时间未完成导致CPU 3长时间未响应触发软锁。

do_mem_abort //内存访问异常函数

->do_page_fault //直接处理页面错误的函数,包括分配新页面或从磁盘加载页面到内存等操作

->handle_mm_fault //用于用户空间内存访问错误的处理,__handle_mm_fault函数的上层调用

->__handle_mm_fault //内核处理内存管理故障的核心函数

->do_wp_page //处理写保护页面的函数

->wp_page_copy //写时复制(Copy-on-Write, COW)机制处理,当一个进程试图写入共享页面时,会触发此操作

->clear_page //用于清除页面的内容,通常作为页面分配或回收过程的一部分

从上述堆栈上来看这是一个正常的处理流程,进程触发内存缺页中断,并在处理写保护页时进行内存页清理处理。通常来说内存清理不会花费大量的时间,除非相关硬件存在问题或系统内存处于一个十分紧张的状态,一直无法得到一个可用的内存页。

内存使用情况分析

上面我们分析nginx应用触发软锁的原因,针对问题可能出现的原因,我们要去分析问题时间点的系统内存资源使用情况。

首先查看系统整体内存及min_free_kbytes参数情况,可以看到当前机器总内存为16143744KB,min_free_kbytes为802944KB。

查看问题时间点的sar日志,可以看到在5.14日的11:10后系统空闲内存突然下降到min水位线附近,available直接降至为0。从11:10-11:20这十分钟里系统内存就到了一个及其紧张的地步。

而查看这十分钟内存的一个内存使用变化,我们发现了一个十分奇怪的现象。在11:10时,系统的缓存cached、匿名内存anonpg、slab、free等参数加起来之和为15924576KB,和系统总内存大小基本一致。

但到了11:20时free和cached大幅度下降,anonpg、slab等内存却又没有明显上升。同样计算各类内存参数统计之和后发现仅有4338688KB,远小于总内存大小,大量内存突然异常消失。这应该就是导致nginx进程在触发缺页异常时一直无法清理得到一个可用内存页的原因。

内存异常消失情况分析

Linux kernel并没有滴水不漏地统计所有的内存分配,kernel动态分配的内存中就有一部分没有计入/proc/meminfo中。大量内存突然不知所踪,无法在各类内存统计项中找到,这个通常被称为内存黑洞或者内存幽灵现象。

由于黑洞内存无法直接找到,通常都是要根据历史经验并结合实际环境进行相关分析。当前环境已经重启,无法再追踪问题时间的相关信息。但这类问题通常都是由于驱动应用、硬件异常或是虚拟化环境宿主机异常导致。

例如华为hns3网卡驱动初始化会占用大量内存、VMware的balloon驱动会在宿主机内存紧张时直接挤占虚拟机内存,又或是物理机硬件、虚拟化环境异常导致虚拟化系统层无法获取相关内存状态。

本次问题环境查看为虚拟化环境,且是在运行了一段时间后才出现大量内存不知所踪,因此问题原因大概率在虚拟化平台。

建议排查虚拟机问题时间点进行的相关操作以及宿主机虚拟化平台状态。

总结

综上所述,本次服务器出现soft lockup的原因为nginx进程启动时进行内存缺页异常处理,在进行写时复制处理时尝试清理内存页面内容,但该操作长时间未完成导致CPU 3长时间未响应触发软锁。

查看soft luckup堆栈,这是一个正常的处理流程,进程触发内存缺页中断,并在处理写保护页时进行内存页清理处理。通常来说内存清理不会花费大量的时间,除非相关硬件存在问题或系统内存处于一个十分紧张的状态,一直无法得到一个可用的内存页。

分析问题时间点内存使用情况,发现在11:10-11:20中系统大量内存突然不知所踪,available直接变为0,free也来到min水位线附近。这就是导致上述nginx进程启动卡在clear_page函数的原因。

对于大量内存突然不知所踪,无法在各类内存统计项中找到这类内存黑洞现象,通常都是由于驱动应用、硬件异常或是虚拟化环境宿主机异常导致。建议排查虚拟机问题时间点进行的相关操作以及宿主机虚拟化平台状态。

备注

除了上述soft lockup问题外,服务器重启后nginx version: openresty/1.21.4.1应用在reload后就会一直有个进程shutting down,要等几分钟才能没有。

对该现象,由于应用并非麒麟方面适配的rpm应用,而是自行安装,无法确认应用编译、安装时是否存在问题。但nginx应用reload后进程出现shutting down状态本身是个正常现象。使用 reload重载nginx,这是一种平滑重启的方案,不会把已有的连接断掉,而是会继续维护已有连接的 nginx 进程,这些进程会进入worker process is shutting down 状态,直至其所有连接处理结束才会退出,退出之前这些shutting down 状态的worker不会处理新的连接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/872193.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

postman注入csrf

示例脚本 参数配置位置 必要参数 django项目仅需要设置domain即可,比如www.baidu.com,baidu.com尽量域名精确避免修改到其他域的参数 必须把这个domain添加到 cookies->Manage cookies ->Domains Allowlist 中,否则cookie的注入失败 代码 // 必…

领衔登榜!凯伦股份入选2024年度市级工业设计中心名单

近日,由苏州市工信局认定的2024年度市级工业设计中心名单正式完成了公示,江苏凯伦建材股份有限公司领衔登榜。 据了解,工业设计是指以工业产品为主要对象,综合运用科技手段和工学、美学、心理学、经济学等知识,对产品的…

142. Go操作Kafka(confluent-kafka-go库)

文章目录 Apache kafka简介开始使用Apache Kafka构建生产者构建消费者 总结 之前已经有两篇文章介绍过 Go如何操作 kafka 28.windows安装kafka,Go操作kafka示例(sarama库) 51.Go操作kafka示例(kafka-go库) Apache ka…

vscode +STM32 VS CODE EXTENSION

stm32 vs code extersion 1.0.0版本可以直接导入cubeide的工程,之后版本不可以,所以为了省事,使用stm32 vs code extersion 1.0.0插件。 安装完stm32 vs code extersion插件,会默认把相关插件一起安装。但是需要手动安装Ninja&am…

借老系统重构机会我写了个groovy规则引擎

公司老系统的重构计划早就有了,为了对Java硬编码的各种校验规则进行重构,特地参考了相关技术,最终选择了groovy进行了系统的学习,并编写了一个即插即用的轻量级规则引擎。 文章目录 项目背景技术选型groovy的性能groovy脚本执行线…

AI科学家:自动化科研的未来之路

随着人工智能(AI)技术的不断进步,AI已经在众多领域中展现了强大的潜力,尤其是在科研方面的应用正在引起广泛关注。最近,Sakana AI与牛津大学和不列颠哥伦比亚大学联合推出了一款被称为“AI科学家”的自动化科研工具&am…

提升LLM结果:何时使用知识图谱RAG

通过知识图谱增强 RAG 可以帮助检索,使系统能够更深入地挖掘数据集以提供详细的响应。 有时,检索增强生成 (RAG) 系统无法深入文档集以找到所需的答案。我们可能会得到泛泛的或肤浅的回复,或者我们可能会得到回复,其中 RAG 系统检…

IA——网络操作设备VRP简介

一,VRP简介 二,网络设备的管理 (1)console口: (2)talnet: (3)SSH: 安全的远程登陆 (4)通过WEB页面登录: 三,命令行常见…

周星驰《大话大话西游》开机,“悟空热”席卷短剧市场?

继《黑神话:悟空》掀起文娱行业的“悟空热”之后,对市场变化最为敏感的短剧行业也赶上了这波热潮。 9月2日,由丽泽影业承制、周星驰九五二七剧场的第二部短剧《大话大话西游》正式开机。 从剧名就不难看出,《大话大话西游》是周星…

MySQL数据库安装(详细)—>Mariadb的安装(day21)

该网盘链接有效期为7天,有需要评论区扣我: 通过网盘分享的文件:mariadb-10.3.7-winx64.msi 链接: https://pan.baidu.com/s/1-r_w3NuP8amhIEedmTkWsQ?pwd2ua7 提取码: 2ua7 1 双击打开安装软件 本次安装的是mariaDB,双击打开mar…

OPC DA

默认端口号: TCP 135 参考https://wenku.baidu.com/view/8f2b18a229f90242a8956bec0975f46527d3a7e4.html?_wkts_1725526157944&bdQuery%E6%9F%A5%E7%9C%8B%E8%A5%BF%E9%97%A8%E5%AD%90opcDA%E7%AB%AF%E5%8F%A3%E5%8F%B7 OPC DA ,OPC UA简介https://www.cnblogs.com/mi…

Vue3 + Ts + Vite项目 websoket封装使用

文章目录 一、安装二、封装三、请求地址配置3.1 将接口地址放到 public3.2 引入 ipconfig.js 文件3.3 全局类型声明 四、页面使用4.1 引用4.2 注册 五、说明 一、安装 npm npm install websocket --save-devpnpm pnpm install websocket --save-dev二、封装 在 /src/utils …

类的加载过程与初始化小记

//部分内容来自“狂神说java” 代码验证 解释 1.加载类的信息,加载到内存中,如例子,将Test05和A类的信息加载到方法区, 2.加载完成后,立马生成一个class对象,如例 java.lang.class对象代表Test05类..., 3…

软件测试-Selenium+python自动化测试

目录 会用到谷歌浏览器Chrome测试,需要下载一个Chromedriver(Chrome for Testing availability)对应自己的浏览器版本号选择。 一、元素定位 对html网页中的元素进行定位,同时进行部分操作。 1.1一个简单的模板 from selenium import webdriver from selenium.webdrive…

Elastic Stack-ES集群常用的API

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 学习B站博主教程笔记: 最新版适合自学的ElasticStack全套视频(Elk零基础入门到精通教程)Linux运维必备—Elastic…

Origin2024中如何添加误差带?直观查看数据的变化范围

误差线是通常用于统计或科学绘图中,本期给大家分享Origin中绘制带填充区的误差带图,可以直观显示数据的变化范围,填充区域也可以增加视觉效果和美观性 操作步骤: 1、打开Origin2024软件,然后在Book1中输入如下示例数…

街机 SNK NeoGeo 中英文名字与驱动对照表

Part.I 简介 本文列举了街机 NeoGeo 中游戏的中英文名字与其驱动的对照,以帮助诸位更快地找到自己想玩的游戏。 注意:汉化版的街机模拟器 Kawaks 中游戏的中文名字是根据英文直译的,并不是习惯性的中文叫法。比如『三国志』英文名为『Warrio…

深度学习5从0到1理解RNN(包括LTSM,GRU等):内容丰富(上)

循环神经网络(Recurrent Neural Network, RNN) 是一种经典的深度学习网络结构,具有广泛的应用。其中,槽填充(Slot Filling)(即识别自然语言中的特定信息) 是其中一个应用场景&#x…

OpenSCAD 基础教程

OpenSCAD 基础教程 文章目录 OpenSCAD 基础教程1. 引言2. 安装与设置3. OpenSCAD 基本概念与语法3.1 基础形状3.2 变换操作3.4 布尔运算3.4 控制流3.5 特殊功能 4. 实践案例:创建一个简单的机械部件5. 高级技巧6. 导出与3D打印7. 常见问题与解决方案8. 结语 1. 引言…

虚拟机的安装-详细教程

目录 新建虚拟机 选择典型 安装操作系统 选择CentOS7 64位版本 虚拟机存放位置 磁盘容量 完成 编辑虚拟机 修改内存大小 设置处理器个数 选择镜像 开启虚拟机 进入界面,回车 选择语言 安装类型 磁盘分区 开启网络 设置密码和用户 重启 接受许可…