一次压测引发的数据库 CPU 飙升

一次压测引发的数据库CPU飙升

作者:昀鹤

一次压测过程中,当数据库的 qps 和 tps 都正常时,如果 cpu 利用率异常的高,应该如何排查?希望通过这篇文章,给你一些启发...

一、业务背景

业务需要控制频道内兑换现金的数量,于是在产品设计上给兑换现金增加了库存限制。

在此基础上形成了秒杀场景,峰值时核心接口 qps 上涨了近 600 倍(几十到几万) ,因此需要进行压测来对系统和 DB 水位摸一下高。

二、压测准备

大致分为下面几个步骤:

1)压测流量评估:就是定一下每个接口大致压测多少 qps,以及压测时到各个下游系统的流量估计。

2)压测改造:因为压测都是用的压测账户,在频道里没有历史痕迹,很多逻辑是走不到的,并且这些逻辑的不同,会直接影响到数据库和下游的流量,因此我们需要根据频道的现有数据进行链路的 mock(包括上述的流量评估也得基于这些不同链路的比例去算),举例如下:

3)测试 &发布:既然改了代码,还是得交给可爱的测试同学回归下线上链路的,当然压测的链路就可以自己测一测了,看看改造是否符合预期,hsf 控制台可以很方便的模拟影子链路:

4)下游流量报备:当然还是得跟各个下游系统知会一声的,切勿悄悄滴进村,打枪滴不要。

5)压测数据准备:主要是压测平台上的各种接口和压测流量配置(注意减去压测时的背景流量),以及压测账号申请等等(这一步也是交给测试同学)。

6)小流量预跑:在正式压测之前,大概用 1%的流量先跑一下,看看本身系统以及下游是否有异常(这一步很有必要,有时候下游系统比较复杂,可能部分场景并不能支持压测流量,提前跑一下能发现很多问题,避免正式压测的时候下游报警,然后就是👋忙🦶乱)。

三、问题出现

好了,万事具备,经过上面一系列步骤,想必本次压测一定是顺顺利利吧!

压测,启动!

====== 10%压测流量,cpu 利用率 11% ====== 挺正常

====== 30%压测流量,cpu 利用率 20% ====== 稳中向好

====== 50%压测流量,cpu 利用率 30% ====== 符合预期

====== 80%压测流量,cpu 利用率 50% ====== 感觉有点问题,但是说不出来哪里有问题!

====== 100%压测流量,cpu 利用率 80% ===== 嗯?好像不对劲?有点高

====== 100%压测流量,稳定几分钟后,突然飙到 100% ===== .....卧槽,肯定有问题,暂停压测!

唉,还是太年轻了。

赶紧排查,先拉了压测时间段的 cpu 曲线图:

看着 cpu 的监控图,我的脑海里浮现了三个疑问:

1.同等流量下,压测时的 cpu 利用率为什么高于线上实际值(线上约等于压测 80%流量时,cpu 利用率实际 40%不到,压测时已经到 60%了)?

2.流量 80%时,为什么压测流量持续不动,cpu 利用率会缓慢上涨呢?

3.流量 100%时,分明一开始 cpu 利用率还维持在 80%以下,然后突然就飙到 100%了?

总体来说,就是 CPU 高于预期。

四、问题排查

第一时间我猜测是我的压测改造不符合预期,导致打到 db 的 qps 和 tps 过高导致

急了,开始看代码,然后挑了几个压测 trace 在鹰眼上看调用,没找到问题。

然后发现我好蠢呐(主要是有点慌张),dbservice 本身就有 tps 和 qps 的监控:



看了一下,有两点,一是持续压测的时候,qps 并没有持续上涨二是差不多同流量下 qps 的值确实略高于线上实际值,但远远没有 cpu 差值这么多,所以基本可以排除一开始的猜测。



陷入了瓶颈.....



这时候我知道今天的压测指定是不行了,所以很干脆地摆了,开始安心的找问题~

4.1 发现疑点

这时候拉了 DBA 同学一起帮我们看问题,DBA 同学表示,一,数据库在长时间高压下会发生性能劣化,这也是 cpu 从 80%突然暴涨到 100%的原因(解答了第三个问题),至于 CPU 利用率异常是表象,qps 和 tps 只是其中一个影响因素,建议我们看看其他指标。

于是挨个查看数据库性能指标(带宽、慢 sql、RT....),然后终于发现了一个疑点:



这个缓慢升高的行读,非常符合压测流量 80%时 cpu 曲线的变化,很可能是问题二的原因...



那是不是也有可能是问题一的原因呢?

4.2 确认疑点

对比正常峰值流量下的行读指标

好吧,这都差了一个数量级了,基本可以确定问题出在行读异常上了



开始思考为什么行读这么多还在持续上涨,难道是同一个 sql 查出来的行数会变多

4.3 定位 sql

其实这时候心里已经隐隐约约猜到问题在哪了,但还是顺着这个行读异常排查下去



通过对比定位到了有问题的 sql



压测时:

正常时:



点进去也能看到具体的 sql 信息:



好吧,和我猜的一样,这下悬着的心终于死了。

4.4 代码分析

至于为什么同一条 sql 压测的平均行读会高这么多,还是得从代码层面来分析。



首先先看下改造逻辑和逻辑推导:

这么压测改造的原因是压测的账号是有限的(同一批压测账号重复的去轮询),如果所有账号都调过一遍接口,那后面的每次查询都能查到任务,不会再有 DB 写,为了更好的模拟线上实际情况,因此通过这种方法去让账号重新路由到注册逻辑。



然后看下任务的查询逻辑,如下:

private TaskInstanceParam createQueryParamByEffectiveTime(TaskQueryParam queryParam) {        final TaskInstanceParam dbQueryParam = new TaskInstanceParam();        Date now = TimeTravelManager.getCurrentTime(queryParam.getUserId());        dbQueryParam.createCriteria()            .andUserIdEqualTo(queryParam.getUserId())            .andBizTypeEqualTo(queryParam.getBizType())            .andTemplateIdEqualTo(queryParam.getSubBizType())            .andEffectiveStartTimeLessThanOrEqualTo(now)            .andEffectiveEndTimeGreaterThan(now);        dbQueryParam.appendOrderByClause(OrderCondition.EFFECTIVESTARTTIME, SortType.DESC);        dbQueryParam.setPagination(1, 1);        return dbQueryParam;    }

复制代码

其实就是查询符合 effectiveStartTime <= now < effectiveEndTime 的最新一条任务, 所以每次注册插入的任务,都会在下次同一账号查询时,为 sql 多加一条符合条件的行记录



至此原因已经很清晰了:随着压测的持续进行,每一个账户注册的任务条数会越来越多,因此同一条 sql 查询到的符合条件的行数会越来越多,CPU 就会花费越来越多的资源逐行处理。



后续的解法:

1)查询的时候 mock 到数据的 userId(提前准备好的线上实际来访 userId,随机取一个);

2)因为不影响查询了,所以插入逻辑不变。

五、原理刨析

接下来请 ChatGpt 老师上台,为我们普及下相关原理:

我 :什么是行读,行读高 cpu 利用率就高嘛?



我 :哦,听起来行读是比较笼统的概念,那什么是逻辑读和物理读呢,区别在哪里?



我:嗯哼,原理解释有点干燥,画个关系图(挑衅)?



我:啊?阿珍你来真的啊?



我:那总结一下,其实就是行读包括逻辑读和物理读两种,前者优于后者,平时的开发中,应该注意合理建立索引和优化 sql,来减少扫描整体行读数以及物理读的次数呗,说的对就夸一下我

六、反思

1.压测流量 80%时,就应该敏感地关注到 cpu 是高于日常水位的,其实可以避免压测调到 100%的 cpu 飙升;

2.对于 DB 的性能指标,压测时只关注了最表层的 cpu 利用率,其他的性能指标监控没有关注到位;

3.对于我们的任务场景下,查询的是有效期内的最新一条任务,实际上不太适合反复注册的压测 mock,所以在压测改造时,还需要关注改造方式与场景的匹配程度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730155.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

肆拾玖坊三级众筹模式玩法揭秘,白酒体验馆运作模式

发展至今&#xff0c;肆拾玖坊已积累了数百万忠实用户&#xff0c;拥有100多家分销商、5000多个新零售终端&#xff0c;覆盖全国34个省级行政区域、200余地市、1500个县区。成为中国创业界和酒行业的“现象级”企业。 今天&#xff0c;我们就来深入解析肆拾玖坊的营销模式&…

智能猫砂盆效果这么惊艳吗?绝对不踩雷的智能猫砂盆合集来啦

身为一个铲屎官&#xff0c;我深受“天天铲屎”的困扰。想要片刻放松都不行&#xff0c;因为猫砂盆一旦堆积屎尿&#xff0c;尤其在夏天&#xff0c;会迅速发臭&#xff0c;滋生细菌。对猫而言&#xff0c;不清理猫砂盆会让它们感到不适&#xff0c;可能引发疾病或拒绝使用猫砂…

C#唯一进程的处理Winform/WPF

C#唯一进程的处理 1.使用进程&#xff08;Process&#xff09;判断winformWPF执行效果&#xff1a; 2.使用互斥体&#xff08;Metux&#xff09;实现winformWPF实现效果&#xff1a; 在C#客户端&#xff08;Winform/WPF&#xff09;开发过程中&#xff0c;有的情况需要确保程序…

ubuntu22.04安装onlyoffice社区版

安装unbuntu22.04 https://blog.csdn.net/qq_36437991/article/details/135915360 安装onlyoffice sudo apt-get update sudo apt-get upgradepostgresql sudo apt-get install postgresql创建用户和数据库 sudo -i -u postgres psql -c "CREATE USER onlyoffice WIT…

ERP系统品牌大比拼:哪款产品更适合您的企业?

ERP集成了企业的销售、采购、生产、财务等各个环节&#xff0c;实现了资源的优化配置和信息的实时共享。然而&#xff0c;面对市场上琳琅满目的ERP系统产品&#xff0c;许多企业却陷入了选择的困境。 “哪款ERP系统更适合我的企业呢&#xff1f;”这或许是每一位企业决策者心中…

【STM32】SysTick系统滴答定时器

1.SysTick简介 CM4内核的处理和CM3一样&#xff0c;内部都包含了一个SysTick定时器&#xff0c;SysTick 是一个24 位的倒计数定时器&#xff0c;当计到0 时 &#xff0c;将 从RELOAD 寄存器中自动重装载定时初值。只要不把它在SysTick 控制及状态寄存器中的使能位清除&#xf…

免费ai写作?这三款软件是你的好帮手!

在信息爆炸的今天&#xff0c;自媒体已成为越来越多人展现自我、分享知识的平台。然而&#xff0c;对于许多自媒体创作者来说&#xff0c;写作过程中的灵感枯竭、文笔不畅等问题常常困扰着他们。幸运的是&#xff0c;随着人工智能技术的飞速发展&#xff0c;免费AI写作软件应运…

MyBatisPlus基础学习

一、简介 二、集成MP 三、入门HelloWorld 四、条件构造器EntityWrapper 五、ActiveRecord(活动记录 ) 六、代码生成器 七、插件扩展 八、自定义全局操作 九、公共字段自动填充 十、Oracle主键Sequence 十一、Idea快速开发插件 十二、mybatis-plus实践及架构原理

一文带你全面详细了解安全运维

一、安全运维-网络 1、IP地址相关 IP地址属于网络层地址&#xff0c;用于标识网络中的节点设备。 IP地址由32bit构成&#xff0c;每8bit一组&#xff0c;共占用4个字节。 IP地址由两部分组成&#xff0c;网络位和主机位。 IP地址分类&#xff1a; 类别网络位子网掩码私有地…

【OceanBase诊断调优】 —— DDL时报磁盘不足问题排查

1. 背景 由于在4.x的部分版本中&#xff0c;我们对于一些ddl操作还存在磁盘空间放大问题&#xff0c;本文主要介绍了这一类问题的排查。 2. 问题排查 2.1 整体排查链路 2.2 问题现象 DDL过程中报磁盘空间不足&#xff0c;需要确认是否符合预期&#xff0c;如果是符合预期&a…

告别数据孤岛,Xinstall助力App广告投放实现全渠道归因!

在移动互联网时代&#xff0c;App的推广和运营已成为企业不可或缺的一部分。然而&#xff0c;面对五花八门的广告渠道和繁杂多样的投放方式&#xff0c;如何有效追踪广告和渠道效果&#xff0c;如何甄别和选择流量渠道&#xff0c;成为了众多App开发商和运营者头疼的问题。幸运…

Qt制作程序启动界面类QSplashScreen实例测试详解

目录 一、QSplashScreen的概述 二、QSplashScreen静态图片加载 1、主程序实现 2、mainwindow.h实现 3、mainwindows.cpp实现 三、QSplashScreen动态图片加载 1、主程序实现 2、mainwindow.h实现 3、mainwindows.cpp实现 一、QSplashScreen的概述 QSplashScreen&#x…

LabVIEW电磁超声热态金属在线缺陷检测系统

LabVIEW软件开发的电磁超声热态金属在线缺陷检测系统针对极端高温环境下的金属材料&#xff0c;进行实时、无损的缺陷检测&#xff0c;具有高精度和高可靠性&#xff0c;能够显著提高材料质量控制的效率和准确性。 项目背景 随着工业技术的发展&#xff0c;高温环境下的金属材…

SQL Server入门-SSMS简单使用(2008R2版)-1

环境&#xff1a; win10&#xff0c;SQL Server 2008 R2 参考&#xff1a; SQL Server 新建数据库 - 菜鸟教程 https://www.cainiaoya.com/sqlserver/sql-server-create-db.html 第 2 课&#xff1a;编写 Transact-SQL | Microsoft Learn https://learn.microsoft.com/zh-cn/…

day01-anaconda的安装

Anaconda的安装 参考地址&#xff1a; http://t.csdnimg.cn/mUmSp 安装完毕&#xff0c;可以卸载电脑中的其他python版本&#xff0c;在控制面板中进行卸载。 在命令行指令中输入 pythonPython 3.8.3 (default, Jul 2 2020, 17:30:36) [MSC v.1916 64 bit (AMD64)] :: An…

DSP应用市场的大蛋糕,国产厂商能吃下多少?

DSP是数字信号处理器&#xff08;Digital Signal Processor&#xff09;的简称&#xff0c;是一种专门用于高速数学运算的微处理器。DSP能够快速且准确地处理数字信号&#xff0c;同时具备可编程和低功耗等特点&#xff0c;如今在各个领域发挥着越来越重要的作用。 &#xff08…

【Spine学习11】之 战士攻击动作 思路总结(手动调整贝塞尔曲线实现前快后慢)

拿到一份psd文件先观察检查一下图片顺序有没有问题&#xff0c; 重点看一下人物的腿部分层&#xff0c;&#xff08;如果是大小腿分开画的就网格可打可不打&#xff0c;如果是连在一起画的&#xff0c;那必须打网格&#xff09; 拿着剑的时候剑和手的层级有没有错位&#xff0c…

六、在Qt下通过PCL在VTK9.3.0下显示自己的pcd点云文件

前几天刚整理好VTK8.2.0&#xff0c;发现我们的项目使用的PCL自带的VTK是9.3.0的&#xff0c;脸黑了快 VTK8.2.0可参考该篇博文&#xff1a;五、在Qt下加载QVTKWidget控件&#xff08;VTK8.2.0&#xff09;&#xff0c;生成Visual Studio项目&#xff0c;显示点云&#xff08;C…

02 Shell 编程之条件语句

目录 2.1 条件测试语句 2.1.1 文件测试 2.1.2 整数值比较 2.1.3 字符串比较 2.1.4 逻辑测试 2.2 if 条件语句 2.2.1 if 语句的结构 1. 单分支if 语句 2. 双分支if 语句 3. 多分支if 语句 2.2.2 if 语句应用示例 1. 单分支if 语句应用 2. 双分支if 语句应用 3. 多分支if 语句应…

chrome浏览器 network 显示感叹号(chrome network thinttling is enabled)

chrome浏览器上network出现一个黄色感叹号&#xff0c;鼠标移上去提示chrome network thinttling is enabled&#xff0c;这是因为开启了节流模式&#xff0c;直接把网络模式改为no throttling&#xff08;有的浏览器为online&#xff09;就可以了。 ##Tips&#xff1a; 1、n…