现场工程师救火-UEFI(BIOS)节能设置导致金牌服务器只跑出龟速

近期协助出现场,解决了一个非常典型的UEFI 启动参数配置不当导致的服务器降效案例。错误的节能参数配置,导致价值几十万的服务器变成龟速服务器,并造成严重的生产事故。
龟速

1. 现象

朋友公司近期准备升级2010年就部署的服务器组,新升级的服务器使用了昂贵的大品牌 32 核64线程处理器,最高主频高达2.6GHz。服务器到位后,由于该配置比原先的12核心服务器不知道高了多少个档次,所以没有经过太细致的检测,就直接部署了生产逻辑。同时,鉴于新的服务器很刚,物理服务器机柜缩减了规模,服务器台数降低到1/2.

在新机器上线后,试着打开几个测试客户端,都没有问题。而后,试着运行智能客服、语音代理,也都打开了。可是到了第二天,大量用户反馈,语音客服半天没有反应,游戏的场景以及登入都变得异常缓慢。

运维初步查看日志,主要问题如下:

  1. 消息队列拥塞,写的没有落的快。
  2. NPC及智能场景算法在多用户高峰期无法实时,导致大量排队。
  3. 后台数据库查询缓慢,索引性能直线下降,比旧系统还慢了70%。

第一反应:是盘阵坏了?

磁盘

2. 分析

  1. 首先怀疑盘阵损坏,导致kafka、数据库IO瓶颈。但查看指示灯、查询SMART和日志,盘阵并没有问题。
  2. 查看系统监视器,磁盘IO很空闲,只有5%。延迟很小,固态SSD不是吃素的。
  3. 既然不是磁盘,那kafka、数据库为什么慢?查询配置,Kafka使用了数据压缩,zstd模式9。可能是CPU来不及,CPU除了Kafka压缩,还有很多游戏的算法工作。
  4. 查看CPU,64核心竟然跑满了40%多。这种负荷即使在以前老的节点上也没有遇到过。
  5. 查看CPU状态,惊奇发现主频只有 0.9GHz (该CPU理论上能达到3.1GHz峰值速率)。

3. 初步调整

这个情况运维一看,遇到过啊!就是电源节能的问题。

  1. 确认操作系统电源模式为主动散热,最大性能。没问题。
  2. 风扇是否损坏,导致CPU过热保护?查看温度,50度,这,感觉CPU在摸鱼,看似很忙其实没有出力。
  3. 试着调整各种OS参数,CPU主频始终在1.2GHz以下。
    CPU
    整到这里,运维就晕了。认为是服务器厂商忽悠买家,开始喷模式。老板找到老丁,连夜进驻。

4. 再次查看

老丁首先使用 CPU-Z 跑分,发现这个十几万的CPU跑分还没有我打游戏的i7好。无论多核还是单核,都是龟速。

而后,老丁也认为是电源管理问题,但了解后,认为OS层面已经做得差不多了。那,只剩主板层面的问题了。这种大厂服务器忽悠的可能性很小,更何况不可能每一台都有问题。一定是哪个配置不对。

吐槽一下:其实早该查看UEFI配置,无奈现在的服务器重启至少5分钟起步,老板不让下线,宁可保持着在线用户游戏到晚上再关机,也不能白天下线。

5. 锁定原因

老丁身体不好,等不及夜里3点了。找一个kafka节点服务器重启, 只要factor优于门限,应该不会影响客户体验。说干就干,F1进入 UEFI配置。

UEFI Setup——System Settings——Operating Modes

马上发现问题,系统被设置为节能模式。

直接修改为最大性能,保存重启。

服务器风扇开始暴躁模式100%Max,进入OS后,风扇开始减速,查看CPU主频到3.1GHz,完毕。

如法炮制,夜里三点,重启配置所有服务器全速工作,游戏进程流畅无比。性能比预想的还好,服务器还可以扩充其他用途。

6. 处理器电源管理参数设置

当代服务器和10年前相比,出场配置一般都是“绿色节能”模式。这种模式下,CPU是根本不能跑出满分的。本文为了照顾面子,就不贴图了。不管有没有遇到性能问题,都可以检查一下自己的服务器的CPU主频,是不是设置为节能模式了。个人认为,极端节能模式大可不必,只要允许最简单的动态频率即可。为了单个服务器的节能,导致需要部署更多的服务器来横向扩展,功耗反而更大了。

主要设置:

[BIOS]
Power-Saving Mod: Maximum Performance
Maximum Performance
C-States: Disable
C1 Enhanced Mode : Disable
Energy Efficient Turbo: Disable

如此配置后,在操作系统层面再设置为“Maximum Performance”模式,即可获得最大性能。如果需要动态频率,则适当打开C1等开关。注意的是不管开关如何,所有策略都选择“最佳性能”,就不会太差。

后记

服务器的节能指标固然重要,但为了满足业务流要求,使用单台高性能服务器还是要比横向扩展多台节能服务器要划算。用户在考虑配置时,要根据自身的情况来优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/15585.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 2 MapReduce and the New Software Stack

来源:《斯坦福数据挖掘教程第三版》对应的公开英文书和PPT Chapter 2 MapReduce and the New Software Stack Computing cluster means large collections of commodity hardware, including conventional processors (“compute nodes”) connected by Ethernet …

centos8 mysql 主从复制

♥️作者:小刘在C站 ♥️个人主页:小刘主页 ♥️每天分享云计算网络运维课堂笔记,努力不一定有收获,但一定会有收获加油!一起努力,共赴美好人生! ♥️夕阳下,是最美的绽放,树高千尺,落叶归根人生不易,人间真情 目录 Linux centos8

使用D435i深度相机运行ORB-SLAM3

下载安装链接 下载ORB-SLAM3地址: git clone https://github.com/UZ-SLAMLab/ORB_SLAM3.git eigen3多版本安装:https://blog.csdn.net/weixin_41756645/article/details/129570141 ORB-SLAM2中eigen3版本为:3.2.10版本 ORB-SLAM3中eigen3版…

【分布式】一致性哈希和哈希槽

当我们拥有了多台存储服务器之后,现在有多个key,希望可以将这些个key均匀的缓存到这些服务器上,可以使用哪些方案呢? 1. 普通哈希取模法 1.1 直接哈希取模 这是一种最容易想到的方法,使用取模算法hash(k…

AI绘图实战(七):室内设计线稿渲染、景观设计手绘稿改动、建筑照片转线稿|Stable Diffusion成为设计师生产力工具

S:AI能取代设计师么? I :至少在设计行业,目前AI扮演的主要角色还是超级工具,要顶替?除非甲方对设计效果无所畏惧~~ 预先学习: 安装及其问题解决参考:《Windows安装Stable Diffusion …

javaScript:cropperjs是一款非常强大却又简单的图片裁剪工具

cropperjs是一款非常强大却又简单的图片裁剪工具,它可以进行非常灵活的配置,支持手机端使用,支持包括IE9以上的现代浏览器。(关键是使用方法简单,几行代码就可以搞定) 官方github文档:GitHub -…

流程图拖拽视觉编程-流程编辑器

目录 一、简介 二、流程编辑器-视图实现 三、参考资料 一、简介 前期文章: 流程图拖拽视觉编程--概述_Jason~shen的博客-CSDN博客 本期内容: 本期将介绍流程编辑器模块的实现方法,效果图如下所示。该模块基于QT Graphics/View实现&…

使用FFMPEG库封装264视频和acc音频数据到MP4文件中

准备 ffmepeg 4.4 一段H264的视频文件 一段acc格式的音频文件 封装流程 1.使用avformat_open_input分别打开视频和音频文件,初始化其AVFormatContext,使用avformat_find_stream_info获取编码器基本信息 2.使用avformat_alloc_output_context2初始化…

solidity 安全 如何阻止重入攻击

什么是可重入攻击? 我们使用合约的过程中,经常会遇到这种情况,智能合约能够调用外部的合约;这些外部合约又可以回调到调用他们的智能合约;在这种情况下,我们说智能合约被重新输入,这种情况被称为…

Hive ---- Hive 安装

Hive ---- Hive 安装 1. Hive安装地址2. Hive安装部署1. 安装Hive2. 启动并使用Hive 3. MySQL安装1. 安装MySQL2. 配置MySQL3. 卸载MySQL说明 4. 配置Hive元数据存储到MySQL1. 配置元数据到MySQL2. 验证元数据是否配置成功3. 查看MySQL中的元数据 5. Hive服务部署1. hiveserver…

图像处理:均值滤波算法

目录 前言 概念介绍 基本原理 Opencv实现中值滤波 Python手写实现均值滤波 参考文章 前言 在此之前,我曾在此篇中推导过图像处理:推导五种滤波算法(均值、中值、高斯、双边、引导)。这在此基础上,我想更深入地研…

wvp开发环境搭建

代码下载地址 代码下载地址 https://gitee.com/pan648540858/wvp-GB28181-pro.git 开发工具 采用jetbrain idea 利用开发工具下载代码 文件-新建-来自版本控制的项目 url是上面的代码下载链接,点击克隆即可 下图是已经克隆并打开的代码 安装依赖环境 安装redi…

d2l Transformer

终于到变形金刚了,他的主要特征在于多头自注意力的使用,以及摒弃了rnn的操作。 目录 1.原理 2.多头注意力 3.逐位前馈网络FFN 4.层归一化 5.残差连接 6.Encoder 7.Decoder 8.训练 9.预测 1.原理 主要贡献:1.纯使用attention的Enco…

计算机网络学习03(OSI、TCP/IP网络分层模型详解))

1、OSI 七层模型 OSI 七层模型 是国际标准化组织提出一个网络分层模型,其大体结构以及每一层提供的功能如下图所示: 每一层都专注做一件事情,并且每一层都需要使用下一层提供的功能比如传输层需要使用网络层提供的路由和寻址功能&#xff0…

创建NAT模式KVM虚拟机

创建NAT模式KVM虚拟机 1 添加脚本执行权限(上传脚本文件至root目录)。 首先需要给脚本赋予执行权限。 # chmod x qemu-ifup-NAT 2 启动虚拟机。 通过命令启动虚拟机。(记得安装net-tools) # yum install net-tools -y # qemu-kvm -m 1024 -drive fi…

WSL怎么使用本机进行代理联网

文章目录 WSL怎么使用本机代理进行联网问题来源设置v2rayN设置wsl总结参考 WSL怎么使用本机代理进行联网 问题来源 使用WSL克隆github的代码网速很慢,无响应,导致项目无法下载,真的愁人。就想到为WSL设置xx上网,是否就会好很多。…

超级详细的华为OSPF实验及配置

什么是OSPF? 开放式最短路径优先OSPF(Open Shortest Path First)是IETF组织开发的一个基于链路状态的内部网关协议(Interior Gateway Protocol)。 目前针对IPv4协议使用的是OSPF Version 2(RFC2328&#x…

网络安全:通过445端口暴力破解植入木马。

网络安全:通过445端口暴力破解植入木马。 木马制作工具,如:灰鸽子等等 445端口是文件共享端口。可以进入对方文件硬盘进行植入木马: 使用文件共享进入对方磁盘: 在cmd输入net use \\x.x.x.x\ipc$ 之后会让你输入账号…

“数字中国·福启海丝”多屏互动光影艺术秀27日在福州举办

作为深化“数字海丝”的核心区、海上丝绸之路的枢纽城市,为喜迎第六届数字中国建设峰会盛大召开之际,福州市人民政府特此举办“数字中国福启海丝”多屏互动光影秀活动。本次光影秀活动是由福建省文化和旅游厅指导,福州市人民政府主办&#xf…

AutoGPT、AgentGPT、BabyAGI、HuggingGPT、CAMEL:各种基于GPT-4自治系统总结

ChatGPT和LLM技术的出现使得这些最先进的语言模型席卷了世界,不仅是AI的开发人员,爱好者和一些组织也在研究探索集成和构建这些模型的创新方法。各种平台如雨后春笋般涌现,集成并促进新应用程序的开发。 AutoGPT的火爆让我们看到越来越多的自…