从运维故障中你都学到了什么?

一阵急促尖锐的铃声响起,王一搏忐忑不安地接起电话,被告知系统有20台服务器批量重启。

20 台!批量重启!意识到问题的严重性,王一搏迅速调整好状态,准备投身一场激烈的救火工作中。

然而事件的走向却远远超出预期.....请看word VCR。

P1-故障发现

一,上午9点监控系统异常报告:20台服务器批量重启。

图片

值守专家推测2种可能:一是内网i53主机硬件告警,初步判断是X86设备i53发生故障,导致设备上的虚拟服务器进行迁移重启。

而通过告警详情,显示磁盘运行正常。推测排除。

图片

二,在批量重启中,内网i54主机硬件-x86-温度状态异常告警。    

图片

定位问题,进一步求证。

P2-准确定位,快速解决

二级moc工程师登录主机管理软件。发现i53、i54两台主机的虚拟机服务器批量重启时间与内存PCH和PCLe同时温度状态异常告警相符合。

图片

基本锁定内存故障。沟通更换内存条后,故障再没有出现,问题解决。

在故障处理的整个过程中,王一搏只接了两个电话,一个是告知系统故障,一个是提醒更换内存条。预想的问题排查,专家会诊,故障定位和技术支持乃至通宵加班......竟然一个都没有出现,故障就这么轻松解决了。

实际上,除了紧急问题的处理效率,从全年的数据上看,管家式运维服务也是颇有成效,例如,全年没发生过一次非计划性停机时间,过去每年总会有十次八次的出现;告警问题更是减少65%以上,运维事故减少80%......运维工作再也不用又肝又氪,放得下手机,拿得起报告,从业七年终于对齐了工作颗粒度。   

故障教会了什么?最直接有效的是利用好工具!

用好工具,能够准确的事前预测,被动救火转变为主动预防;

用好工具,能够获得准确的告警信息,便于快速定位解决问题;

用好工具,能够共享行业技术发展成果,AI场景化落地,更快、更准,更高效!

这就是LinkSLA智能运维管家的核心服务——管家型运维平台。

 一站式监控

通过构建统一监控平台,对业务系统和IT基础架构进行统一监控和集中管理,可实时掌握系统、设备的运行状,通过可视化大屏可直观地查看。

平台支持集中对象展示与自动分类展示,可直观了解当前IT系统运行状态,运维人员无需单独登录每个系统、检索个别设备,监控和管理相结合,提高IT系统及设备的整体运行质量,增强IT基础设施运行的稳定性和可靠性,同时提升信息部门的IT管理水平。

 风险感知能力

包含故障告警与风险预测。

故障告警针对突发故障情况,如硬件损坏、网络中断等不可预知、不可抗因素,通过实时监控和发送告警信息,提醒运维人员响应故障解决。

风险预测主要针对资源消耗,如存储消耗、CPU性能消耗等,通过AI算法,预估资源消耗趋势,推算出阈值告警触发时间,事先做好资源配置,提高系统的稳定性。

 可视化能力

将复杂的数据转为易于理解的图表,如可配置的网络拓扑、业务拓扑,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,可以快速定位故障,大幅缩短故障定位、排查时间,并为解决故障提供有效依据。

 moc值守服务

moc提供7*24在线值守,并配备二线专家团队,提高事件的响应及处理效率,大大降低人力成本和专家技术成本。

 个性化报表服务

满足客户个性化需求,平台内置报表功能,可针对特定的业务系统,提供日报表、周报表,展示数据趋势,以及性能分析结果;也可以通过告警统计功能,从不同的视角观测系统健康状况。

以智能驱动运维精细化管理,统一监控构建全面的IT资源梳理和实时告警的智能运维模式,帮助用户实现功能完善,效率优先的运维支撑,推动用户信息化发展。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/681730.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

硕士课程 可穿戴设备之作业一

作业一 第一个代码使用的方法是出自于[1]。 框架结构 如下图,不过根据对代码的解读,发现作者在代码中省去了对SSR部件的实现,下文再说。 Troika框架由三个关键部件组成:信号分解,SSR和光谱峰值跟踪。(粗…

解决MAC M1 Docker Desktop启动一直在starting

问题描述: 今天使用docker buildx 构建Multi-platform,提示如下错误: ERROR: Multi-platform build is not supported for the docker driver. Switch to a different driver, or turn on the containerd image store, and try again. 于是按…

git版本控制工具常用命令

一、本地仓库管理 push 向远程推送代码 pulll 拉取代码 二、远程仓库管理 三、分支操作 本地主分支master 远程主分支main head指向当前分支 查看:git branch 创建分支: git branch 名字 切换分支:git checkout 名字 合并分支:git…

健身日记之倒立俯卧撑学习——起始日2024.6.4

文章目录 前言 自我介绍 昔日计划 新目标计划 瓶颈突破尝试 参考视频及文章 前言 有轻微健身基础,正式接触街健五大神技,立志在两年内解锁全部,将有机会的进行日常训练和目标肌群锻炼,这里向大家展示我的计划和安排&#xf…

直播美颜工具解析:美颜SDK核心技术与性能优化方法

本篇文章,小编将深入解析直播美颜SDK的核心技术及其性能优化方法,以期为开发者提供有价值的参考。 一、美颜SDK核心技术 1.实时人脸检测与识别 美颜SDK的核心技术之一是实时人脸检测与识别。这项技术基于深度学习算法,能够快速、准确地识别…

云原生时代:从 Jenkins 到 Argo Workflows,构建高效 CI Pipeline

作者:蔡靖 Argo Workflows Argo Workflows [ 1] 是用于在 Kubernetes 上编排 Job 的开源的云原生工作流引擎。可以轻松自动化和管理 Kubernetes 上的复杂工作流程。适用于各种场景,包括定时任务、机器学习、ETL 和数据分析、模型训练、数据流 pipline、…

55.WEB渗透测试-信息收集- 端口、目录扫描、源码泄露(3)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:54.WEB渗透测试-信息收集- 端口、目录扫描、源码泄露(2) 这个rob…

完美的移动端 UI 风格

完美的移动端 UI 风格

20240605在Toybrick的TB-RK3588开发板上刷Buildroot

20240605在Toybrick的TB-RK3588开发板上刷Buildroot 2024/6/5 15:30 1、直接给Toybrick刷EVB7的IMG固件,跑飞。 rootrootrootroot-ThinkBook-16-G5-IRH:~/repo_RK3588_Buildroot20240508$ ./build.sh --help rootrootrootroot-ThinkBook-16-G5-IRH:~/repo_RK3588_Bu…

Win10 TiKV单机单节点Docker部署测试

1. 环境 环境:Windows10、WSL2、Ubuntu20.04、Docker Desktop目标:单节点单机部署,测试用 2. 前置操作 docker pull pingcap/tikv:latest docker pull pingcap/pd:latestmkdir -p /mnt/tikv/pd mkdir -p /mnt/tikv/tikvip a 命令查看虚拟…

x86国产化麒麟系统上安装docker及问题解决

以前感觉安装docker没有问题,所以没有记录怎么安装的,最近在国产化系统上安装docker总是失败,经过仔细研究完全解决了该问题,特此记录。 参考链接: 在 OpenKylin 上安装 Docker 按照上面的链接可以知道整个docker安装…

智慧启航 网联无限丨2024高通汽车技术与合作峰会美格智能分论坛隆重举行

5月30日下午,以“智慧启航 网联无限”为主题的2024高通汽车技术与合作峰会&美格智能分论坛在无锡国际会议中心隆重举行,本次论坛由高通技术公司与美格智能技术股份有限公司共同主办,上海市车联网协会、江苏省智能网联汽车产业创新联盟、江…

数据结构的归并排序(c语言版)

一.归并排序的基本概念 1.基本概念 归并排序是一种高效的排序算法,它采用了分治的思想。它的基本过程如下: 将待排序的数组分割成两个子数组,直到子数组只有一个元素为止。然后将这些子数组两两归并,得到有序的子数组。不断重复第二步,直到最终得到有序的整个数组。 2.核心…

基于MetaGPT构建LLM 订阅 Agent

前言 在上一篇文章中,我们学习了如何利用MetaGPT框架构建单智能体和多智能体,并通过一个技术文档撰写Agent和课后作业较为完整的理解一个Agent的需求分析和开发流程;但是技术要和应用结合才能得到更广泛的推广;在本文中&#xff0…

常用的图算法工具库总结【单机版】

常用的图算法工具库总结【单机版】 在当今数据驱动的世界中,图论和图算法在多个领域扮演着越来越重要的角色。从社交网络分析到网络安全,从生物信息学到交通网络优化,图结构数据的管理和分析需求催生了一系列强大的图算法工具库。这些库提供…

Autodesk 3ds Max软件下载安装;3ds Max功能强大的三维建模、渲染软件安装包获取

3ds Max,无论是初学者还是资深设计师,都能通过3ds Max在数字世界中实现自己的创意,打造出令人惊叹的三维作品。 在3ds Max中,灯光系统是至关重要的一环。它提供了光度学灯光和标准灯光两种主要类型,用于照亮和增强场景…

[QT] MAC使用Qt Creator运行程序如何仅运行一个进程?

大家刚开始使用QtCreator会发现每次run程序,都会出现一个程序进程,使得调试操作增加。如下,每次run都会出现一个demo14的进程。 如何每次run后,就关闭上一次的进程,而重新拉起新进程呢? 看这里 这是默认…

25考研|脱产考研「二战」究竟值不值得?

多所高校举办座谈会劝阻脱产考研「二战」,这背后反映了学校对于学生未来发展的深思熟虑和对学生职业规划的关心。学校此举可能基于以下几方面的考量: 首先,脱产考研「二战」意味着学生需要再次投入大量的时间和精力准备研究生入学考试。这不…

线上政务大厅如何通过智能化服务和透明流程改变政务办理模式?

一、线上政务大厅方便快捷办理业务 1、多功能集成的一站式服务 线上政务大厅集成了多种政府服务功能,用户只需一个账号就能访问多个服务平台,办理各类政务业务。包括: (1)身份认证:用户可以通过线上政务大厅…

NXP i.MX8系列平台开发讲解 - 3.14 Linux 之Power Supply子系统(一)

专栏文章目录传送门:返回专栏目录 Hi, 我是你们的老朋友,主要专注于嵌入式软件开发,有兴趣不要忘记点击关注【码思途远】 目录 1. Power Supply子系统介绍 2. Power Supply子系统框架 3. Power Supply代码分析 本章节主要介绍Linux 下的P…