存储故障处理流程演变

存储作为存放金融企业数据中心各类生产数据的重要载体,其日常的安全平稳运行至关重要。特别是应对若干存储的大量告警,如何从大量告警中提取关键告警消息并及时处理异常,可谓对存储平台的稳定运行起到保驾护航的作用。

存储告警处理作为常规工作,一方面需要在技术层面上及时发现告警并处理,另一方面还要在制度层面符合ITIL流程管理的规定。

存储告警中硬盘及电池的告警相对较多,此类告警出现时通常需要更换备件解决,且更换操作均属于标准流程。因此,存储硬件类告警的日常处理,如果兼顾流程、实际情况能纳入自动化管理,对于工作效率的提升将十分明显。

一、传统存储故障处理流程

1. 发现存储故障

机房值班人员通过每天定期现场巡检,借助存储物理亮灯可以发现异常情况并告知存储运维人员进行处理。由于人工巡检频率较低,发现异常相对比较滞后,且存在漏检可能。

为了能及时发现存储设备存在的告警,早期通过在各存储管理平台配置SNMP Trap,将告警信息由运行监控中心发送给存储运维人员。

这类告警即时性相当高,有效辅助运维人员在第一时间发现设备异常,但告警消息数目较多且缺乏过滤及压缩,也给运维人员的日常工作带来了一定的困扰。

2. 提交厂商日志确认并安排维修

SNMP Trap类告警消息因缺少设备序列号、机柜位置、部件位置、部件规格等明确信息,无法直接转发给厂商工程师进行设备报修,一般需要单独收集相关日志发送给厂商进一步分析,或者需要运维人员通过命令行或GUI等工具反馈具体信息给厂商。

设备报修要求出具相关部件的准确信息,而基于一定规则定制的告警消息无疑将使报修流程化繁为简,在日常运维中将节省大量的时间。

3. 纳入ITIL流程

存储硬件更换在制度上纳入ITIL流程变更管理,通常需要由存储运维人员在ITIL管理平台申请事件工单和变更工单。

运维人员梳理设备告警情况,并跟厂商确认好部件更换工作,先在ITIL管理平台中提出事件工单,然后关联此事件工单创建变更工单。事件工单经服务台确认后需要运维人员反馈事件原因和解决方案。变更工单经变更经理审核后需运维人员制定方案,并依次经变更经理、室经理、分管负责人审批后方能实施。变更实施完成后,运维人员还需要在事件工单和变更工单中说明变更时间和实施情况,如图1所示。

图片

图1 传统阶段存储故障处理流程示意图

二、目前存储故障处理流程

1. 发现存储故障

引入硬件监控平台,按照一定的时段轮询获取各品牌型号存储的告警信息。此类告警较Trap而言即时性相对较差,但采用了一定的规则过滤出等级较高的信息进行推送。告警消息少而精,便于定制,能更好地满足运维人员的日常管理要求。

例如,针对重复的告警,可以采用压缩算法,通常可以4小时报一次,直到问题解决。针对info、warning等较低级别的告警可以实现过滤,而只给运维人员推送error和critical等较高级别的告警。

2. 提交厂商关键信息并派件维修

借助硬件监控平台的广泛使用,设备告警消息通过运行监控中心按一定规则拼接后可以发送给运维人员。对于绝大多数情况,运维人员无需再登陆系统进行二次确认,直接可将告警消息转发给厂商人员即可安排派件维修。

3. 纳入ITIL流程

同传统阶段,运维人员仍需在日常工作中消耗一定的时间和精力来申请事件及变更工单并跟进流转。如图2所示。

图片

图2 目前阶段存储故障处理流程示意图

三、未来存储故障处理流程

前两个阶段在变更实施和ITIL流程管理上,两条线相对独立尚未进行融合,这与自动化运维管理仍有一定的差距。为进一步优化日常存储告警的处理工作,未来应着力于在ITIL流程中实现工单中模板化的东西由系统推送,并根据监控平台推送的恢复告警来自动反馈工单的解决方案和实施情况等信息。

1. 发现存储故障和判断故障恢复

目前硬件监控平台只能抓取设备的异常告警,对于故障修复后未能生成恢复类告警,需要人工参与判断是否完成故障修复。若监控平台对于特定设备能及时判断故障是否修复并生成恢复告警,则有益于推进ITIL流程的自动化管理,极大减少人工参与环节。

2. 提交厂商关键信息并派件维修

此部分尽可能针对不同品牌型号的存储及不同部件,进一步细化告警信息,从而实现告警消息转发后的正常派件维修即可。

3.ITIL流程自动化审批

硬件监控平台将收集到的异常告警及时推送至智能平台。智能平台加工整合收集到的异常告警,识别出常见的坏件告警(例如硬盘、电池告警),并基于选定的时间范围,按照既定的模板向ITIL管理平台提交事件工单和变更工单申请。变更工单经变更经理审核确认后,由智能平台提供模板完成方案制定环节的提交。ITIL管理平台在事件工单经服务台审批后发送给智能平台处理,并将变更工单实施环节发送至智能平台进行处理。后续由硬件监控平台捕捉设备告警是否修复,如正常完成修复,向智能平台及时推送恢复告警消息。智能平台最终基于恢复告警消息,向ITIL管理平台反馈实施情况从而关闭相关工单。显然,智能平台承担了运维人员ITIL流程管理相关的工作,其对监控告警的识别和整合发挥着不可替代的作用。如图3所示。

图片

图3 未来阶段存储故障处理流程示意图

综上所述,为了提升存储告警处理的自动化运维管理水平,一方面需要在告警消息的精准推送上下功夫,在硬件监控平台新增恢复告警,减少告警定位和设备报修中带来的时间人力开销;另一方面还需要打造智能平台,促进硬件监控平台和ITIL管理平台自然衔接,从而替代运维人员做好流程管理的跟进及反馈等工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/513571.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何监控特权帐户,保护敏感数据

IT基础设施的增长导致员工可以访问的凭据和资源数量急剧增加。每个组织都存储关键信息,这些信息构成了做出关键业务决策的基石。与特权用户共享这些数据可以授予他们访问普通员工没有的凭据的权限。如果特权帐户凭证落入不法分子之手,它们可能被滥用&…

2024最新AI创作系统ChatGPT源码+Ai绘画网站源码,GPTs应用、AI换脸、插件系统、GPT文档分析、GPT语音对话一站式解决方案

一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,那么如何搭建部署AI创作ChatGPT?小编这里写一个详细图文教程吧。已支持GPT…

Ai音乐大师演示(支持H5、小程序)独立部署源码

Ai音乐大师演示(支持H5、小程序)独立部署源码

Python网络爬虫(三):Selenium--以携程酒店为例

1 Selenium简介 Selenium是一个用于网站应用程序自动化的工具,它可以直接运行在浏览器中,就像真正的用户在操作一样。它相当于一个机器人,可以模拟人类在浏览器上的一些行为,比如输入文本、点击、回车等。Selenium支持多种浏览器&…

Linux结构目录详解

Linux 在Linux中,系统默认的用户是root,其实和 windows 的 administrator 类似,root 用户可以操作操作系统的任何文件和设备,所以在生产环境就不要乱用root了,权利越大,责任越大。 学习Linux,…

C++ 项目:使用 GSL 数学运算库 C++ 调用Python

文章目录 Part.I IntroductionChap.I CMakeListsChap.II ExportLibGSL.hChap.III test_python.cpp Part.II GSL 使用方法Part.III C 调用 Python 使用方法相关博客 Part.I Introduction 本文是一个项目的使用教程,此项目是一个使用 GSL 的小项目,还有 C…

Solana 线下活动回顾|多方创新实践,引领 Solana“文艺复兴”新浪潮

Solana 作为在过去一年里实现突破式飞跃的头部公链,究竟是如何与 Web3 行业共振,带来全新的技术发展与生态亮点的呢?在 3 月 24 日刚结束的「TinTin Destination Moon」活动现场,来自 Solana 生态的的专家大咖和 Web3 行业的资深人…

基于lora技术微调Gemma(2B)代码实践

一、前置条件 获得模型访问权,选择Colab运行时,配置训练环境。 先在Kaggle上注册,然后获得Gemma 2B 的访问权; 然后在Google colab 配置环境,主要是GPU的选择,免费的是T4,建议采用付费的A100…

【Linux】详解动静态库的制作和使用动静态库在系统中的配置步骤

一、库的作用 1、提高开发效率,让开发者所有的函数实现不用从零开始。 2、隐藏源代码。 库其实就是所有的.o文件用特定的方式进行打包形成一个文件,各个.o文件包含了源代码中的机器语言指令。 二、动态库和静态库的制作和使用 2.1、静态库的制作和使用…

DTFT及其反变换的直观理解

对于离散时间傅里叶变换(DTFT)及其反变换的讲解,教材里通常会先给出DTFT正变换的公式,再举个DTFT的简单变换例子,推导一下DTFT的性质,然后给出DTFT反变换的公式,再证明一下正变换和反变化的对应关系。总的来说就是&…

波士顿房价预测案例(python scikit-learn)---多元线性回归(多角度实验分析)

波士顿房价预测案例(python scikit-learn)—多元线性回归(多角度实验分析) 这次实验,我们主要从以下几个方面介绍: 一、相关框架介绍 二、数据集介绍 三、实验结果-优化算法对比实验,数据标准化对比实验&#xff0…

南京观海微电子---Vitis HLS的工作机制——Vitis HLS教程

1. 前言 Vitis HLS(原VivadoHLS)是一个高级综合工具。用户可以通过该工具直接将C、 C编写的函数翻译成HDL硬件描述语言,最终再映射成FPGA内部的LUT、DSP资源以及RAM资源等。 用户通过Vitis HLS,使用C/C代码来开发RTL IP核&#x…

大疆御Pro(一代)更换晓spark摄像头评测

御Pro是17年的老机器,除了摄像头有点拉跨,续航、抗风、操作性在大疆民用系列里面算是数得上的。 机缘巧合,手头有几个御的空镜头(里面的芯片已经去掉了),还有几个晓的摄像头(只有芯片&#xff0…

Java基础入门--面向对象课后题(2)

文章目录 1 Employee2 SalariedEmployee3 HourlyEmployee4 SalesEmployee5 BasePlusSalesEmployee6 测试类 Example177 完整代码 某公司的雇员分为5类,每类员工都有相应的封装类,这5个类的信息如下所示。 (1) Employee:这是所有员工总的父类。…

网站可扩展架构设计——领域驱动设计(下)

从公众号转载,关注微信公众号掌握更多技术动态 --------------------------------------------------------------- 一、架构设计简述 1.经典分层图 DDD分层架构的重要原则:每层只能与位于其下方的层发生耦合 User Interface —— 接口/用户界面层。提…

linux0.11中jmpi 0,8解析

系统在执行该行代码时已经为保护模式, jmpi 0,8会将段选择子(selector)载入cs段寄存器,并计算出逻辑地址。 段选择子的结构如下: 段选择子包括三部分:描述符索引(index)、TI、请求特权级(RPL)。…

拯救者Legion R9000X 2021(82HN)原装出厂Win10系统镜像ISO下载

lenovo联想拯救者笔记本R9000X 2021款原厂Windows10系统安装包,恢复出厂开箱状态预装OEM系统 链接:https://pan.baidu.com/s/1tx_ghh6k0Y9vXBz-7FEQng?pwd7mih 提取码:7mih 原装出厂系统自带所有驱动、出厂主题壁纸、系统属性联机支持标…

《QT实用小工具·十》本地存储空间大小控件

1、概述 源码放在文章末尾 本地存储空间大小控件,反应电脑存储情况: 可自动加载本地存储设备的总容量/已用容量。进度条显示已用容量。支持所有操作系统。增加U盘或者SD卡到达信号。 下面是demo演示: 项目部分代码如下: #if…

2024 蓝桥打卡Day31

递归与辗转相除法 递归(Recursion)辗转相除法(Euclidean Algorithm)总结 递归(Recursion) 递归是指一个函数在执行过程中调用自身的过程。在编程中,递归函数在遇到满足某个条件时会停止调用自身…

Servlet原理Servlet API

目录 一、Servlet运行原理 1.1、问题 1.2、Servlet的具体执行过程 1.3、Tomcat初始化流程小结 1.4、Tomcat处理请求流程 二、Servlet API详解 2.1、HttpServlet类 2.1.1、处理Get请求 2.2、HttpServletRequest类 2.3、HttpServletResponse类 2.3.1、设置状态码 ​2.…