存储作为存放金融企业数据中心各类生产数据的重要载体,其日常的安全平稳运行至关重要。特别是应对若干存储的大量告警,如何从大量告警中提取关键告警消息并及时处理异常,可谓对存储平台的稳定运行起到保驾护航的作用。
存储告警处理作为常规工作,一方面需要在技术层面上及时发现告警并处理,另一方面还要在制度层面符合ITIL流程管理的规定。
存储告警中硬盘及电池的告警相对较多,此类告警出现时通常需要更换备件解决,且更换操作均属于标准流程。因此,存储硬件类告警的日常处理,如果兼顾流程、实际情况能纳入自动化管理,对于工作效率的提升将十分明显。
一、传统存储故障处理流程
1. 发现存储故障
机房值班人员通过每天定期现场巡检,借助存储物理亮灯可以发现异常情况并告知存储运维人员进行处理。由于人工巡检频率较低,发现异常相对比较滞后,且存在漏检可能。
为了能及时发现存储设备存在的告警,早期通过在各存储管理平台配置SNMP Trap,将告警信息由运行监控中心发送给存储运维人员。
这类告警即时性相当高,有效辅助运维人员在第一时间发现设备异常,但告警消息数目较多且缺乏过滤及压缩,也给运维人员的日常工作带来了一定的困扰。
2. 提交厂商日志确认并安排维修
SNMP Trap类告警消息因缺少设备序列号、机柜位置、部件位置、部件规格等明确信息,无法直接转发给厂商工程师进行设备报修,一般需要单独收集相关日志发送给厂商进一步分析,或者需要运维人员通过命令行或GUI等工具反馈具体信息给厂商。
设备报修要求出具相关部件的准确信息,而基于一定规则定制的告警消息无疑将使报修流程化繁为简,在日常运维中将节省大量的时间。
3. 纳入ITIL流程
存储硬件更换在制度上纳入ITIL流程变更管理,通常需要由存储运维人员在ITIL管理平台申请事件工单和变更工单。
运维人员梳理设备告警情况,并跟厂商确认好部件更换工作,先在ITIL管理平台中提出事件工单,然后关联此事件工单创建变更工单。事件工单经服务台确认后需要运维人员反馈事件原因和解决方案。变更工单经变更经理审核后需运维人员制定方案,并依次经变更经理、室经理、分管负责人审批后方能实施。变更实施完成后,运维人员还需要在事件工单和变更工单中说明变更时间和实施情况,如图1所示。
图1 传统阶段存储故障处理流程示意图
二、目前存储故障处理流程
1. 发现存储故障
引入硬件监控平台,按照一定的时段轮询获取各品牌型号存储的告警信息。此类告警较Trap而言即时性相对较差,但采用了一定的规则过滤出等级较高的信息进行推送。告警消息少而精,便于定制,能更好地满足运维人员的日常管理要求。
例如,针对重复的告警,可以采用压缩算法,通常可以4小时报一次,直到问题解决。针对info、warning等较低级别的告警可以实现过滤,而只给运维人员推送error和critical等较高级别的告警。
2. 提交厂商关键信息并派件维修
借助硬件监控平台的广泛使用,设备告警消息通过运行监控中心按一定规则拼接后可以发送给运维人员。对于绝大多数情况,运维人员无需再登陆系统进行二次确认,直接可将告警消息转发给厂商人员即可安排派件维修。
3. 纳入ITIL流程
同传统阶段,运维人员仍需在日常工作中消耗一定的时间和精力来申请事件及变更工单并跟进流转。如图2所示。
图2 目前阶段存储故障处理流程示意图
三、未来存储故障处理流程
前两个阶段在变更实施和ITIL流程管理上,两条线相对独立尚未进行融合,这与自动化运维管理仍有一定的差距。为进一步优化日常存储告警的处理工作,未来应着力于在ITIL流程中实现工单中模板化的东西由系统推送,并根据监控平台推送的恢复告警来自动反馈工单的解决方案和实施情况等信息。
1. 发现存储故障和判断故障恢复
目前硬件监控平台只能抓取设备的异常告警,对于故障修复后未能生成恢复类告警,需要人工参与判断是否完成故障修复。若监控平台对于特定设备能及时判断故障是否修复并生成恢复告警,则有益于推进ITIL流程的自动化管理,极大减少人工参与环节。
2. 提交厂商关键信息并派件维修
此部分尽可能针对不同品牌型号的存储及不同部件,进一步细化告警信息,从而实现告警消息转发后的正常派件维修即可。
3.ITIL流程自动化审批
硬件监控平台将收集到的异常告警及时推送至智能平台。智能平台加工整合收集到的异常告警,识别出常见的坏件告警(例如硬盘、电池告警),并基于选定的时间范围,按照既定的模板向ITIL管理平台提交事件工单和变更工单申请。变更工单经变更经理审核确认后,由智能平台提供模板完成方案制定环节的提交。ITIL管理平台在事件工单经服务台审批后发送给智能平台处理,并将变更工单实施环节发送至智能平台进行处理。后续由硬件监控平台捕捉设备告警是否修复,如正常完成修复,向智能平台及时推送恢复告警消息。智能平台最终基于恢复告警消息,向ITIL管理平台反馈实施情况从而关闭相关工单。显然,智能平台承担了运维人员ITIL流程管理相关的工作,其对监控告警的识别和整合发挥着不可替代的作用。如图3所示。
图3 未来阶段存储故障处理流程示意图
综上所述,为了提升存储告警处理的自动化运维管理水平,一方面需要在告警消息的精准推送上下功夫,在硬件监控平台新增恢复告警,减少告警定位和设备报修中带来的时间人力开销;另一方面还需要打造智能平台,促进硬件监控平台和ITIL管理平台自然衔接,从而替代运维人员做好流程管理的跟进及反馈等工作。