智能运维第一步:HDD磁盘故障预测

当今数字化时代,信息技术扮演着企业和组织运营的关键角色。然而,随着IT环境不断复杂化和数据量激增,传统的运维管理方法已经无法满足日益增长的需求。为应对这一挑战,智能运维(Artificial intelligence for IT operations,简称AIOPS)应运而生。

AIOPS融合了人工智能、自动化和数据分析等技术,旨在优化IT运维的效率、可靠性和可用性。在AIOPS的范畴内,硬盘驱动器(HDD)故障预测是其中一个至关重要的组成部分。在数字化时代,数据被誉为"新时代的石油"HDD作为数据存储的基础设备,在数据中心、服务器和个人计算机中广泛使用,扮演着关键角色。然而其敏感、精确、结构复杂的特性往往也使得某些故障难以避免。因此,通过AIOPS来实现HDD故障预测,避免数据丢失、业务中断、维护成本上升,从而保障数据可用性和系统稳定性,逐渐成为保障业务正常运转的重要手段。

为什么硬盘会出现故障?

由旋转磁盘和漂浮在其上方的读/写头组合而成的硬盘驱动器尽管结构复杂,但它们已经证明了自己作为数据载体的价值。然而,引起机械硬盘发生故障的原因有多种:首先,如高温、湿度、机械磨损、读写操作频率等,这些因素之间的相互作用使得故障模式变得更为复杂,大大提高了预测难度。其次,温度、振动、读写速度、错误率等多样性HDD性能数据在规模庞大的数据存储环境中对进行有效利用和分析,无疑也是一个挑战。

传统的故障预测方法主要基于固定的阈值和经验判断,存在明显的限制:传统方法只能在故障已经发生或接近发生时才采取行动,无法预测性地防止故障;基于阈值的警报往往容易误报,因为某些参数可能因正常使用而产生波动;传统方法通常需要大量的人工干预,增加管理成本。相比之下,智能算法的引入为HDD故障预测带来诸多可能性,利用大数据和机器学习技术,其强大的学习和自适应能力可以更好地利用和分析这些多样化的数据,从海量的硬盘驱动器数据中提取有价值的信息,进而更加准确地进行故障预测。

HDD故障预测解决方案

方案主要包含两部分:模型离线训练以及实时监测和警报。首先通过离线训练得到可用的预测模型,然后将模型运用到实际生产环境中进行实时故障预测。

  • 模型离线训练

模型离线训练整体流程如图1所示。模型所需数据为S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology,自我监测、分析及报告技术,即一种自动的硬盘状态检测与预警系统和规范)数据,主要指硬盘运行过程中的指标值。在数据预处理阶段,由于并非所有原始属性都是机器学习模型的可用特征,因此需要先去除冗余和不相关的特征并选择与预测结果相关的特征,然后对于空缺的数据进行向前补全。同时,故障盘最后两周的样本均为潜在故障样本(预示着该硬盘可能随时会发生故障),即需要将最后两周的样本设置为故障盘样本标签。最后,二维数据类图构建则是将时间作为第二维度(SMART属性作为第一维度),使用滑动窗口的方式,构建出二维数据图,如图2所示。经过此阶段处理能够保持SMART数据的时间局部性,有利于磁盘故障预测。最后将得到的数据进行数据划分,分别组成训练集、验证集和测试集用于模型训练和评估。

模型离线训练

滑动窗口构建数据类图

故障预测模型训练过程中(图3中虚线框所示),只使用健康硬盘的样本。编码器 用来对原始输入图片 进行编码,得到图片特征 ,解码器 对编码后的图片特征 进行解码。得到重构图片 。为检测异常,添加一个编码器 来学习重构样本 的特征表示 。对于原始样本 和生成图片 ,交由判别网络 来判别真伪,这样,在判别网络进行更新时,判别网络的判别能力会得到提升。

故障预测模型

模型预测过程中(图3中实线框所示),无判别网络,只利用生成网络。将硬盘当前的二维SMART数据类图作为输入,经过模型中生成网络的处理,得到输入类图的特征表示 和生成网络的特征表示 。其预测原理是,利用 和 之间的差异来衡量样本生成的有效性,且两者差异越小,样本生成越好。因此,两者的 范式  被用于衡量样本的异常度,即当值大于某一阈值时,表示样本异常,即该硬盘将发生故障。其背后原因是,在训练过程中只利用和学习健康硬盘样本的分布,则使得健康硬盘样本的差异更小,即 和 的差距更小。在预测时,如果输入样本来自故障硬盘,则会因为故障样本偏离健康样本的分布,导致 和 差异更显著。

模型每次迭代训练使用AUCArea Under Curve,接受者操作特征曲线下面积)区域预测效果最好的模型参数进行保存并供后续预测使用。模型训练完成后使用准确率对模型的性能进行评估,经评估模型的预测准确性可达99%

  • 实时监测和警报

当模型训练完成后将HDD故障预测引擎顺利整合到多设备管理软件InView端,允许实时采集硬盘SMART数据,并利用模型进行在线推理预测未来两周内硬盘发生故障可能性(如图4所示)。当系统检测到硬盘出现故障风险立即触发告警机制,及时通知用户进行换盘处理。此机制不仅能够确保数据的安全可靠性,还提高了硬盘驱动器的整体性能和维护效率,强力保障了业务的连续性和数据管理的稳定性。

4 InViewHDD故障预测

通过AIOPS技术,浪潮信息HDD磁盘故障预测解决方案不仅实现了业界领先的预测准确性,还成功整合预测引擎和实时监测系统,能够在故障风险出现时采取及时的措施,保护数据的安全和业务的连续性。

未来,将继续优化和拓展HDD磁盘故障预测能力:

  • SMART数据外拓展更多类型数据,全方位多角度评估硬盘健康状况;
  • 通过机器学习和深度学习技术的发展为识别和预测复杂的故障模式提供更多工具;
  • 进一步改进实时监测和警报系统,提高智能化和自适应性,使系统学习并适应不断变化的硬盘性能和环境条件;
  • 研究自动化响应机制,实现更快速的故障处理,进一步降低业务中断的风险。

面对生成式AI掀起的变革浪潮,5GAI大语言模型、自动驾驶等各类新技术融合,大容量HDD依然是企业级数据中心、云服务提供商以及超大规模云业务领域的首选,浪潮信息将继续秉承“极致存储,智慧有数”的理念,基于自身技术优势不断创新,持续推动该领域的技术发展,以高效xx的一体式解决方案守护企业数据安全,助力千行百业数字化转型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/111209.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】常见指令以及具体其使用场景

君兮_的个人主页 即使走的再远,也勿忘启程时的初心 C/C 游戏开发 Hello,米娜桑们,这里是君兮_,随着博主的学习,博主掌握的技能也越来越多,今天又根据最近的学习开设一个新的专栏——Linux,相信Linux操作系…

Redis代替session实现用户验证

一、Redis代替session实现用户验证。 下图是session的实现登录需要实现的代码模块,虽然可以实现完整功能,但是仍然存在一些问题。 在以往使用session当作用户验证的过程中,会有session共享的问题,每次承担请求的tomcat是不一样…

okhttp post请求 header post参数加密遇到的两个问题

如果你对于网络请求用了https后是否还有必要对参数加密有疑问可以看我上篇的文章:网络安全https 记得耐心看完,下面说问题: Caused by: java.lang.IllegalArgumentException: Unexpected char 0x0a 一开始以为是okhttp框架对特殊字符做了现在…

Python小试牛刀:GUI(图形界面)实现计算器界面

Python GUI 是指 Python 图形用户界面库,它们可以帮助开发者创建在计算机上运行的图形用户界面(GUI)。下面是一些常用的 Python GUI 库: Tkinter: Tkinter 是 Python 的标准 GUI 库,它是一个开源的、跨平台…

【C++】多态 ⑧ ( 验证指向 虚函数表 的 vptr 指针 | 对比定义了虚函数的类和没有定义虚函数类的大小 )

文章目录 一、验证指向 虚函数表 的 vptr 指针 是否存在1、虚函数表与 vptr 指针由来2、虚函数类与普通函数类对比 - 多出了 vptr 指针的大小 对比 定义了 虚函数 的类 与 没有定义虚函数的类 的大小 , 其它成员都相同 , 定义了虚函数的类多出了 4 字节 , 多出的 4 字节就是 vp…

Windows11无法打开Photoshop CC 2017问题解决

情况描述: Windows11上,双击Photoshop CC 2017没反应 解决办法: 此时需要启动Windows的“事件查看器”来确认问题出在哪里。可以直接通过开始菜单搜索启动,也可以通过右键点击“此电脑”->“管理”,然后找到事件查…

《微聊》JMeter性能测试报告

文章目录 准备工作JMeter准备工作本地配置代理 测试规划测试方向预期方向异常处理 压力测试录制注册功能压力注册功能压力脚本录制录制功能压力测试脚本完善注册功能压力测试结果 登录功能压力录制登录功能压力测试脚本构造压力测试数据完善登录功能性能测试脚本登录功能压力测…

Servlet的继承树,生命周期和线程不安全

1、Servlet 继承树 3)Servlet的继承树 - Servlet接口public interface Servlet{public void init(config);public void service(request,response);public void destroy();} - GenericServlet抽象类public abstract class GenericServlet implements Servlet{实现了init方法和d…

android查漏补缺(8)Binder framework架构和调用方法

1.Binder简介 Binder是android系统中实现进程间通信的主要组件,包括各种AMS,PMS,SMS等服务和APK的通信都是通过binder实现。但是调用过PMS的同学肯定会有疑问,既然是进程通信,怎么没有消息的发送和接收,为什么调用不同进程的服务的…

出海数字化,国产CRM如何支撑?纷享销客这样思考

2023年,疫情阴霾逐渐消散,企业全球化扩张的齿轮重新加速。以科技企业、高端制造业为代表的优秀企业引领中国企业出海浪潮,外资企业在华的经营活跃度也在提升。 无论是”外资在华经营“还是”中资出海“,这些具备全球化理想的企业…

宝塔安装mongodb插件失败的解决办法

安装时始终不成功。 进入控制台进行安装 /www/server/php/71# pecl install mongodb WARNING: channel "pecl.php.net" has updated its protocols, use "pecl channel-update pecl.php.net" to update pecl/mongodb requires PHP (version > 7.2.0, …

Dataworks API:调取 MC 项目下所有表单

文章目录 前言Dataworks API 文档解读GetMetaDBTableList 接口文档 API 调试在线调试本地调试运行环境账密问题请求数据进一步处理 小结 前言 最近,我需要对公司的数据资产进行梳理,这其中便包括了Dataworks各个项目下的表单。这些表单,作为…

Android 处理多个TextView, 文案过长时前面文本省略的问题

遇到显示多个TextView,文案过短时,这几个TextView跟随显示,文案过程时,前面TextView省略,后个的TextView全显示。效果如下: 用ConstraintLayout 没有得到解决,采用 RelativeLayout 解决 代码如…

按相同时间切割长视频

需求 将一段1小时的.mkv视频,按每5分钟切割,并转成.mp4 工具 格式工程 x64 5.15,下载 这真是个好工具,考虑过PR,无意间发现这软件很强大 实现步骤 第一步:选择视频,导出MP4,添…

libcurl库的网页爬虫程序

示例代码&#xff1a; #include <curl/curl.h> #include <iostream> ​ int main() {CURL *curl;CURLcode res; ​curl_global_init(CURL_GLOBAL_DEFAULT); ​curl curl_easy_init();if(curl) {curl_easy_setopt(curl, CURLOPT_URL, "/");curl_easy_se…

CSS与基本选择器

<div class"c1" id"d1"></div> CSS基本知识 什么是css&#xff1a;CSS&#xff08;Cascading Style Sheet&#xff0c;层叠样式表)定义如何显示HTML元素。 当浏览器读到一个样式表&#xff0c;他就会按照这个样式l来进行渲染。其实就是让HT…

雷迪管线探测仪故障定位仪维修RD8100

英国雷迪管线探测仪常见维修型号&#xff1a;RD4000&#xff1b;RD7000&#xff1b;RD8000&#xff1b;RD8100等。 应该范围&#xff1a;是目前探测煤气、电力、自来水、排水等各类地下管线的仪器之一。 雷迪管线探测仪具有直连线特点&#xff1a;用直连线可以将发射机直接与需…

基于Canal同步MySQL数据到Elasticsearch

基于Canal同步MySQL数据到Elasticsearch 基于 canal 同步 mysql 的数据到 elasticsearch 中。 1、canal-server 相关软件的安装请参考&#xff1a;《Canal实现数据同步》 1.1 pom依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmln…

Android图形系统之HWComposer、ComposerHal、ComposerImpl、Composer、Hwc2::Composer实例总结(十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧和懒惰的唯一良药. 更多原创,欢迎关注:Android…

利用远程IO模块,轻松驾驭食品包装生产的自动化

常见的自动化包装系统&#xff0c;它的核心部分通常由一系列高端设备组成&#xff0c;包括自动开箱机、自动封箱机、自动捆扎机、装箱机器人、码垛机器人等。这些设备协同工作&#xff0c;形成一条高效运转的生产线&#xff0c;从开箱到装箱&#xff0c;再到码垛&#xff0c;每…