AIOps探索 | 国外知名厂商根因分析实践分享新方法探索

文章来源于公众号--布博士(擎创科技资深产品专家)

哈喽,大家好~转眼又到我们分享干货环节了,上一篇AIOps干货后台收到不少反馈,总体来说效果还不错,感谢大家喜欢,后续楼主会定期更新AIOps相关干货,感兴趣的朋友可以一键三连,以防迷路。话不多说,我们往下看

一、前言:

过去几年,AIOps(智能化运维)和PRC(根因分析)在国内市场受到了学术机构、AIOps厂商和客户的过度炒作,看起来就像是运维领域的“灵丹妙药”。各种AIOps和根因定位项目纷纷上架,但结果可谓惨不忍睹。至少在我所见的众多项目中,几乎没有成功的,或者说投入和产出完全不成正比。

在之前发表的文章中也明确地说了AIOps的主语不是AI,而是OPS。AI是为ops赋能的。如果在不了解ops的前提下谈AIOps都是没有任何意义的。

所以今天分分享主要介绍AIOPS领域中的PRC(根因分析)场景,主要基于楼主在众多项目中的经验和对AI需求的理解,在此基础上提供一份可行的根因分析解决方案。主要包含以下内容:

  1. 国外知名厂商的根因分析实践总结

  2. 楼主推荐的一种根因分析方法探索

二、国外知名厂商的根因分析实践总结

目前调研的ServiceNow和Moogsoft的PRC分析方法都遵守如下流程:

1.接收原始告警信息后,通过压缩能力生成运维人员需要进行分析处理的告警

2.将告警进行关联形成事件(Incident)

3.形成事件后,具备PRC能力的智能分析系统会向事件管理员推荐可能的根因。事件管理员根据系统推荐的可能根因进行调查,并在解决事件时将调查结果一并提交,并存入当前事件中

4.在线/离线机器学习算法根据人工对事件根因的标记进行重新训练和优化根因推荐模型

5.当产生新的事件时,使用经过优化的模型进行根因推荐

6.该过程持续循环..……

通过上例我们可以看到,这个过程是一个非常典型的有监督学习过程。即将事件管理员对事件的分析处理过程以及处理结果的保存过程作为一次完整的数据标注。这种过程使标注(对事件处置)的过程自然地融入整体的业务流程中,不会给事件管理员增加任何额外的工作量,同时达到了数据标注的效果

三、ServiceNow实践总结

ServiceNow的PRC实现除了考虑用户对历史事件的处理结果标注之外,还综合考虑了事件内的告警、CI拓扑关系、CI近期的变更、事件时段等因素。通过历史告警数据,收集事件上下文中频繁告警模式的信息,最终完成根因的推荐。具体用到的监督学习算法不得而知。

如上图所示,为ServiceNow推荐的PRC TOP-3可能的根因告警,以及作为根因推荐出来的可能原因。同时在这个界面用户可以对根因进行重新标注。

四、Moogsoft实践总结

如上图所示为Moogsoft的PRC推荐结果页面。在incident中会包括多条告警,每条告警都会计算一个可能的根因分值,然后按照根因分值从高到低进行排序,最后给出可能的前三个根因。

Moogsoft的PRC实现的参考因素由系统的管理人员自行配置。也就是说,需要根据业务经验选择哪些特征变量以及哪些因素会影响根因。如下图所示:

Moogsoft的官方文档中说明了它使用了有监督的神经网络算法来实现PRC,并利用告警数据属性和操作员反馈来不断优化模型,以预测新事件的潜在根因。

五、根因分析方法探索推荐

无论是使用神经网络还是其他基于统计学的机器学习方法,其本质都是从历史数据中寻找规律,以推断出当前事件与历史事件中哪些特征拟合得较好(相似性较高),然后找到这些拟合较好的记录(按分值排序),并推荐可能的根本原因。

我所推荐的PRC方法是基于相似事件的识别方法来进行PRC推荐的。历史上相似的事件,其可能的根因也可能会是相同的,基于这样的理论来完成根因的推荐。

相似事件识别算法的具体细节请点击下方内容,一键了解

AIOps探索 | 如何实现相似事件识别icon-default.png?t=N7T8https://mp.csdn.net/mp_blog/creation/editor/135458842

基于历史上”相似事件,其可能的根因也可能是相同的“这一理论依据。让我们来看看基于此理论的根因推荐过程:

  • 首先,发生了 Incident #1 事件。事件管理人员经过分析后确定告警 #2 是根本原因。在关闭事件时,对其根因告警进行了标注

  • 接着,又发生了 incident #2 事件。事件管理人员经过分析后确定告警 #41 是根本原因。在关闭事件时,对其根因告警进行了标注

  • 最后,发生了 incident #3 事件。由于有历史数据,相似事件识别算法可以分别对 incident #1 和 incident #2 进行相似度判断,其中一个达到了90%,另一个达到了60%。基于“基于历史上相似事件,其可能的根因也可能会是相同的”这一理论依据,我们同样推荐 incident #3 中可能的根因是告警 #4

这样就完成了根因推荐的过程。在这个过程中,只使用了上文介绍的 Jaccard 相似度计算方法,而不需要对标注后的数据重新进行建模和学习。

当然,在实际使用过程中,还需要综合考虑告警对象的生成时间、最近一段时间内告警对象自身以及关联对象是否发生了变更。再结合 Jaccard 算法,针对不同的因素给出不同的权重,综合判断根因。

六、总结

国外知名厂商如ServiceNow和Moogsoft都采用了有监督学习的方法来进行根因分析,通过历史数据和机器学习算法来推荐可能的根因。本文推荐的方法则是基于相似事件的识别,通过判断历史上相似事件中的根因来进行根因推荐。

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

 行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/457225.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何使用“ubuntu移动文件、复制文件到其他文件夹“?

一、移动文件到其他文件夹命令 mv node_exporter-1.5.0.linux-amd64.tar.gz /usr/local/etc/prometheus 二、复制文件到其他文件夹命令 cp node_exporter-1.5.0.linux-amd64.tar.gz /home/master

一个八年工作经验老程序员的分享

作为一个 Java 程序员,我在这个行业中工作了多年。在这个过程中,我经历了许多挑战和机遇,也学到了很多宝贵的经验和教训。在这篇文章中,我想分享一些我的感想和思考,希望能够对其他 Java 程序员有所帮助。 一、技术的…

【linux】进程管理:进程控制块、进程号、fork创建进程、特殊进程及exec函数族解析

一、进程的概述 可执行程序运行起来后(没有结束之前),它就成为了一个进程。程序是存放在存储介质上的一个可执行文件,而进程是程序执行的过程。进程的状态是变化的,其包括进程的创建、调度和消亡。程序是静态的,进程是…

基于蓝牙技术的资产管理

随着物联网技术的不断发展,蓝牙技术已经成为了许多领域中不可或缺的一部分。在资产管理领域,基于蓝牙技术的资产定位管理方案正在逐渐普及,为企业提供了更加高效、精准的资产管理方式。本文将从蓝牙技术的原理、资产定位管理的需求、系统架构…

全栈之路-新坑就绪-星野空间

感觉自己的技术栈一直没有形成一个很好的闭环 开新坑,准备把自己的技术栈链路打通, Don‘t think too much, just act![得意]

python retry装饰器使用

第一个例子 import time from functools import wraps from typing import Callable, Any from time import sleepdef retry(retries: int 3, delay: float 1) -> Callable:"""Attempt to call a function, if it fails, try again with a specified dela…

基于单片机的恒压供水控制器设计

摘 要 随着我国现代化的进程不断加快,城市居民生活水平不断提高,随之而来的是房屋的翻新和重建,但建筑层数的不断增高,使得供水所需压力不断提高,若建筑设计时对压力判断不足,会导致供水时无法供应到高楼层…

NO9 蓝桥杯单片机之串口通信的使用

1 基本概念 简单来说,串口通信是一种按位(bit)传输数据的通信方式。 其他一些知识就直接贴图吧(单工,半双工这些学过通信的同学应该都知道,可以上网查询一下具体概念。) 来源还是:…

第16届大广赛XPPen都有哪些参赛命题

截至到发文时间,2024年3月14日,第16届大广赛已经累计公布了6个品牌命题,本文就给大家介绍一下XPPen命题的详细细节。 XPPen为汉王友基旗下全球知名数字艺术创新品牌,专注消费级用户创作需求,品牌产品覆盖全球160多个国…

一张图搞清楚wait、sleep、join、yield四者区别,面试官直接被征服!

写在开头 在线程的生命周期中,不同状态之间切换时,可以通过调用sleep()、wait()、join()、yield()等方法进行线程状态控制,针对这一部分知识点,面试官们也会做做文章,比如问你这些方法的作用以及之间的区别…

Linux中mysql的安装、远程访问、基础操作、文件导入

Linux中mysql的安装、远程访问、基础操作、文件导入 cheet card1. 安装1. 使用root账号安装mysql 2. 启动mysql并创建root、管理员两个账号3. 基础操作3.1 数据库的查看、创建、修改、删除3.2 mysql的数据类型3.3 数据表的基本操作3.4 数据表结构的修改3.5 表中数据的增、删、改…

Kotlin编程权威指南学习知识点预览

一、变量、常量和类型: 变量、常量以及 Kotlin 基本数据类型。变量和常量在 应用程序中可用来储值和传递数据。类型则用来描述常量或变量中保存的是什么样的数据。 1、声明变量: // 变量定义关键字 —— 变量名 —— 类型定义 —— 赋值运算符 —— 赋值var na…

用户案例|向量引擎在携程酒店搜索中的应用场景和探索

Zilliz AI 初创计划是面向 AI 初创企业推出的一项扶持计划,预计提供总计 1000 万元的 Zilliz Cloud 抵扣金,致力于帮助 AI 开发者构建高效的非结构化数据管理系统,助力打造高质量 AI 服务与运用,加速产业落地。访问https://zilliz…

log4j2 burp插件-Log4j2Scan(二)

该工具为被动扫描Log4j2漏洞CVE-2021-44228的BurpSuite插件,具有多DNSLog(后端)平台支持,支持异步并发检测、内网检测、延迟检测等功能。 一、安装方法 建议使用BurpSuite 2020或以上更高版本,低版本BurpSuite未经严…

4种小众的能力,帮你更好地适应未来

新年伊始,又是一个全新的开始。 未来的社会究竟需要什么样的能力?这已经是一个很老的话题,已经有许许多多讨论了。但这其中,可能有一些是容易被人忽略的,或者不容易被注意到的。 我想跟你一起分享,我对这个…

IAB视频广告标准《数字视频和有线电视广告格式指南》之 概述- IAB受众和技术标准 - 我为什么要翻译介绍美国人工智能科技公司IAB系列(2)

第二篇 - 概述- IAB受众和技术标准 本文目录 一、IAB技术实验室简介 二、概述及IAB受众 三、资源- IAB倡导的相关视频广告技术标准 四、案例分享-介绍一家数字化营销服务公司 - SproutSocial 五、数字营销工兵观察 六、资料来源及推荐阅读 一、IAB技术实验室简介 随着近…

河南大学数据结构实验-顺序栈和链栈的实现

计算机与信息工程学院实验报告 姓名:杨馥瑞 学号:2212080042 专业:数据科学与大数据技术 年级:2022 课程:数据结构 主讲教师:袁彩虹老师 辅导教师:_______ 实验时间&…

第五十八回 吴用赚金铃吊挂 宋江闹西岳华山-飞桨图像分割套件PaddleSeg初探

鲁智深被贺太守抓住,押入死牢。武松得信后,正想回梁山报信,正好戴宗来了,就请戴宗赶快回梁山搬救兵。宋江说兄弟有难,怎能不救? 于是带了十六个头领来到少华山。 因为华州城池厚壮,宋江等无计可…

Jmeter+ant,ant安装与配置

1.ant含义 ant:Ant翻译过来是蚂蚁的意思,在我们做接口测试的时候,是可以用来做JMeter接口测试生成测试报告的工具 2.ant下载 下载地址:Apache Ant - Ant Manual Distributions download中选择ant 下载安装最新版zip文件 3.…

【C++面向对象】C++飞机购票订票系统(源码+说明)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…