智能运维的发展演进

Gartner在2018年提出AIOps(Artificial Intelligence for IT Operations),即人工智能在IT运维领域的应用。智能运维在技术方案、平台、场景都更加聚焦,恰逢AI技术飞速发展。用户可以实时监控分析大量的运维数据,预防和防止潜在问题,在落地基于单指标与多指标异常检测、日志模式识别、信息收敛、趋势预测等方面取得较好的应用效果。

一、AIOps的挑战

期望与实际应用之间的落差

1、过度强调替代性

厂商过度宣传AI的代替人力运维以达到降本增效的目的,但是受限企业数据和算法,过高的期望往往导致失望。同时,人们对“替代”的观点持排斥态度。

实际上,AI应该是提高运维效率和工作体验的工具,有明确的提高工作效能,使运维工程师摆脱重复繁琐的日常工作提高效能,而非取代人。


2、缺乏场景思维的平台导向

技术平台和企业的运维场景,组织流程未能有效融合,落地实践效果打折。


3、用户对AI的信任危机

运维对准确性和稳定性有极高的要求。AI算法的基于运行数据和决策数据,在面对复杂问题时,故障排查争分夺秒,定位的准确性尤为重要。而且,AI的准确性训练往往需要一定周期,时间越久准确性越高。

目前市场上鲜有能够将AIOps算法与企业一线专家知识有效结合的解决方案。运维领域的解决方案需要借鉴类似AI Agent技术,实现多个工具、算法和经验的交互与协作,以应对复杂任务。

4、数据变化不等于问题:

主流的AIOps方案主要是分析数据层面分析变化,但也许在抛出一个异常的用户行为、潜在的性能风险、生产故障问题的数据变化时,还带来10个正常业务逻辑、市场环境变化的信息需要人工干预。如何减少数据变化的噪点与落实对数据变化感知后的应对措施,需要进行复杂的机制与平台设计。

5、成本与收益的平衡难题:

从平台层面来看,数据类研发工作琐碎且成效难以明确,这可能导致数据质量不足,进而影响上层场景的准确性。在近年来市场下行和厂商追求毛利的背景下,厂商在现场投入减少,同时在一些偏自研的组织对于AIOps团队效益的认内也不够高。大模型的出现,也许会让AIOps成本大大下降。


二、AIOps是一种运维工作模式


AIOps强调人机协同的模式,利用算法(含AI、规则、经验)、机器算力、海量数据、机器人相结合,赋能稳定性保障场景的工作模式。
算法在运维决策中占据核心地位。算法应融合AI算法、专家规则与经验,才能让算法更加贴近运维实践的真实需求,还显著提升了决策的准确性。
数据是智能运维的基石,为算法提供了必要的输入和丰富的训练样本。通过全面收集、精细整合及深入分析运维数据,可以洞察系统中的潜在问题,准确预测故障趋势,并据此优化资源配置。在这个过程中,对于琐碎、枯燥的数据治理工作也需要关注与投入,它是确保数据质量、提升数据价值的关键环节。

场景是智能运维的价值创造的载体,“算法、数据、机器人”应聚焦重塑场景的细节赋能上。不可否认,新技术的引入会带来新的工作方式,但是作为稳定性保障领域,目前看最重要的工作场景还未发生太大变化,新技术更多是赋能作用。所以,突出场景驱动,重点是强调了技术对实际工作的赋能价值。

所以,我们要先抓住AIOps在异常检测、日志模式识别等效果好的技术,拥抱大模型这种黑科技,站在场景角度则去思考AI赋能。场景的选择上,应以痛点驱动,先梳理现有的稳定性保障工作场景,评估哪些环节可以加入算法与机器人,帮助这些场景下的人更高效的落实保障工作。

三、围绕在“感知、决策、执行”的智能运维场景


在前面的智能运维模式中,“算法、数据、机器人”重点聚焦在细节的赋能,“场景”是关键。
感知是智能运维场景的起点,依赖于全面而精准的监控、运行感知、风险挖掘。一方面,延续现有的各类监控工具和技术,实时、全面地监控系统、应用、网络、服务器、IDC、依赖平台与上游系统等各个层面对象,及时发现潜在问题和异常。

另一方面,利用成熟的AIOps算法解决一些监控在准确度、敏感度,或工作量过高方面的问题,更好的感知异常与潜在风险的挖掘。


决策环节是智能运维的大脑,应结合管理决策规则、一线专家经验以及智能化分析方法。在实施上,应该以专家规则与经验优先,比如一线运维专家分析问题的步骤、可观测涉及的排障步骤、特定场景下的故障愈策略、历史告警处理或故障处置的匹配等,先打平现有工作模式或为现有工作模式提能增效。在这些决策能力有效的同时,再引入更具期待的AI算法决策可能是一种比较可行的决策方式。


执行环节是智能运维的落脚点。在执行环节中,各类分析、执行的工具或接口可被作为执行手段,由根据决策需求调用执行。执行工具可能包括自动化脚本、配置管理工具、持续部署、消息推送、机器人协作等。在调用执行上,中短期内可以考虑基于外部事件触发的事件驱动模式,中长期的可以探索下依赖于数据驱动的推理决策模式。


四、LinkSLA智能运维的场景实践


AI检测异常提前预警

在“感知、决策、执行”层面中,主要的挑战是“决策”。在目前成熟的方案中,单指标和多指标异常检测等依赖于精确的时序数据,需要投入较大来提供准确、连续的数据,以保证有效的异常检测。

以网络故障监控、设备性能监测为基础,结合网络流量监测功能,通过 AI 实现智能风险预测,故障提前预知;判断告警类型及级别,自动触发预设的故障解决流程,复杂问题指派工单专人处理,常规告警触发安全策略全自动处理,实现故障处理闭环;网络拓扑梳理,图形化辅助根因分析,根因定位从小时级缩短到分钟级。

自动巡检更高效

设置实时或周期性的任务巡检,主动对IT运行风险的评估与发现,最大可能地发现存在隐患,保障设备稳定运行。同时有针对性地提出预警及解决建议,最大限度降低系统运行风险。巡检的结果导出word供存档。有效降低工程师的日常工作强度,及时发现问题,且符合合规要求。

可视化数据分析能力

提供可视化数据分析能力,对网络海量数据进行图形化分析展示。通过直观的图表和图形化手段清晰有效地将运维数据分析结果进行传达,帮助用户由宏观到微观更快地了解运维状态,做出更具时效性的决策。

MOC高效协同工单流转

告警问题的及时响应及流转,系统自动触发与moc工程师7*24小时值守的方式快速响应告警问题,及时应对突发故障和请求,实现整个运维流程规范化、标准化,事件处理皆有数据可追溯。工单执行流程 发现异常是否能够及时响应,事件能否形成闭环,这是运维实践场景的关键。 以运维故障分析场景为例,ai异常检测快速产生告警,故障诊断。在线值守工程师进一步检验告警的准确性,确认信息无误后及时联系现场工程师,快速响应问题,避免故障范围扩大。有效遏制风险。在时间上和问题影响上有效控制。

IT部门可以定期审查和评估其运作和绩效,以调整潜在的改进空间和问题,并采取相应的措施。确保其成本与价值的平衡始终保持在最佳状态。

统一的、全栈的、智能的运维管理体系已成为用户运维的普遍需求。在全栈统一管理的基础上,结合业务高效发放以及 AI 技术赋予的智能故障定位、提前风险预知等能力,相信数据中心运维平台将快速从人工走向智能,实现高效率的运维管理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/486261.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python + tensorflow 开局托儿所自动点击脚本

python开局托儿所自动点击脚本 屏幕截图图片数字识别消除算法自动点击 屏幕截图 python 屏幕截图可以使用pyautogui或者PIL。我使用的是PIL中的ImageGrab(要授权)。 image ImageGrab.grab(bbox(0, 0, tool.static_window_width, tool.static_window_height)) image np.arra…

ModbusRTU/TCP/profinet网关在西门子博图软件中无法连接PLC的解决方法

ModbusRTU/TCP/profinet网关在西门子博图软件中无法连接PLC的解决方法 在工业生产现场,ModbusRTU/TCP/profinet网关在与西门子PLC连接时,必须要使用西门子的博图软件来进行配置,博图v17是一个集成软件平台,专业版支持300、400、12…

海外基金牌照的优势及注意事项-华媒舍

一、了解海外基金牌照 在投资领域,海外基金牌照是指投资者可以通过获得海外金融监管机构颁发的许可证,参与海外基金投资。拥有海外基金牌照的投资者可以享受更广泛的投资机会,包括跨境投资、全球资产配置等。 二、海外基金牌照的优势 多元化…

Unity 学习日记 8.2D物理引擎

1.2D刚体的属性和方法 2.碰撞器

还在购买蜘蛛池做SEO?有用吗?

蜘蛛池是什么?租用蜘蛛池对SEO优化到底有没有用?网上很多说法,且各执一词,那些出租蜘蛛池的写的软文不算。站长帮一直本着负责任的态度,从客观的角度,来为大家一一解惑。 本文 虚良SEO 原创,转载…

如何查询网贷大数据信用报告?哪个查询平台更好?

在互联网金融迅速发展的当下,网贷大数据查询平台已成为许多人在申请贷款前的重要工具。然而,随着这些平台的广泛使用,安全问题日益凸显,许多用户反映自己的个人信息在查询过程中被泄露。为了应对这一挑战,本文将探讨如…

fiddler配合夜神模拟器对APP进行抓包

fiddler 配置 设置https Tools – -> Options —> HTTPS 在这里插入图片描述 下载证书,并安装 修改模拟器网络连接 cmd 查看本机本地IP点击模拟器wifi, 长按修改为手动配置: IP 8888使用浏览器,访问IP 8888 下载证书 。点击Fiddler…

RabbitMQ详细讲解

目录 4.0 AMQP协议的回顾 4.1 RabbitMQ支持的消息模型 4.2 引入依赖 4.3 第一种模型(直连) 1. 开发生产者 2. 开发消费者 3. 参数的说明 4.4 第二种模型(work quene) 1. 开发生产者 2.开发消费者-1 3.开发消费者-2 4.测试结果 5.消息自动确认机制 4.5 第三种模型(…

【力扣白嫖日记】1069.产品销售分析II

前言 练习sql语句,所有题目来自于力扣(https://leetcode.cn/problemset/database/)的免费数据库练习题。 今日题目: 1069.产品销售分析II 表:Sales 列名类型sale_idintproduct_idintyearintquantityintpriceint s…

【Redis】Redisson实现分布式锁

Redisson是一个在Redis的基础上实现的Java驻内存数据网格(In-Memory Data Grid)。它不仅提供了一系列的分布式的Java常用对象,还提供了许多分布式服务,其中就包含了各种分布式锁的实现。 官网地址 GitHub地址 Redisson入门 1.引…

2024年中国数字经济行业市场前景预测研究报告

随着数字化技术的飞速发展,数字经济已经成为全球经济的重要组成部分。它不仅改变了传统产业的商业模式和运营方式,也催生了许多新兴产业和业态。数字经济的核心在于数据,通过数据的采集、分析和应用,可以实现精准营销、个性化服务…

RabbitMQ 的高阶应用及可靠性保证

目录 一、RabbitMQ 高阶应用 1.1 消息何去何从 1.2 过期时间 1.3 死信队列 1.4 延迟队列 1.5 优先级队列 1.6 消费质量保证(QOS) 二、持久化 三、生产者确认 四、消息可靠性和重复消费 4.1 消息可靠性 4.2 重复消费问题 上篇文章介绍了 Rabb…

皓学IT:JavaWEB_Cookie

一、Cookie 1.1.Cookie概述 Cookie翻译成中文是小甜点,小饼干的意思。在HTTP中它表示服务器送给客户端浏览器的小甜点。其实Cookie就是一个键和一个值构成的,随着服务器端的响应发送给客户端浏览器。然后客户端浏览器会把Cookie保存起来,当…

【快刊合集】计算机类SCI,IEEE出版社,中科院2/1区TOP,分数逐年攀升!!

本期推荐 【SciencePub学术】本期,小编给大家推荐的是1本计算机类的甄选好刊,该期刊隶属于IEEE出版社旗下,最新的影响因子已达到7,是1本业内认可度非常高的期刊。 01 期刊基本信息 【期刊简介】IF:7.5-8.0&#xff0…

Git进阶命令-reset

一、reset命令使用场景 有时候我们提交了一些错误的或者不完善的代码,需要回退到之前的某个稳定的版本,面对这种情况有两种解决方法: 解决方法1:修改错误内容,再次commit一次 解决方法2:使用git reset 命令撤销这一次错误的com…

网络类型及数据链路层协议

目录 一、网络的分类 二、数据链路层协议 1、MA网络以太网协议 2、P2P网络 3、HDLC ---高级数据链路控制协议 HDLC地址借用 三、PPP协议 1、PPP协议的优点 2、PPP数据帧封装结构 3、PPP会话的搭建 4、LCP建立——链路建立阶段 4.1协商阶段 4.2认证阶段 4.3 PAP---密…

Java基础【上】韩顺平(反射、类加载、final接口、抽象类、内部类)

涵盖知识点:反射、类加载、单例模式、final、抽象类、接口、内部类(局部内部类、匿名内部类、成员内部类、静态内部类) P711 反射机制原理 创建如下目录结构,在模块下创建src文件夹,文件夹要设置为Sources文件夹&…

农夫山泉财报公布在即,消费升级的瓶装水市场或将重新洗牌

农夫山泉财报公布在即,消费升级的瓶装水市场或将重新洗牌 新年伊始,2024年对于中国瓶装水行业注定是一个地动山摇的一年,随着农夫山泉董事长钟睒睒上次被媒体集体关注,农夫山泉遭遇上市以来的最大舆论风波。 3月26日农夫山泉的财…

2024 年 8 个最佳 PDF 转 JPG 转换器[免费和付费]

虽然 PDF(便携式文档文件)是一种流行的文档共享格式,但有时您可能希望将 PDF 文件转换为JPG,然后在网页或社交媒体上共享它们。 在本文中,我们将讨论适用于 Windows 10 和 11 的出色 PDF 到 JPG 转换器的所有特性。 …

精准、快速、便捷:游标尺模式在软件设计中的三大优势

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》 💪🏻 制定明确可量化的目标,并且坚持默默的做事。 🚀 转载自:探索设计模式的魅力:精准、快速、便捷&#xf…