百度智能云将大模型引入网络故障定位的智能运维实践

物理网络中,某个设备发生故障,可能会引起一系列指标异常的告警。如何在短时间内从这些告警信息中找到真正的故障原因,犹如大海捞针,对于运维团队是一件很有挑战的事情。

在长期的物理网络运维工作建设中,百度智能云通过各种平台数据的综合分析实现了快速故障定位。近期,更是将大模型成功引入物理网络的故障定位中。相比过去传统的定位分析方法,大模型给网络故障定位的能力建设带来了很多改变。

接下来我们将简单介绍百度智能云在物理网络故障定位的发展历程,然后详细分享如何基于大模型进行故障定位的最新实践。

1    物理网络故障定位发展历程

在多年的网络运维工作实践中,百度智能云建设起了各类指标监控分析平台:

  • 白盒监控:基于交换机日志的故障发现和定位平台;
  • 黑盒监控:基于自探测的故障发现平台;
  • 多平面监控:基于骨干网平面的监控,可以提供骨干网设备级别的告警和故障定位;
  • 流量监控:基于流量突变的故障发现平台;
  • 传输监控:提供传输网络的监控告警;
  • 变更单平台:变更操作平台,可以查询变更记录;
  • AAA 审计平台:提供身份认证和审计的平台,可以查询操作人和操作命令。

1.1    人工定位

这些监控平台都有独立的故障发现和告警能力。他们之间的数据相互独立,没有实现很好的联动。同时,单个的故障发现平台不可能达到 100% 的定位的准确率,在大规模实践中容易出现误判的现象。

假设单个平台的准确率是 80% 的话,两个平台(假定他们不相关)同时定位到同一个设备,那么故障定位的准确性可以达到 96%,如果三个不相关的平台都定位到同一个设备,那么这个设备故障的可能性高达 99.2%。所以综合多个平台的定位结果,可以极大的提高定位的准确性。

所以,在过去一段时间,如果遇上单个监控平台无法提供明确定位信息的情况,我们还会人工收集各个监控平台的数据,然后借助运维人员的经验进行研判以保证定位的准确性。

1.2    综合定位

2024 年初,我们围绕物理网络运维「发现-定位-止损」的三大步骤,实现了故障处理流程的自动化操作。其中,「后羿故障定位」平台综合了白盒监控、黑盒监控、流量监控、传输监控、变更单记录、trace 2.0、多平面监控等各种信号源,通过算法进行「综合定位」,实现了故障定位的自动化,并提高了故障定位的准确性。

同时,由于「综合定位」对定位准确性的进一步提高,我们还构建起了「自动止损」能力,做到了快速排除业务故障,将故障对业务的影响时间大幅缩短。

其中,「综合定位」基于黑盒的告警触发。后羿平台会收集各个信号源的数据,基于时空的关联将可疑的信号捞取出来,按照算法进行分析。比如发生交换机的板卡故障的时候,黑盒会监控到丢包现象,这时候后羿平台就会检查白盒中是否存在板卡故障事件、流量监控中是否存在突降告警、trace 路径上是否出现无回包的现象、某个特定平面是否会丢包等数据,然后综合这些信号源判定有否故障发生。

我们在后羿平台上实现了面向多信号源的综合分分析和故障定位能力,流程和算法大致如下:

  • 根据黑盒告警,确定故障域,将故障的范围尽可能地缩小;
  • 基于这个故障域,查询各个平台时空关联度强的告警,得到一批「候选」的故障设备;
  • 同时触发实时定位的工具如 traceroute、流统等,也将得到一批「候选」的故障设备;
  • 在这些「候选」的故障设备的基础上,结合告警类型的优先级、设备的频次、设备的层级等,推断出故障的设备或者网络链路;
  • 推出定位结果,比如事件单平台、告警电话等,并联动自动止损功能。

1.3    AI 定位

但是,虽然「综合定位」可以大幅提高定位精度,但是也存在一些局限:

  • 为了提高准确率,需要付出更多分析和设计,逻辑复杂度变成指数级的的增长;
  • 复杂度的增大增加了代码维护的难度;
  • 不方便加入新的故障定位逻辑,涉及代码的更改和部署上线;
  • 运维同学期望平台能够给出每次故障的推理过程,而使用代码难以把复杂的分析过程描述清楚。

由于大语言模型非常适合进行推理和分析,所以如果我们在故障定位中成功引入大数据模型,可以预见的好处是:

  • 基于 LLM 的强大的推理能力,可以从各种信号源中找到最有可能的故障设备或者故障链路;
  • LLM 可以给出推理细节,详细介绍为什么故障分析会推断到某个设备,而代码缺少这种能力;
  • 便于维护和演化,一旦推理错误,我们可以及时且方便调整推理策略,立即发布和执行;
  • 更方便测试,我们可以直接将提示词在文心一言等大模型应用中测试和优化。

接下来将大家介绍在「后羿故障定位平台」中,我们如何采用结构化提示词和多智能体方式逐步调优 LLM 的推理和定位。

2    基于 AI 进行网络故障定位实践

当前,我们基于文心大模型(ernie-4.0-8k)进行 AI 定位。在定位结果中同时提供综合定位和 AI 定位的结果进行效果对比。

在进行 AI 定位前,我们需要对数据进行预处理。首先,我们对告警的数据进行归一化的处理,剔除重复的数据,不合理的告警等。然后定义各种告警的权重,比如常态有设备 CRC 的告警,我们就会将其权重降低;有些低级别的白盒基础事件权重就很小。这样我们就能保证 AI 能够依据告警优先级进行推理。

2.1    结构化提示词的应用

结构化的提示词可以充分发挥大模型的潜力。我们面向物理网络故障定位场景,摸索出了一套合适的结构化提示词模版。

  • 角色

首先假定 AI 的角色,假定它是某个领域的专家。

你是一位网络监控和分析定位专家,擅长从各种告警信号中识别出故障设备或光缆故障。

  • 任务

要给它明确的任务,让它清晰地知道做什么事。

以下提供一组设备故障时的报警信息,你需要根据这些报警信息,找出故障设备或光缆故障。

  • 奖赏

据说加上奖赏后 AI 会更加卖力,所以可以尝试加上奖赏的结构。

年底会给你最高的绩效,并且我每次定位的支付费用会翻 100 倍。

  • 输入格式(示例)

需要明确提供数据的格式,最好能够提供示例。

每条报警信息包含三个字段:报警类型、故障设备、故障描述(可为空)。字段之间用逗号分隔。每行包含一条报警信息,例如:

white_box_event,HD-M2NJ-111111.Int,流量下降

white_box_event,HD-M2NJ-222222.Int,

white_box_event,HD-M2NJ-33333.Int,流量下降

white_box_event,HD-M2NJ-44444.Int,

B1_mutiple_plane,光缆故障,

B1_mutiple_plane,光缆故障,

  • 规则

你可以给 AI 一定的规则,让 AI 在这个规则内进行推理。比如下面的优先级规则:

优先级规则如下:

1. 每种报警类型的优先级不同,优先级越高,设备故障的可能性越大,但是这些告警都要综合考虑。

2. 同一设备的不同报警类型越多,该设备故障的可能性越大,但同一类型的报警只算一次。

3. 同一类型的光缆故障只算一次。

.....

7. 不管怎么样,最终结果务必给出一个结论。

  • 输出格式

你可以指定输出的格式,方便处理结果。比如下面的格式要求 AI 只输出定位结果:

只需要按照下面的格式输出推断结果,一定不要输出推理逻辑:\n 故障设备: {故障设备}

你还可以让 AI 输出推理过程,分析 AI 是怎么推理出这个结果的,方便后续的优化:

按照下面的格式输出推断结果:\n 故障设备: {故障设备}\n 推断逻辑: {推断逻辑}

2.2    一个 AI 定位的例子

按照这个结构化提示词的模版,加上各种处理过后的信号源,我们就可以为每一个告警事件构建相关的提示词,然后通过百度智能云的千帆大模型平台,调用文心大模型(ernie-4.0-8k)进行推理分析。大模型故障定位的结果如下:

2.3    AI 定位和综合定位的结果对比

通过跟踪每天的告警,我们可以比较「综合定位」的结果和「AI 定位」的结果:

比如编号 171728 这个故障,「综合定位」研判它是 BD-XXXXXX-LE-1-XXXXXX 设备抖动,它是一台 LEAF 设备。AI 定位研判它是 BD-XXXXXX-LE-1-XXXXXX 和 BD-XXXXXX-SP-4-XXXXXX 这两台设备的抖动。通过比较可以发现,「AI 定位」比「综合定位」多定位出了一台 SPINE 设备。

实际上,故障就是是这台 SPINE 设备和这台 LEAF 设备之间的链路抖动,影响了这条链路的两头的端口,所以「AI 定位」能够报出这两台设备,这说明他在故障定位中会更准确一些。

2.4    让 LLM 给出故障定位的推理逻辑

甚至,我们还可以让 LLM 告诉他的故障定位的推理过程。

如果使用代码把推理过程写出来,还是比较困难的,因为代码基本就是 if-else 流程。但是如果是 LLM ,就容易多了。我们可以在提示词输出格式中加上「推理逻辑:{推理逻辑}」,也就是告诉 LLM 需要把推理过程输出出来。看一个例子:

在上图这个例子中,整个故障包含了流量下降和白盒日志等事件,这些事件都涉及 BD-XXXXXXXXX-SC-XXXXXXXXX-37.Int 这台设备,所以这台设备出现故障的可能性很大,同时没有传输告警等其它事件的干扰,能够进一步确定是这台设备出现了故障。

实际上,我们可以使用各种大语言模型进行推理,不限于文心,比如 Llama2。

所以我们还可以采用多智能体的方式,进一步提高故障定位的准确率。比如为每一款 LLM 大语言模型制作一个智能体,多个智能体同时进行定位,然后综合多个智能体的结果进一步定位。

2.5    多智能体辅助定位

在实践中,我们采用了双智能体的方式,主智能体是文心大模型(ernie-4.0-8k),辅助智能体是 Llama_2_70b。

  • 首先,我们让文心大模型推理出一个结果 L1;
  • 然后,让 Llama 2 模型推理出一个结果 L2 和推理过程 R1;
  • 对比 L1 和 L2 结果。如果两者一样,说明两个大模型的推理是一致的,返回这个结果;
  • 否则, 把 L2 和 R1 扔给文心大模型,并告诉它这是 Llama 2 的推理结果和推理过程,让它再一次推理,得到结果 L3;
  • 最后返回 L3。

比如下面的一个故障, 是上述过程 3 的一个展示。

图片

下面这个例子是上述过程 4 和 5 的展示。第一次定位,文心大模型和综合定位的结果相同,但是和 Llama2 的结果不同,所以将 Llama2 的结果和推理逻辑扔给文心大模型后再次定位,得到了和 Llama2 相同的结果,这也和实际情况相同:

针对多智能体辅助定位这个功能,我们做成了一个按需调用的工具,只是用来做观察和调优。如果发现文心大模型的单次 AI 定位不准确的话,我们就会使用这种多多智能体辅助定位的方式,以便优化文心大模型的单次定位效果。

3    总结与展望

目前,百度智能云已经在骨干网网络质量监控中引入了 AI 定位的能力,并且取得了不错的效果。我们正在将这个能力推广到机房的物理网络故障定位、网关的故障定位等场景。

同时,我们的 AI 定位能力还可以进一步优化,比如为大模型提供网络的拓扑信息、增加更多的告警来源等,让 AI 定位更精准。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/792132.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch版本、安装和检验

基于conda包的环境创建、激活、管理与删除 目录 CUDA版本 Pytorch版本 Pytorch安装 检验安装 获取torch版本 获取torchvision版本 检验CUDA是否可用 获取CUDA设备的数量 获取CUDA设备ID 获取CUDA设备名称 CUDA版本 CUDA 是 NVIDIA 专为图形处理单元 (GPU) 上的通用计算…

AI Earth——Sentinel-5P大气污染监测可视化应用APP

数据介绍 Sentinel-5P OFFL L3_CH4简介与Notebook示例 该数据集提供Offline的甲烷(Methane, CH4)聚集度高分辨率影像。 CH4是继二氧化碳 (CO2) 之后人为增强温室效应的最重要贡献者。大约四分之三的甲烷排放是由人为造成,因此继续记录基于卫星的测量结果非常重要。Sentine…

免费分享一套SpringBoot+Vue农产品在线销售(在线商城)管理系统【论文+源码+SQL脚本】,帅呆了~~

大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue农产品在线销售(在线商城)管理系统,分享下哈。 项目介绍 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发…

vue+lodop实现web端打印功能

lodop官网下载地址:http://www.c-lodop.com/download.html 1、下载插件(如果只是想实现打印功能,下载红框里的即可) 2、解压缩,然后根据自己的操作系统安装控件 32位系统安装:install_lodop32.exe&#x…

电脑卡顿反应慢怎么处理?5个方法,让操作更流畅

当你的电脑开始像年迈的蜗牛一样缓慢爬行,每一个点击、每一次滑动都变成了无尽的等待,是不是感到无比沮丧?电脑卡顿反应慢怎么处理呢?别急,这里有5个妙招,能让电脑重新焕发生机,飞驰起来&#x…

【大模型LLM面试合集】大语言模型基础_LLM为什么Decoder only架构

LLM为什么Decoder only架构 为什么现在的LLM都是Decoder only的架构? LLM 是 “Large Language Model” 的简写,目前一般指百亿参数以上的语言模型, 主要面向文本生成任务。跟小尺度模型(10亿或以内量级)的“百花齐放”…

力扣2356.二维差分模板——子矩阵元素加1

力扣2356.二维差分模板——子矩阵元素加1 模板题 最后将n2*n2的矩阵删去周围一圈变成n*n矩阵的操作 class Solution {public:vector<vector<int>> rangeAddQueries(int n, vector<vector<int>>& queries) {vector<vector<int>> res…

PCB设计中连接位对产品的影响有多大?

PCB设计中的连接位&#xff0c;通常指的是电路板上用于连接电子元件的焊盘或连接点&#xff0c;对最终成品会产生巨大影响。在设计过程中&#xff0c;与PCB制造厂商的沟通至关重要&#xff0c;特别是关于连接位的详细参数和设计规范&#xff0c;与厂商讨论适合连接位的制造工艺…

tensorflow1.x 基础案例1

从一些基础案例中慢慢掌握tensorflow&#xff1a; 1.1 用tensorflow打印“hello&#xff0c;world” 为什么首先学习hello world&#xff1f; 快速熟悉TensorFlow的基本用法和工作流程。"Hello World"不需要复杂的依赖&#xff0c;这有助于快速搭建TensorFlow环境…

为二进制文件添加.gnu_debugdata调试信息

前言 在使用gcc/g编译二进制文件过程中&#xff0c;如果添加了-g参数&#xff0c;编译出来的二进制文件会带有debug信息&#xff0c;供调试使用。但是debug信息往往占用空间很大&#xff0c;导致二进制文件太大&#xff0c;在发布到生产环境时&#xff0c;一般会去掉调试信息&…

【分布式系统】ceph部署(命令+截图巨详细版)

目录 一.存储概述 1.单机存储设备 2.单机存储的问题 3.商业存储 4.分布式存储​编辑 4.1.什么是分布式存储 4.2.分布式存储的类型 二.ceph概述 1.ceph优点 2.ceph架构 3.ceph核心组件 4.OSD存储后端 5.ceph数据存储过程 6.ceph版本发行生命周期 7.ceph集群部署 …

Python爬虫:BeautifulSoup的基本使用方法!

1.简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱&#xff0c;通过解析文档为用户提供需要抓取的数据&#xff0c;因为简单&#xff0c;所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup…

js字符串文字添加不同颜色,replace的妙用$1...$9

更改字符串第一个数字为红色显示&#xff0c;第二个数字为黄色显示 $1匹配的是正则第一个括号选中的字符串&#xff0c;可以使用正则不断用括号匹配然后更改样式 const testStr "剩余12个名额&#xff0c;截止时间12月25日" testStr this.testStr.replace(/(\d)(\D…

GD32F303之CAN通信

1、CAN时钟 GD32F303主时钟频率最大是120Mhz,然后APB1时钟最大是60Mhz,APB2时钟最大是120Mhz,CAN挂载在APB1总线上面 所以一般CAN的时钟频率是60Mhz,这个频率和后面配置波特率有关 2、GD32F303时钟配置 首先我们知道芯片有几个时钟 HXTAL&#xff1a;高速外部时钟&#xff1…

[图解]SysML和EA建模住宅安全系统-14-黑盒系统规约

1 00:00:02,320 --> 00:00:07,610 接下来&#xff0c;我们看下一步指定黑盒系统需求 2 00:00:08,790 --> 00:00:10,490 就是说&#xff0c;把这个系统 3 00:00:11,880 --> 00:00:15,810 我们的目标系统&#xff0c;ESS&#xff0c;看成黑盒 4 00:00:18,030 --> …

软考:软件设计师 — 2.操作系统

二. 操作系统 1. 操作系统概念 &#xff08;1&#xff09;操作系统的作用 操作系统是计算机硬件之上的第一层软件系统。 操作系统通常用来&#xff1a; 管理系统的硬件、软件、数据资源。控制程序运行。人机之间的接口。应用软件与硬件之间的接口。 可概括为&#xff1a; …

汽车零配件行业看板管理系统应用

生产制造已经走向了精益生产&#xff0c;计算时效产出、物料周转时间等问题&#xff0c;成为每一个制造企业要面临的问题&#xff0c;工厂更需要加快自动化&#xff0c;信息化&#xff0c;数字化的布局和应用。 之前的文章多次讲解了企业MES管理系统&#xff0c;本篇文章就为大…

HybridCLR原理中的重点总结

序言 该文章以一个新手的身份&#xff0c;讲一下自己学习的经过&#xff0c;大家更快的学习HrbirdCLR。 我之前的两个Unity项目中&#xff0c;都使用到了热更新功能&#xff0c;而热更新的技术栈都是用的HybridCLR。 第一个项目本身虽然已经集成好了热更逻辑&#xff08;使用…

楼道灯微波雷达模块模组,智能感应uA级超低功耗替换红外传感器,飞睿助力绿色照明

随着科技的飞速发展&#xff0c;LED楼道灯早已不仅仅是照亮我们回家路的工具&#xff0c;它们正变得越来越智能、高效和环保。今天&#xff0c;就让我们一起探索LED楼道灯背后的科技——飞睿智能微波雷达模块模组&#xff0c;以及它如何以超低功耗&#xff08;uA级别&#xff0…

信息化安全管理怎么做

企业如何做好安全管理工作?检查频次多了怕影响子正常生产经营&#xff0c;效益低下&#xff0c;检查频次少了又担心管控不住。”这是安全管理部综合业务室的困惑&#xff0c;也是很多企业的困惑。面对企业在安全管理中的困惑与挑战&#xff0c;采用信息化平台与精细化管理策略…