KDD 2024|基于隐空间因果推断的微服务系统根因定位

简介:本文介绍了由清华大学、南开大学、eBay、微软、中国科学院计算机网络信息中心等单位共同合作的论文《基于隐空间因果推断的受限可观测性场景的微服务系统根因定位》。该论文已被KDD 2024会议录用。

论文标题:Microservice Root Cause Analysis With Limited Observability Through Intervention Recognition in the Latent Space

作者:谢哲,张圣林,耿一彤,张尧,马明华,聂晓辉,姚振翮,徐龙龙,孙永谦,李文滔,裴丹


摘 要

随着微服务系统的广泛应用,许多根因定位(Root Cause Analysis, RCA)算法被提出。然而,现有算法大多集中在单级别(如指标级或服务级)的候选根因集(Root Cause Candidates, RCCs)排序上,并依赖完整的监控指标。然而,在实际的微服务系统中,候选根因的可观测性往往是有限的,在很多情况下,这可能导致不准确的根因分析。

为了解决这一问题,论文首次提出将候选根因建模为隐变量,通过相关的监控指标来推断候选根因的状态,而不是直接根据某个可观测指标判断候选根因的状态。基于此思想,论文提出了LatentScope,一种在受限可观测性下处理异构候选根因的无监督RCA框架。LatentScope通过双空间图(Dual-Space Graph)模型(包括可观测变量和不可观测变量)来实现快速的隐变量推断和RCA。基于eBay的实际故障数据与Testbed数据的评估结果表明,与基线算法相比,我们模型的根因定位效果取得了显著的提升。

背景与挑战

随着在线应用需求的日益复杂和多样化,微服务架构在在线服务系统中被广泛使用。然而,由于频繁的变化和扩展,系统故障是不可避免的。因此,近年来提出了越来越多的RCA算法来定位故障根因。

在应用RCA算法时,一个重要的挑战是微服务系统内部各个候选根因(例如,Pod、Service、Host)的有限可观测性。在微服务系统中,可观测性通常是通过监控指标、日志与调用链等方式实现的。现有RCA算法通常要求具有良好的可观测性,但实际情况中,由于微服务系统的架构通常较为复杂多变,大量候选根因的可观测性是受限的。

图片

图1 在微服务系统中,Service 1发生了故障,并且由于故障传播,系统中不同部件的监控指标均出现了异常波动

上图展示了一个由Service 1引起的微服务系统故障及其对应的候选根因集RCCs。这些RCCs可以是异构的和多层次的。此外,由于Service 1与Pod 1-1和Pod 1-2均有包含关系,Service 1的故障也造成了对应Pod的异常波动。如果没有指标能够独立反映Service 1的状态情况,那么现有的RCA算法通常难以区分出具体的根因是来自于Pod 1-1、Pod 1-2或Service 1。

方法设计

在这里插入图片描述

图2 LatentScope的整体结构

在这里插入图片描述

图3 双空间图与其符号表示

LatentScope的整体结构如图2所示。为了实现对异构候选根因的准确建模,LatentScope建立了一个双空间图模型,分别表示隐空间层(Latent Space)和可观测层(Observable Space)。

其中,隐空间层的每一个节点代表一个候选根因,可观测层的每一个节点代表一个指标。隐空间层与可观测层的节点间存在多对多的连接关系,即每一个候选根因可能对应了多个监控指标,而每一个监控指标可能也同时与多个候选根因存在关系。

LatentScope的任务是,基于上述的双空间图,根据现有的监控指标,推断出其中隐空间层的根因节点。然而,正如前文所述,监控指标可能同时会受到故障根因与来自其他RCC的故障传播造成的影响而产生波动。因此,我们需要同时考虑这两种导致指标波动的因素,推断故障根因。为此,LatentScope提出了一种可应用于隐空间的因果推断(Latent-Space Intervention Recognition)算法,根据可观测的指标,求解隐空间的根因。

实验评估

在这里插入图片描述

表1 基线模型对比表格

论文分别基于了来自eBay真实故障案例的数据集(Dataset A)与来自Testbed故障注入的数据集(Dataset B)进行了评估,对比LatentScope与基线模型的根因定位准确率。其实验结果如表1所示。结果表明,LatentScope在所有的评估指标中,均能够超过现有的基线模型。

在这里插入图片描述

图4 基线模型MRR对比结果雷达图

此外,文章还分别对不同模型在异质根因上的定位结果进行了对比,其结果如图4所示。可以发现,现有的大多数基线模型往往只能对有限的几类根因中取得不错的定位效果,而文章提出的LatentScope算法对于不同类别的根因均取得较好的定位效果。这验证了LatentScope算法在应对异质RCC与有限观测性下良好的根因定位能力。

总 结

微服务系统的根因分析(RCA)对于确保系统的稳定性和可靠性至关重要,论文提出了一种新的无监督RCA框架LatentScope,能够在受限的可观测性条件下推断异构的候选根因。LatentScope通过构建双空间图模型,将可观测变量和隐空间变量分离开来,从而缓解了候选根因的异构性与受限可观测性带来的根因定位不准确的问题。创新地提出了隐空间下的因果推断技术,实现了对于候选根因隐变量的精确推断。通过真实故障案例的实验,验证了LatentScope在应对异质候选根因与有限观测性下良好的根因定位能力。


欢迎报名2024 CCF国际AIOps挑战赛!

2024 (第七届)CCF国际AIOps挑战赛由中国计算机学会(CCF)主办,中国计算机学会互联网专委会、清华大学、中国科学院计算机网络信息中心承办,中兴通讯、北京智谱华章科技有限公司、中南大学计算机学院、清华大学计算机科学与技术系、北京必示科技有限公司协办。同时,本届AIOps挑战赛也是OpenAIOps社区成立之后第一届重要年度赛事。

本次挑战赛以“基于检索增强的运维知识问答”为赛题,旨在探索如何结合领域私有技术文档进行高效私域知识问答。首次采用大模型检索增强(RAG)技术,基于中兴5G领域运维技术文档,揭示在通用大语言模型基座下,垂直领域知识问答面临的领域知识缺失、公私域知识冲突、多模态图表并存等一系列挑战。

目前挑战赛报名进行中,欢迎报名参赛!(报名网址:https://aiops-challenge.com)更多赛事相关信息将在社区“智能运维前沿”公众号发布,同时OpenAIOps社区群将提供赛事通知、技术答疑,有意者可扫码添加官方微信号(OpenAIOps社区小助手)入群。

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/660420.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据与结构——红黑树

目录 红黑树的概念 性质 结点的定义 插入 验证 查找 删除 红黑树与AVL树的比较 红黑树的概念 红黑树是一种自平衡二叉搜索树(Binary Search Tree, BST),其每个节点带有颜色属性,可以是红色或黑色。红黑树通过约束节点颜色…

盲盒小程序开发,为市场带来的新机遇

近年来,盲盒市场一直处于热门行业中,发展非常快速。在互联网的支持下,也衍生出了线上盲盒小程序,实现了线上线下双发展的态势。 盲盒小程序作为一种新的盲盒购物方式,受到了盲盒消费者的喜爱,为盲盒行业的…

Matlab 结构光相移法(单频多相)

文章目录 一、简介1、基于点的测距2、基于条纹的测距二、条纹编码2.1 二进制编码2.2相移法三、实现代码参考文献一、简介 在介绍相移法之前,我们需要先了解一下为啥会有相移法,了解了其来龙去脉,则更容易去应用它。 1、基于点的测距 首先我们从点的测距开始,这有点类似于立…

香港优才计划找中介是否是智商税,靠谱中介又该如何找?

关于香港优才计划的申请,找中介帮助还是自己DIY,网络上充斥的声音太多,对不了解的人来说,难以抉择的同时还怕上当受骗。 这其中很容易误导人的关键在于——信息差! 今天这篇文章的目的就是想让大家看清一些中介和DIY…

2024-05-29 blue-VH-driver-对外接口的并行调用-设计与思考

摘要: VH的driver的对外接口, 要做到可以并行,也就是两个不同的线程,分别调用,不能互相阻塞。 本文记录对其的思考和设计。 上下文: 2024-05-28 blue-VH-driver-需求分析及问题分析-CSDN博客 2024-05-27 blue-vh-问题点-CSDN博客 2024-05…

【开发利器】使用OpenCV算子工作流高效开发

学习《人工智能应用软件开发》,学会所有OpenCV技能就这么简单! 做真正的OpenCV开发者,从入门到入职,一步到位! OpenCV实验大师Python SDK 基于OpenCV实验大师v1.02版本提供的Python SDK 实现工作流导出与第三方应用集…

革新风暴来袭:报事报修系统小程序如何重塑报事报修体验?

随着数字化、智能化的发展,已经应用在我们日常生活和工作的方方面面。那么,你还在为物业报修而头疼吗?想象一下,家里的水管突然爆裂,你急忙联系物业,时常面临物业电话忙音、接听后才进行登记繁琐的报修单、…

Sytem.getenv的作用和意义介绍

Sytem.getenv的作用和意义介绍!在实际的项目开发中,我们经常需要获取一些系统自身的环境变量,为此,java官方提供的这个系统环境变量,自带了一个方法,就可以直接拿到系统的环境变量值了。 下面是一个简单的…

一个全面了解Xilinx FPGA IP核的窗口:《Xilinx系列FPGA芯片IP核详解》(可下载)

随着摩尔定律的逐渐放缓,传统的芯片设计方法面临着越来越多的挑战。而FPGA以其并行处理能力和可编程性,为解决复杂问题提供了新的途径。它允许设计者在同一个芯片上实现多种不同的功能模块,极大地提高了资源的利用率和系统的综合性能。 FPGA…

Python 之微信指数小程序数据抓取

Fiddler安装和设置 安装 Fiddler 安装包可以从这里获取,如果失效了可以自己网上找一个安装。 链接:https://pan.baidu.com/s/1N30BoDWm2_dBL8i8GRzK5g?pwd1znv 提取码:1znv 然后就是点击安装就好了,没什么好多说的。 启用…

NoSQL是什么?NoSQL数据库存在SQL注入攻击?

一、NoSQL是什么? NoSQL(Not Only SQL)是一种非关系型数据库的概念。与传统的关系型数据库不同,NoSQL数据库使用不同的数据模型来存储和检索数据。NOSQL数据库通常更适合处理大规模的非结构化和半结构化数据,且能够…

赛事赞助|威波力赞助2024年首届中国大学生跳绳锦标赛

2024年5月26日由厦门威波力品牌赞助的“2024年首届中国大学生跳绳锦标赛”在上海财经大学体育馆圆满落幕。作为本次大赛的赞助方之一,威波力为比赛全程提供支持,与大家一起见证了一场场精彩纷呈的比赛。 此次比赛,昆明学院的李中芸&#xff0…

【YOLOv5/v7改进系列】引入AKConv——即插即用的卷积块

一、导言 介绍了一种名为AKConv(Alterable Kernel Convolution)的新型卷积操作,旨在解决标准卷积操作存在的两个根本性问题。首先,标准卷积操作受限于局部窗口,无法捕获来自其他位置的信息,且其采样形状固…

【Java SE】 String、StringBuff和StringBuilder

🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 文章目录 1. 字符串不可变性1.1 设计不可变1.2 修改字符串创建新对象1.3 为什么字符串不可变1.4 String类设计不可变的…

【易生支付官网注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

宁盾身份域管与天翼云电脑完成兼容互认证

近日,宁盾身份域管与天翼云电脑完成兼容互认证!这是继中兴、深信服、升腾威讯云桌面/云电脑后,宁盾对接的第4个国产云桌面品牌。企业在引入国产云桌面时,同时会考虑微软AD目录的替代方案。宁盾国产化身份域管对接天翼云电脑从终端…

【刷题(13)】二分查找

一、二分查找基础 &#xff08;1&#xff09;int mid ((right - left) >> 1) left; &#xff08;2&#xff09;lower_bound的底层实现 int lower_bound(vector<int>& nums, int x) {int left 0;int right nums.size() - 1;// 区间为 左闭右闭while (lef…

[leetcode hot 150]第一百九十一题,位1的个数

题目&#xff1a; 编写一个函数&#xff0c;输入是一个无符号整数&#xff08;以二进制串的形式&#xff09;&#xff0c;返回其二进制表达式中设置位的个数&#xff08;也被称为汉明重量&#xff09;。 这道题比较简单&#xff0c;直接对最后一位进行与1的与操作&#xff0c;然…

【RSGIS数据资源】1981-2021年中国陆地生态系统蒸腾蒸散比数据集

文章目录 摘要基本信息数据结构和内容采集方法信息数据处理方法与数据质量 摘要 本数据集涵盖了中国陆地生态系统蒸腾蒸散比&#xff08;T/ET&#xff09;、蒸腾&#xff08;T&#xff09;及蒸散&#xff08;ET&#xff09;三组数据。基于模型-数据融合方法&#xff0c;集成PT…