企业IT运维事中故障定位方法及工具

企业IT故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。

1.定位方法

1) 专家经验驱动的假设尝试

随着企业的应用系统架构由原来单体架构向分布式微服务架构发展,以及研发、运维团队对高可用架构的重视与投入,越来越多的系统在服务级别的可用性、可靠性、健壮性更强,再加上配套的监控工具完善,一般的服务级别不可用故障有更好的应对方案。当前运维面临的故障定位问题,主要是:

• 海量并发下,故障的快速传染,单个服务异常影发了大量异常的出现,如何在大量异常服务中判断根因服务。

• 判断应用逻辑层面的异常,比如功能、菜单级别的故障,如何更加主动、从容的找到逻辑上的故障点,并作出应急。

• 应用逻辑故障的问题定位与 “故障传染”场景类似,如何在大量病态的功能中找到根因功能,并对功能进行降级等恢复是难点。

• 判断数据异常产生的异常,数据异常不仅仅指数据完全不可用,而是在大部分数据正常下,找到个别数据不可用的问题。

在面对上面的故障时,整体的自动化能力还有较大提升空间,基于运维专家经验驱动的假设性尝试诊断与恢复仍是当前主要的应对手段。要让运维专家经验发挥得更好,需要重点关注四件事:

• 专家技能的持续提升。应用逻辑、数据异常问题对于传统运维专家通常是黑盒子,运维专家需要转换角色主动去了解应用逻辑功能,上下游调用链、数据流向、应用配置、数据库流水等要素。

• 运维前移。了解软件层的黑盒子,除了主动对线上系统进行学习,还要落实前移工作,比如:标准化前移,推动软件更加可维护;基础平台前移,用平台推动软件标准化;交付前移,标准化、自动化软件交付链路;测试前移,围绕系统稳定性进行主动的体验、接口、压力测试,提升稳定性等等。

• 技能的沉淀与传承。依靠经验最大挑战是应对人员不在故障处理现场的问题,技能的沉淀与传承是运维管理需要考虑的问题。前者针对技能经验的知识化,重点关注知识生产、保鲜、共享;后者针对岗位设置、培训、值班管理等机制。

• 工具赋能。应用日志、交易报文、应用流水等是了解软件逻辑和数据的主要方案,组织要为专家提供方便的工具。这个思路同样适用于运维以外的专家,比如在故障协同中将应用日志、功能级的性能等数据以在线工具方式分享给研发、测试团队也是一个有效的赋能手段。

2) 已知预案启动

对于疑难杂症或重大故障,我们认为故障诊断过程中,应该采用两条操作路径,一是前面提到的基于专家经验的尝试性的诊断,另一点是围绕已知预案的尝试启动。已知预案指提前对故障场景进行描述,并制定应急操作步骤。在预案的启动中,我们做了几件事:

• 预案线上化。线上化的预案主要解决当前线下文档式预案不可用、不好用的问题。采用乐高式拼装的方式,将应急策略卡片化,支持将多个策略拼装成一个应急场景下的预案。

• 预案自动化。预案线上化后就能将预案的策略自动化、社交化,比如根据链路关注自动化的触达应急策略到关联方,将预案应急的协同在社交 IM 进行处置等。具体的预案场景设计将在场景部分中进行介绍。

• 预案融入故障处置过程。将预案的执行与应急处置场景工具整合在一起,作为一个标准化的动作,一方面持续实战使用中不断的发现预案存在不足,另一方面故障处置驱动预案设计者更加重视预案的编写。

3) 测试复现

复杂系统的故障定位必然是一个跨团队协同的过程,测试复现是一个协同定位的解决方案。从岗位看,测试与 bug 打交道的机会最多,对于逻辑、数据引发的故障更敏感。测试复现与定位问题用什么方法,因为不专业不作说明,以下从运维赋能测试复现问题的角度列一下运维需要提前准备的支持:

• 让测试能够更快的获得问题描述,问题表现的截图,工单系统的在线流转,或基于 chatOps的信息传递都是好的解决方案。

• 让测试方便的查生产环境的异常日志,能看到获得网络服务的 500 错误,还是空指针等等信息。

• 按接口细分访问状况,包括成功率,交易量,耗时等。

• 定期同步测试系统,将生产已知缺陷数据在线化,辅助测试定位。

• 在线获得配置信息,查看应用配置项的生产设置情况。

4) 代码分析

虽然开发可能不清楚复杂系统完整的上下游关系,部署架构,但一定是最清楚具体逻辑、数据的人角色。与测试复现提到的类似,运维也要为研发团队提供应急协同的工具。除上面为测试提供的工具适用于研发外,运维还要为开发提供线上程序版本、配置信息、各功能号的性能信息等数据。性能管理, AIOps等场景的工具应用,将有利于研发团队在故障定位环节,提升代码分析能力。

2. 定位工具

1) 日志

对于运维而言,日志是运维了解硬件及软件内部逻辑的一面窗口。以软件为例,从系统生命周期看,由于运维没有参与到软件的需求分析、系统设计、编码开发、质量测试等阶段,当系统交接到生产环境时,软件日志是运维了解系统运行状况的重要手段。日志记录了从业务、中间件、系统等全链路信息,可以有效监控IT系统各个层面,从而有效的调查系统故障,监控系统运行状况。利用日志,运维可以了解用户行为操作,服务请求调用链路,功能调用是否成功,失败原因等信息,是故障定位的重要手段,帮助运维人员快速定位问题。

传统运维依靠人力从日志中排查故障原因,主要通过 grep、sed等指令利用关键词(error, fail, exception等)进行搜索,或利用基于规则的日志提取方法,通过传统方式手动设置正则表达式来解析日志。这不仅对代码要求高,而且要求运维人员对系统和业务有着丰富的经验。随着系统的日趋复杂化,日志显现出数量庞大、无固定模式、不易读懂等特点。仅凭借管理员在海量日志中手动查看日志记录,需要登陆每一台服务器,一次次重定向文件,操作繁琐, 不利于故障定位。所以,构建一体化的日志分析平台和利用人工智能的技术对日志进行分析是解决当前日志分析的方向,实现分散日志的归集,并在日志数据之上建立日志数据二次加工,提升故障定位能力。

2) 链路

这里提的链路主要包括纵向与横向的依赖关系,纵向关系指从生产对象的部署关系建立的从基础设施、网络、计算资源服务器、存储、虚拟机、容器、主机、应用系统、应用、服务的关系,通常围绕应用系统进行扩散;横向关系主要从服务调用关系,通过通过业务进行构建关系链。从技术实现上,我觉得可以围绕 CMDB 与 PAAS 平台两个平台建设之上持续完善链路关系。其中 CMDB 应该将关系定位为 CMDB 最重要的配置数据之一,如果当前的 CMDB 到了以业务为中心的配置管理方案,那么集成必要的关系发现、关系绘制构建、关系消费的能力是下一代 CMDB 的重点( CMDB 的发展可以分为:满足 IT 资源管理线上化,支撑运维平台化互联互通,以业务为中心的配置管理,基于关系为核心的知识图谱)。PAAS 平台,侧重指企业以微服务为应用平台,或是面向云原生的应用平台。通常应用平台为了解平台上的系统的可维护性与可靠性,服务调用链有配套的解决方案,运维需要对平台现有链路关系进行在线的获取。

3) 监控

以往,监控往往被定位为“监测”的角色,即只负责发现异常,将报警发出来即尽到监控职责。站在运维业务连续性保障的最终价值看,监控要在“监”的基础上,增加“控”在故障恢复角度的要求,而要实现“控”前,需要监控具备定位问题的能力。监控提升故障定位能力,可以考虑以下几个点:

• 对于已知异常的监控策略,在监控发现问题后,对已知异常探测点结果进行清晰的描述。

• 对于多个监控告警进行告警事件的收敛管理,基于 CMDB 关系数据进行初步的定位。

• 利用监控数据与 AIOps算法,构建智能化的故障定位场景应用,增加故障定位的能力。

对于监控方面的内容将有专门的章节作介绍,这里不再展开。

4) 数据感知

数据感知不仅仅是将数据可视化,而是要从更高维度去感知系统运行状况。传统应用监控主要采用 “点”的方式不断完善监控,即当出现新的漏洞或事件,则在监控系统增加相应运行“点”的数据采集,并加上对数据的预警策略达到预警的效果。这种“点”的监控方式更多的是打补丁的方式,是一种“事后”、“被动”、“加固”的思路,为了提高监控能力需要利用每个运维同事的专家经验转变成“事前”、“主动”、“预防”为主,以“事后”、“被动”、“加固”为辅思路。要实现 “事前”、“主动”、“预防”,需要将以“点”为主的监控视角,转变成“面”的视角(可以理解为上帝视角,自上而下),这种”面“的视角是对现有监控方式的一个补充,是应对应用越来越复杂、业务连续性要求越来越高问题的要求。我觉得数据感知有以下的特征:

• 全景感知。举一反三,面的思维,主动思考同类的感知,主动消费己有的数据库、日志的数据。

• 数据基线。感知系统 “健康状态”,利用同比、环比的基线比对,利用多维度组合的可视化、即时的信息推送、数据驱动的自动化操作让运维能够更快、更全面的感知异常。

• 业务为中心。关注影响业务的点,比如:是否影响业务服务可用性、性能、功能、体验。

• 数据驱动。消费 &落地关系数据库、内存数据库、日志数据,与关系/链路的配置数据多维关联,形成评价系统是否“健康”的多维度指标。

5) 知识管理

知识管理是一个大家都知道应该要做,但大部分都没做好的事情。原因可能有很多,比如:在管理上,执行环节领导关注度不够有关,前三天很热,后续推进不足,缺少持续的管理、有效的奖惩措施;在运营上,知识需要融入员工工作流程中,这需要知识的运营方参与运维工作流程的设计,在流程和线上化场景中整合知识的生产过程;在技术上,知识库没有与运维场景工具整合在一起,知识的生产、加工,与知识的应用脱节,知识用得少无法验证知识数据的准确性,引发对知识的信任问题。但是,可以预见,随着系统架构复杂性越来越高,数据量越来越大,当前主要依靠运维专家现场经验驱动的临断决策解决问题的模式在未来受到的挑战会越来越大。尤其是对于未知故障的应急管理成为当前运维组织重中之重需要解决的问题。

以手工维护为主的知识库也许可以向基于下一代智能技术实现的知识图谱发展,增强生产对象与对象关系的描述能力,将对故障定位起来至关重要的作用。比如,运维知识图谱能赋能故障的决策,将运维知识图谱融入到运维应急工具中,可以将运维人员的故障定位决策过程数字化,构建决策支持知识图谱,借助机器对海量定位决策操作行为进行穷举式遍历。如果运维知识图谱准确性有保证,可以预见还能够支持数据源/指标/文本异常检测、基于人工故障库/数据挖掘的故障诊断、故障预测、故障自愈、 成本优化、资源优化、容量规划、性能优化等场景。









LinkSLA官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/522850.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

电脑桌面监控软件

电脑桌面监控软件 有一项触目精心的统计,2022年上半年,有33.2%的网民在单位上网,上网行为包括聊天、游戏、看小说、炒股等等,可以说五花八门。这些行为给企业带来四个问题: (1)宽带资源被滥用。…

Myelsa的Python函数之旅(高铁直达)

一、函数的定义: 函数(Function)是一段可重复使用的代码块,用于执行特定的任务或计算,并可以接受输入参数和返回输出结果。函数可以将复杂的问题分解为更小的子问题,提高代码的可读性和可维护性。 二、函数的组成: 在…

面试:HashMap

目录 1、底层数据结构,1.7 与1.8有何不同? 2、为何要用红黑树,为何一上来不树化,树化阈值为何是8,何时会树化,何时会退化为链表? 3、索引如何计算? hashCode都有了,为何还要提供hash()方法?数组容量为…

java实现运行脚本文件

在最近的项目中,有一个需求是前端传给我一个脚本文件,然后我需要运行脚本文件后将结果进行返回,那接下来就让我们看看是怎么做的吧! public R runScripts(Integer id) {ScriptsInfo scriptsInfo this.baseMapper.selectById(id);…

【数据结构】红黑树详解

目录 前言: 红黑树的概念: 红黑树的性质: 红黑树节点的定义: 红黑树的插入: 情况1:cur为红,p为红,g为黑,u存在且为红 情况2:cur为红,p为红&#xff0c…

CY5.5-NH2生物分子荧光标记Cy5.5 星戈瑞

CY5.5-NH2是一种常用的生物分子荧光标记染料,属于Cy5.5系列染料的一种。它具有强烈的荧光信号和较高的光稳定性,因此在生物分子标记和成像领域得到应用。 CY5.5-NH2染料具有一个氨基(-NH2)官能团,可以与生物分子中的羧基(-COOH)或其他活性基…

linux网络预备

网络预备 网络协议初识 协议分层 打电话例子 在这个例子中, 我们的协议只有两层; 但是实际的网络通信会更加复杂, 需要分更多的层次。 分层最大的好处在于 “封装” 。 OSI七层模型 OSI(Open System Interconnection,开放系统互连)七层网…

用Python做一个4399游戏脚本原来这么简单 !(内含完整思路)

说明 简述:本文将以4399小游戏《宠物连连看经典版2》作为测试案例,通过识别小图标,模拟鼠标点击,快速完成配对。对于有兴趣学习游戏脚本的同学有一定的帮助。 运行环境:Win10/Python3.5。 主要模块:win3…

汇编语言:寻址方式在结构化数据访问中的应用——计算人均收入

有一年多没有在CSDN上发博文了。人的工作重心总是有转移的,庆幸一直在做着有意义的事。   今天的内容,是为汇编语言课程更新一个实验项目。      本方案修改自王爽编《汇编语言》第4版P172“实验7寻址方式在结构化数据访问中的应用” …

nodejs应用程序以守护进程daemon的方式启动,容器化部署的时候一直部署出错,导致无法成功启动程序。

一、背景 nodejs应用程序使用Egg.js 框架脚本命令,见package.json: "scripts": {"debug": "egg-bin debug","clean": "easy clean","build": "easy build prod","start&…

数字逻辑分析仪初体验

为啥会用到这玩意儿,要从一个荒诞的需求开始。想在市面上找一款特别低空飞行的监控,而且不想它一直开着监控,最好是我在外面远程指挥它起飞,飞去厨房,飞去洗手间,甚至飞去阳台,查看水龙头情况啊…

Redis性能瓶颈与安全隐患排查验证纪实

在写《Redis怎样保证数据安全?》这篇文章,我是有对redis设置密码需要哪些步骤,设置密码的性能损耗有验证的。这就涉及到要对redis的配置做修改。 开始时我是打算采用直接使用redis配置文件的方式。所以我从redis官网下载了一个默认的配置文件…

C++搭建深度学习的推理框架

我们的目的是:借助C++搭建一个类似于pytorch,tensorflow的深度学习框架,对标pytorch,tensorflow实现对应的功能。由于本人能力有限,下面本人将借助C++搭建一个简单的全连接神经网络,并且尝试解释里面的算子定义和计算图构建。 算子定义 回顾pytorch里面搭建的全连接神经网…

where 函数

Pandas 中的 where 函数 在 Pandas 中,where 函数用于替换不满足条件的值。具体来说,它返回一个与原始 DataFrame 或 Series 形状相同的新对象,但所有不满足条件的值都被替换为指定的值(默认为 NaN)。 对于 DataFram…

数据结构——二叉树链式结构的实现

大家好我是小锋,今天我们来学习的是二叉树链式结构的实现 首先我们来学习一下二叉树的基本操作 在看二叉树基本操作前我们来回顾下二叉树的概念, 二叉树是: 1. 空树 2. 非空:根节点,根节点的左子树、根节点的右…

软件团队工作的一些认识和方法,由西游记取经团队说开去

软件开发往往是由公司内外各个岗位人员通力协作才能完成工作目标,涉及团队、问题、目标、管理、协作、检查多个方面。 典型团队分析:西游记取经团队 优点 团队主管的目标特别明确:西天取经 团队有上级的得力支持:唐王、观音、如…

32-数据处理:如何高效处理应用程序产生的数据?

如何更好地进行异步数据处理。 一个大型应用为了后期的排障、运营等,会将一些请求数据保存在存储系统中 。例如:应用将请求日志保存到 Elasticsearch 中,方便排障;网关将 API 请求次数、请求消息体等数据保存在数据库中&#xff…

怎么用二维码来分享视频?视频二维码制作的简单方法

怎么用二维码来分享视频呢?为了能够更快速的将视频传递给其他人,所以现在很多人都使用生成二维码的方式,让其他人通过扫码来查看视频内容,从而实现多人同时扫码看视频的效果。这种方式也不会占用用户的内存和流量,通过…

【java的本地锁到分布式锁介绍】

文章目录 1.java本地自带锁介绍及应用synchronized(1)synchronized原理和优化(2)synchronized作用(3)synchronized的使用 CAS(1) CAS原理(2)CAS和synchronized优缺点 lock 2.分布式锁…

复习软考有哪些好的刷题APP?

这里为大家带来一些好用而且免费的软考刷题app,软考每年有两次,也渐渐成为很多人都会去考的了,这里推荐的这些软件上面的资料很新很齐全,各种科目类型都是有的,而且有解析,非常的实用哦! 1.希赛…