产品新说:应急定界 | 如何在运维/技术支持领域中应对突发故障?

一、简介

应急定界的方案旨在帮助运维人员以业务故障驱动为起点,第一时间的快速恢复业务。该场景的条件基础是通过构建一体化监控告警平台,纳管应用与基础组件,提供业务系统监测、及时告警、排查分析能。通过告警、指标、日志、链路等重要运维数据异常检测的能力,结合运维对象关系、告警发生时序关系快速智能的得出故障定界的结论,并匹配处置预案,用可观测的方式为运维人员提供决策依据。

二、需求背景

以金融行业为例,《金融科技发展规划(2022-2025)》以及银保监办[2022]2号文中均有强调,要求金融企业建立金融数据中心智能化运维机制,明确了要重视数据治理方面的工作并提出要合理运用大数据加强态势感知、故障预警和自愈,不断提高智能运维水平。

三、功能展示(部分)

1.跨业务系统故障分析

同时遍历管理多个业务系统,,从业务链路溯源,通过告警时序、对象拓扑关系快速定位故障源头。

2.单业务系统故障分析

单业务系统下事件问题的源端对象可能来自微服务、数据库、消息队列、云服务或网络组件等,通过分层分类的观测结合智能分析工具来准确定位处置对象。

3.应用交易指标分析

依据交易类型、交易渠道、分支机构等不同统计维度,通过聚焦热点异常维度和历史同环对比等分析工具,快速锁定具体的业务问题,并迅速采取对应交易类型限流或版本回滚等操作

4.微服务链路分析

对于由微服务化后的请求调用链路会十分复杂,造成业务链路故障的根因可能是服务器状态、数据访问、资源瓶颈等,对微服务多层链路和相关指标的可观测,是定位分布式架构下故障原因的必备手段。

四、落地实例

关键词:异常访问、快速定障、事后复盘

某国有大行在4月初的某天,手机银行系统突然爆出大量访问异常,包括用户登录异常、转账失败等。运维人员通过应急定界场景进行告警时序的排查,结合链路、指标、日志等维度数据,快速定位到是核心交易系统出现故障,经过深入挖掘发现是对公业务板块的问题,马上启动备用系统,快速恢复业务。经过数十分钟的抢修和复盘,表明此次事故是由于此时为企业工资发放高峰期,加上个人转账业务数量攀升,导致的系统瘫痪,后已全面恢复,并根据故障点进行了深度的维护升级。

在常规的业务运营中,出现生产事故是随时可能发生的事情,为了最大程度的减少损失,快速恢复业务,企业一定要尽量满足监管给到的1-5-10 等要求,因此需要搭建具备能够以业务故障驱动为起点的一体化告警平台,利用其中的多种场景组合,为业务运营的平稳高效打造出坚固屏障。

五、建设思路

1、 提升整体可观测能力

整合专业领域工具,提高业务故障驱动下的应急分析能力,数据统一汇总,破除信息孤岛,治理以运维对象和告警为主的关键数据。

2、工具化分析能力

将应急能力工具化,提升应急定界和处置的成功率,全面进行数据治理以支持复杂场景的分析效率和能力,形成系统化的定障机制沉淀。

3、自动化根因定位和恢复

实现运维数据关联的自动发现,自动匹配恢复预案,结合大模型实现交互式排障分析,完成一键推理总结。

六、风险预警场景建设收益

1、业务连续性提升

通过快速定界提升业务系统的故障恢复效率,提高业务连续性

2、提高技术赋能

赋能一线运维快速分析和定障的能力

3、获得经验沉淀

复盘事件整体思路和数据,制定对应预案

擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司专注于通过提升企业客户对运维数据的洞见能力,为运维降本增效,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择

了解更多运维干货与行业前沿动态

可以右上角一键关注

我们是深耕智能运维领域近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/626130.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言中数组与指针的区别

一. 简介 本文学习了 C语言中数组与指针的区别。这样的话,可以在编写C代码时规避掉出错的问题。 二. C语言中数组与指针的区别 1. 数组 定义字符串数组时,必须让编译器知道需要多少空间。 一种方法是用足够空间的数组存储字符串。例如如下&#xf…

多表查询练习题

1、创建好数据库 create database text use text --学生表 (students) CREATE TABLE students ( student_id INT PRIMARY KEY, name VARCHAR(50), age INT, major VARCHAR(50) );--课程表 (courses) CREATE TABLE courses ( course_id INT PRIMARY KEY, course_name V…

Linux基础之进程-进程状态

目录 一、进程状态 1.1 什么是进程状态 1.2 运行状态 1.2 阻塞状态 1.3 挂起状态 二、Linux操作系统上具体的进程状态 2.1 状态 2.2 R 和 S 状态的查看 2.3 后台进程和前台进程 2.4 休眠状态和深度休眠状态 一、进程状态 1.1 什么是进程状态 首先我们知道我们的操作系…

Java学习47-Java 流(Stream)、文件(File)和IO - 其他流的使用

1.标准输入流System.in/标准输出流System.out System.in : 标准的输入流,默认从键盘输入 System.out: 标准的输出流,默认从显示器输出(理解为控制台输出) System.setOut()方法和 System.setIn()方法(结合下面介绍的打印流举例) …

灵活的静态存储控制器 (FSMC)的介绍(STM32F4)

目录 概述 1 认识FSMC 1.1 应用介绍 1.2 FSMC的主要功能 1.2.1 FSMC用途 1.2.2 FSMC的功能 2 FSMC的框架结构 2.1 AHB 接口 2.1.1 AHB 接口的Fault 2.1.2 支持的存储器和事务 2.2 外部器件地址映射 3 地址映射 3.1 NOR/PSRAM地址映射 3.2 NAND/PC卡地址映射 概述…

ctfshow web入门 php反序列化 web267--web270

web267 查看源代码发现这三个页面 然后发现登录页面直接admin/admin登录成功 然后看到了 ///backdoor/shell unserialize(base64_decode($_GET[code]))EXP <?php namespace yii\rest{class IndexAction{public $checkAccess;public $id;public function __construct(){…

定时器的理论和使用

文章目录 一、定时器理论1.1定时器创建和使用 二、定时器实践2.1周期触发定时器2.2按键消抖 一、定时器理论 定时器是一种允许在特定时间间隔后或在将来的某个时间点调用回调函数的机制。对于需要周期性任务或延迟执行任务的嵌入式应用程序特别有用。 软件定时器&#xff1a; …

MySQL表的基本操作

表 创建表 comment是添加一个注释 语法&#xff1a; 说明&#xff1a; field 表示列名 datatype 表示列的类型 character set 字符集&#xff0c;如果没有指定字符集&#xff0c;则以所在数据库的字符集为准 collate 校验规则&#xff0c;如果没有指定校验规则&#xff0c;则…

知识图谱 | 语义网络写入图形数据库(含jdk和neo4j的安装过程)

Hi&#xff0c;大家好&#xff0c;我是半亩花海。本文主要介绍如何使用 Neo4j 图数据库呈现语义网络&#xff0c;并通过 Python 将语义网络的数据写入数据库。具体步骤包括识别知识中的节点和关系&#xff0c;将其转化为图数据库的节点和边&#xff0c;最后通过代码实现数据的写…

两数相加 - (LeetCode)

前言 今天无意间看到LeetCode的一道“两数相加”的算法题&#xff0c;第一次接触链表ListNode&#xff0c;ListNode结构如下&#xff1a; public class ListNode {int val;ListNode next;ListNode() {}ListNode(int val) {this.val val;}ListNode(int val, ListNode next) {…

使用TimeSum教你打造一套最牛的知识笔记管理系统!

从用户使用场景进行介绍软件的使用&#xff1a; 一、用户需求&#xff1a; 我需要一款软件记录我每天&#xff1a; 干了啥事有啥输出&#xff08;文档&#xff09;需要时间统计&#xff0c;后续会复盘记录的内容有好的逻辑关系需要有日历进行展示。 二、软件使用介绍&#xf…

【UE5.1 角色练习】01-使用小白人蓝图控制商城角色移动

目录 效果 步骤 一、导入资源 二、控制角色移动 三、更换角色移动动作 效果 步骤 一、导入资源 新建一个工程&#xff0c;然后在虚幻商城中将角色动画的相关资源加入工程&#xff0c;这里使用的是“动画初学者内容包”和“MCO Mocap Basics” 将我们要控制的角色添加进…

在idea中使用vue

一、安装node.js 1、在node.js官网&#xff08;下载 | Node.js 中文网&#xff09;上下载适合自己电脑版本的node.js压缩包 2、下载完成后进行解压并安装&#xff0c;一定要记住自己的安装路径 一直点击next即可&#xff0c;这部选第一个 3、安装成功后&#xff0c;按住winR输入…

【Shell脚本】Shell编程之数组

目录 一.数组 1.基本概念 2.定义数组的方法 2.1.方法一 2.2.方法二 2.3.方法三 2.4.方法四 2.5.查看数组长度 2.6.查看数组元素下标 3.数组分片 4.数组字符替换 4.1.临时替换 4.2.永久替换 5.数组删除 5.1.删除某个下标 5.2.删除整组 6.数组遍历和重新定义 7…

2024洗地机爆款榜单,哪个牌子洗地机值得买?助你轻松选对洗地机

随着现代生活节奏的加快&#xff0c;人们对于家庭清洁的需求也越来越高。家用洗地机作为一种高效清洁工具&#xff0c;能够帮助您轻松应对家庭地板的清洁问题&#xff0c;节省时间和精力。然而&#xff0c;在选择洗地机时&#xff0c;究竟哪个牌子的洗地机值得买呢&#xff1f;…

【 第一性原理计算方法及应用】

第一性原理计算方法及应用述

Android Iptables 客制化方法及基本使用

Android Iptables 客制化方法及基本使用 Android netd 的自定义链NetdConstants.cpp 的 execIptablesRestore 方法IptablesRestoreController 的 execute 方法使用 oem-iptables-init.sh 添加自定义的防火墙规则oem-iptables-init.sh 示例文件 基本概念Iptables 链Iptables 表 …

关于nvm管理node版本的一些问题

背景&#xff1a; 基于开发项目的迭代不能做到全部更新&#xff0c;有的项目是vue2.0 有的项目是vue3.0&#xff0c; 那么我们开发的时候就需要对node 进行更新&#xff0c;进而产生因为版本不同导致的错误&#xff1a;由此我们需要一款管理 切换node版本的东西&#xff0c;那就…

其它高阶数据结构①_并查集(概念+代码+两道OJ)

目录 1. 并查集的概念 2. 并查集的实现 3. 并查集的应用 3.1 力扣LCR 116. 省份数量 解析代码1 解析代码2 3.2 力扣990. 等式方程的可满足性 解析代码 本篇完。 写在前面&#xff1a; 此高阶数据结构系列&#xff0c;虽然放在⑤数据结构与算法专栏&#xff0c;但还是作…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷5(私有云)

#需要资源&#xff08;软件包及镜像&#xff09;或有问题的&#xff0c;可私聊博主&#xff01;&#xff01;&#xff01; #需要资源&#xff08;软件包及镜像&#xff09;或有问题的&#xff0c;可私聊博主&#xff01;&#xff01;&#xff01; #需要资源&#xff08;软件包…