灭火图 - 故障发现和定位的入口

通过深入分析和解决企业在可观测性和稳定性保障方面的挑战,Flashcat 提出了“灭火图”这一关键概念。

  • 灭火图以服务/模块/基础组件/基础设施等为维度,以聚合的视角实时度量某个特定维度的可用性(典型指标包括时延、流量、错误、饱和度),并为该可用性指标自动设定合理的阈值,可以回溯历史上的指定时间点的可用性状态(典型的跨度为24小时)。
  • 灭火图是发现服务健康与否的入口,也是整个故障定位信息系统的核心,从灭火图开始,可以下钻到具体的接口/基础设施/链路分析数据/问题特征/相关事件等关键维度,引导技术团队高效、精准的定位故障。

今天详细为大家介绍服务故障定位的入口工具:Flashcat-灭火图

灭火图的功能定位是什么?

在建设和使用可观测性平台的过程中,我们是否经常遇到以下这些问题:

  • 数据分散:需要观测的数据一部分在这个平台,一部分在那个平台,查看和对比的时候切来切去十分苦恼
  • 数据太多:一个主机几十个指标,一个微服务几十个指标,追溯问题的时候成百上千的指标和日志等各类数据,不知从何下手
  • 难以追溯:发现了服务发生问题,是否是网络设备出现问题还是底层基础设施出现问题?追溯时要先确定底层是哪些设备,再依次排查对应数据,效率很低
  • 难以解决:不同的模块和设备往往是不同的人负责的,发生问题时如果没有负责人的及时介入,从查问题到解决问题,可能会被“踢皮球”,在过程中浪费了大量时间

通过灭火图,我们针对性的解决监控中这些痛点,更加快速的帮助用户发现、定位并解决问题。

灭火图观测层级规划

灭火图,是Flashcat故障定位环节的入口,也是连接Flashcat中各分析能力的核心。

我们可以通过Flashcat的北极星系统和智能告警发现业务异常,日常巡检中则可以通过浏览灭火图,快速聚焦可能出现问题或者已经出现问题的接口、模块以及下层的组件和基础设施,并下钻查看其中具体是哪一部分发生问题。

通过灭火图卡片的关联分析入口,查看所有卡片相关的数据并通过灵活多样化的分析工具和下钻功能继续找到问题根因并解决。

也可通过卡片告警功能对问题发生进行及时预警,以便更加及时的解决可能发生的问题。以灭火图为入口,一站式完成问题的发现、定位、解决、预防的一系列操作。

那么同样也常被用作日常巡检和问题排查的仪表盘和灭火图又有何区别呢?

  • 【组织形态上】 灭火图是结构化的,可以同时观测系统的多个部分,如功能/组件/基础设施,还可以层层下钻,查看具体对象的指标/日志/链路/事件等,是系统的立体抽象和关键数据的浓缩;相比之下,仪表盘更侧重于数据的平铺、多样化展示,各个仪表盘间往往是并列的关系,常用于监控对象明细数据的呈现。
  • 【功能上】 灭火图基于结构化的优点,汇聚串联了各种分析功能和排查问题的最佳实践,比如功能卡片飘红,我们可以下钻查看功能对应的指标,发现成功率下降,继续下钻查看对应时间点的日志,以及进一步查看链路分析数据/问题特征/相关事件等;仪表盘则更侧重于数据展示丰富性的实现,配备简单的变量切换查看功能。
  • 【使用上】 在故障处理时,问题范围收敛、排查路径引导等环节更多需要使用到灭火图。而当问题定位到某个具体的对象,如一台服务器或一个数据库时,则可以查看这个对象的仪表盘详情,用于做更为详细的分析。因此仪表盘可以作为基于灭火图追查问题的一个最终环节,两者结合起来加速问题的排查分析,灭火图也提供了串联仪表盘的功能,让整个定位分析过程变得更为流畅。

传统仪表盘: 

Flashcat 仪表盘

灭火图: 

Flashcat 灭火图

推荐一个 Flashcat 灭火图针对C端服务的最佳实践

  1. 将灭火图首页层级规划为:接口、微服务、组件、基础设施。
  2. 确定支持北极星业务线的核心接口(如订单系统核心接口、用户系统核心接口等)、微服务及对应负责人。
  3. 确定支持以上接口和微服务的组件(如MySQL、Redis、Kafka等)、基础设施(网络、DNS等)及对应负责人。
  4. 基于灭火图的各类模板创建规则,规则将自动生成接口、微服务、组件和基础设施的灭火图卡片,并分层展示。同时规则可定期自动执行,自动更新卡片。
  5. 灭火图能够自动关联日志、trace等信息,也可手动补充关联,如某微服务的变更事件、某组件的仪表盘等。
  6. 巡检或故障处理时,在灭火图首页观测服务的全局状态,有飘红的部分则下钻追查,收敛问题范围,并按关联的线索排查相应的指标、日志、tracing、事件等。

针对不同的行业或toC和toB的特点,灭火图配置和观测的对象可以灵活设置。

灭火图故障定位流程

此外,灭火图能够快速生成为拓扑大屏展示形式,非技术人员也可以简明的完成日常巡检和异常观察。

电商类业务拓扑图

灭火图的应用范围

灭火图是IT系统全局健康状态的量化,也是服务故障的处理入口,在需要稳定性保障的场景都可以发挥其价值。

例如:

  • 门店类业务
  • 出行类业务
  • 电商类业务
  • …..

灭火图适用行业

总结

灭火图正成为企业提升稳定性保障能力,加速故障定位不可或缺的工具。

Flashcat 故障定位流程示意

了解灭火图的更多详情请访问快猫星云官网:https://flashcat.cloud/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/342193.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

���恒峰|配网行波型故障预警定位装置:电力系统的守护神

���在电力系统中,设备的正常运行对于保障供电至关重要。而配网行波型故障预警定位装置就是电力系统的守护神,它能够实时监测设备状态,提前发现故障,确保电力供应的稳定。本文将详细介绍配网行波…

Gradle 笔记

Gradle依赖管理(基于Kotlin DSL) **注意:**如果不是工作原因或是编写安卓项目必须要用Gradle,建议学习Maven即可,Gradle的学习成本相比Maven高很多,而且学了有没有用还是另一回事,所以&#xff…

【网络】传输层TCP协议

目录 一、概述 2.1 运输层的作用引出 2.2 传输控制协议TCP 简介 2.3 TCP最主要的特点 2.4 TCP连接 二、TCP报文段的首部格式 三、TCP的运输连接管理 3.1 TCP的连接建立(三次握手) 3.2 为什么是三次握手? 3.3 为何两次握手不可以呢? 3.4 TCP的…

【KD】2023 NeurIPS Does Graph Distillation See Like Vision Dataset Counterpart?

简介 在大规模图数据集上进行GNN训练是一个艰巨的挑战。特别是在增量学习和图结构搜索这些经常需要重复训练的场景中,训练图模型不仅消耗大量时间,还对显存和计算能力提出了严峻要求。最近,图数据集蒸馏/图压缩(Graph Dataset Distillation / Graph Condensation)方法…

Harmony 鸿蒙驱动开发

驱动开发 驱动模型介绍 HDF(Hardware Driver Foundation)框架以组件化的驱动模型作为核心设计思路,为开发者提供更精细化的驱动管理,让驱动开发和部署更加规范。HDF框架将一类设备驱动放在同一个Host(设备容器&#…

阿里巴巴开源联邦学习框架FederatedScope

5月5日,阿里巴巴达摩院发布新型联邦学习框架FederatedScope,声称可以在不共享训练数据的情况下开发机器学习算法,从而保护隐私。,其源代码现已在Apache 2.0许可下发布在GitHub上。 介绍 该平台被描述为一个全面的联邦学习框架&a…

compose部署tomcat

1.部署tomcat 1.1.下载相关镜像tomcat8.5.20 $ docker pull tomcat:8.5.20 1.2 在/data目录下创建tomcat/webapps目录 mkdir -p /data/tomcat/webapps 注意:这里是准备将宿主机的/data/tomcat/webapps映射到容器的 /usr/…

Oracle篇—分区表和分区索引的介绍和分类(第一篇,总共五篇)

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、Linux,也在积极的扩展IT方向的其他知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章,并且也会默默的点赞收藏加关注❣…

ChatGPT 引导语写法参考(翻译类引导语)

充当英语翻译和改进者 我想让你充当英文翻译员、拼写纠正员和改进员。我会用任何语言与你交谈,你会检测语言,翻译它并用我的文本的更正和改进版本用英文回答。我希望你用更优美优雅的高级英语单词和句子替换我简化的 A0 级单词和句子。保持相同的意思&am…

顶顶通呼叫中心中间件利用自动外呼进入机器人的压力测试配置流程

文章目录 前言呼入进入机器人配置流程呼入配置创建线路创建线路组创建自动外呼任务1. 实现“一端放音,另一端进入机器人”操作创建拨号方案—“模拟放音”呼叫路由—“internal”启用拨号方案—“模拟放音”队列外呼配置 2. 实现“两端都进入机器人”操作队列外呼配…

JavaWeb会议管理系统

相关技术: Servlet Tomcat jsp MySQL 有需要的可以联系我。 功能介绍: 会员管理系统:系统管理、用户管理、角色管理、菜单管理、日志管理、部门管理 会议管理:会议室管理、我的会员、会员纪要、修改密码、安全退出 会议室管…

C/C++读写文件和stringstream类

目录 C处理文件打开文件两种函数的区别 读文件两种函数区别其它读操作的函数fgetc:从文件中读取一个字符fgets:从文件中读取一个字符串fscanf:按格式从文件中读取指定内容,与scanf函数类似 写文件其它的常用写操作函数fputc&#…

【网站项目】基于SSM的263货物进销管理系统

🙊作者简介:多年一线开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Java项目:基于ssm框架实现的电影评论系统(ssm+B/S架构+源码+数据库+毕业论文)

一、项目简介 本项目是一套ssm826基于ssm框架实现的电影评论系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#x…

Elasticsearch:2023 年 Lucene 领域发生了什么?

作者:来自 Elastic Adrien Grand 2023 年刚刚结束,又是 Apache Lucene 开发活跃的一年。 让我们花点时间回顾一下去年的亮点。 社区 2023 年,有: 5 个次要版本(9.5、9.6、9.7、9.8 和 9.9),1 …

【CSP-J/S】复赛注意事项 上机文件组织形式

每年 CSP-J/S 复赛都有很多同学因为一些小失误导致一年的努力付之东流。Tony老师整理了一些复赛容易踩坑的点,或许对你有帮助! 一、文件的输入输出 CSP、NOIP复赛与我们平时在Online Judge做题形式会有一些区别,需要我们将文件放入规定的地…

基于模糊PID控制器的风力温度控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 模糊逻辑控制原理 4.2 PID控制原理 4.3 模糊PID控制器原理 4.4 整体系统概述 5.完整工程文件 1.课题概述 当房间的温度不能保持目标温度时,这个系统中的某个部件肯定出现问题了&#x…

flink学习之窗口处理函数

窗口处理函数 什么是窗口处理函数 Flink 本身提供了多层 API,DataStream API 只是中间的一环,在更底层,我们可以不定义任何具体的算子(比如 map(),filter(),或者 window()),而只是…

怎么缩小动图的大小?一分钟快速压缩gif体积

GIF动图是一种使用GIF文件格式创建的动画图像。GIF是一种常见的图像文件格式,它支持多帧图像以形成连续播放的动画效果。与其他图像格式只能表示静态图像不同,GIF格式可以存储多个图像帧,并通过在特定时间间隔内循环播放这些帧来创建动画效果…

Instagram被停用怎么办?2024年ins停权最新解决方法

大家有没有遇到过 Instagram 账号突然无缘无故消失的情况?这很有可能是 Instagram 无故禁用了你的账号,面对 Instagram 账号突然被停用的情况,许多用户都感到困惑和无助。这个问题可能影响到你的社交生活,甚至是商业活动。但别担心…