智能监控,高效观测 IT 系统瓶颈

前言

云原生时代的监控系统贯穿于移动端、前端、业务服务端、中间件、应用层、操作系统等,渗透 IT 系统的各个环节。因此,在构建 IT 系统之初,就需要考虑如何打造一个完善的监控系统。当面临大量业务流量数据时,借助监控进行问题排查,可以及时有效监测系统是否存活、是否健康。

为了有效观测 IT 系统瓶颈,观测云配备了完整且强大的异常检测能力。一方面,其内置多种异常检测库,满足多种场景,无需额外配置,一键开启。另一方面,支持自定义异常检测规则,配置简单易上手,满足业务多样需求。

开箱即用的官方模版库

进入监控 > 新建 > 官方模版库,即可看到观测云内置的包含主机、Docker、Elasticsearch、Redis、阿里云 RDS、阿里云 SLB、Flink 监控在内等数十种模版。

面对多场景的监控器模板,我们可以直接通过搜索快速定位目标监控器。假定我们需要监测系统主机 CPU 使用率,如果产生异常需要及时发送告警。我们可以直接在搜索栏输入关键词,比如 “CPU”,回车即可在结果列表中选择相关监控器模板,一键创建。

示例操作效果如下:

我们可以看到,系统已经为我们准备好了必备的一些参数,在此基础上,我们按需对检测频率、区间、告警策略等修改即可。

自定义异常数据检测

目前,针对系统不同的数据范围,观测云支持自定义对应的监控检测规则,实现全覆盖监测系统海量数据。

以上 13 种检测规则详情如下:

规则名称数据范围基本描述
阈值检测全部基于设置的阈值对指标数据进行异常检测。
突变检测指标(M)基于历史数据对指标的突发反常表现进行异常检测,多适用于业务数据、时问窗短的场景。
区间检测指标(M)基于动态阈值范围对指标的异常数据点进行检测,多适用于趋势稳定时间线。
离群检测指标(M)检测特定分组下检测对象的指标/统计数据是否存在离群偏差情况。
日志检测日志(L)基于日志数据进行业务应用的异常检测。
进程异常检测进程对象(O::host_processes)定时检测进程数据,了解进程异常情况。
基础设施存活检测对象(O)基于基础设施对象数据,设置存活条件,监控基础设施的稳定性。
应用性能指标检测链路(T)基于应用性能监测数据,设置阈值规则,检测异常情况。
用户访问指标检测用户访问数据(R)基于用户访问监测数据,设置阈值规则,检测异常情况。
安全巡检异常检测安全巡检(S)基于安全巡检产生的数据进行异常检测,可以有效感知主机健康状态。
可用性数据检测可用性数据(L::类型)基于可用性监测数据,设置阈值规则,检测异常情况。
网络数据检测网络(N)基于网络数据,设置阈值规则,检测网络性能的稳定性。
外部事件检测其他将第三方系统产生的异常事件或记录通过指定 URL 地址,以 POST 请求方式发送到 HTTP 服务器后生成观测云的事件数据。

如何配置?

在开始配置操作之前,我们需要了解观测云监控器实现监控能力的基本逻辑:当配置完监控器的事件通知规则后,会依据规则内我们设置的触发条件产生不同的事件。当检测到异常事件,则会发送告警通知。

我们以配置阈值检测为例:

步骤一:检测配置

  • 首先需要选择当前检测规则的【检测频率】和【检测区间】。前者指的是检测规则的执行频率,这里我们选择默认的 “5 分钟”;后者表示每次执行任务时,检测指标查询的时间范围。这里我们选择默认的 “最近 5 分钟”。
  • 在【检测指标】,我们可以针对不同的数据类型(包含指标、日志、基础设施、自定义对象、事件、应用性能监测、用户访问监测、安全巡检和网络等数据)作检测筛选。
  • 【触发条件】表示满足紧急、重要、警告、无数据、信息这五种等级的任意一种触发条件即会产生事件。

实际填写示例如下:

步骤二:事件通知
  • 我们可以自定义当前规则告警触发条件的【事件标题】,此处我们填入“各主机磁盘使用情况”。
  • 【事件内容】即满足触发条件时发送的事件通知内容。我们可以输入 Markdown 格式文本信息。

除了自定义事件的标题与内容外,我们也可以直接使用模板变量,通过使用字段来实现文案的渲染。模板可前往 事件通知模板 - 观测云文档

当监控器无法查询到检测对象的任何数据,存在数据断档,此时数据上报可能存在异常。因此,我们可以按需配置【无数据通知配置】。此处同样支持自定义或使用模板变量。

  • 如果监控器产生异常事件告警,且我们需要协同合作、密切跟进进度,那么选择【同步创建 Issue】后,会直接创建由事件触发的 Issue。我们可以选择 Issue 的等级和需投递的目标频道。同时,还可直接设置需要通知的成员,以便及时处理异常。

实际填写示例如下:

步骤三:告警配置

如我们前文所讲,当监控满足触发条件后,会立即发送告警消息给指定的通知对象。告警策略中包含需要通知的事件等级、通知对象、告警聚合及告警沉默(设置重复告警通知)。

步骤四:关联

每一个监控器都支持关联一个仪表板,也就是,通过关联仪表板功能能够自定义快速跳转的仪表板。这里我们选择 “CPU 监控视图”。

以上步骤完成后,点击保存即可。我们可以在监控器列表查看已创建好的监控器:

自定义模板库

当我们针对某种场景创建了一个监控器并配置触发条件,可以将其保存作为模版,以便下次编辑监控器配置条件,快速创建同类型监控器监测。

保存成功后,可前往监控 > 新建 > 自定义模板库页面查看已保存为模板的监控器:

无论我们基于以上何种方式创建了监控器,最终回到监控器列表中,我们可以查看在该条规则下产生的事件及与之关联的告警策略、视图等信息。

以下图为例,点击【查看相关事件】,即可前往对应的事件查看器。在这里,我们可以查看基于监控器检测规则下,事件的基础属性、历史趋势等。

结语

如何打造一个完整闭环、简洁好用的监控系统是观测云一直在探索的命题。接下来我们会继续探讨告警策略等更多功能妙用,敬请期待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/178159.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FreeRTOS列表和列表项

FreeRTOS内核调度使用了大量的列表(list)和列表项(listitem)数据结构。它的源码中涉及到很多列表的操作,对于FreeRTOS来说,列表就是它最基础的一部分,列表被用作FreeRTOS调度器使用,…

C语言--判断年月日是否合理

一.题目描述 比如输入2001,2,29,输出: 不合理 。因为平年的二月只有28天 比如输入2000,6,31,输出:不合理。因为6月是小月,只有30天。 二.思路分析 本题主要注意两个问…

Android : ListView + BaseAdapter-2简单应用

​​容器与适配器:​​​​​ http://t.csdnimg.cn/ZfAJ7 实体类 News.java package com.example.mylistviewadapter2.entity;public class News {private String title;private String content;private int img;public News(String title, String conte…

CentOS 7 使用pugixml 库

安装 pugixml Git下载地址:https://github.com/zeux/pugixml 步骤1:首先,你需要下载pugixml 的源代码。你可以从Github或者源代码官方网站下载。并上传至/usr/local/source_code/ 步骤2:下载完成后,需要将源代码解压…

【MySQL】多表查询、子查询、自连接、合并查询详解,包含大量示例,包你会。

复合查询 前言正式开始一些开胃菜多表查询自连接子查询单行子查询多行子查询in关键字all关键字any关键字多列子查询在from中使用子查询 合并查询union 和 union all 前言 我前面博客讲的所有的查询都是在单表中进行的,从这里开始就要专门针对查询这个话题进行进一步…

STM32-标准库和HAL库-不同容量系列的代码移植

使用STM32单片机过程中经常会涉及到不同芯片间的代码转换,手头上熟悉的工程需要稍作处理才能用到新的板子上。常见的是STM32F103xE、STM32F103xC(大容量)和STM32F103x8、STM32F103xB(中容量)的转换。这里做一下总结&am…

93.STL-系统内置仿函数

目录 算术仿函数 关系仿函数 逻辑仿函数 C 标准库中提供了一些内置的函数对象&#xff0c;也称为仿函数&#xff0c;它们通常位于 <functional> 头文件中。以下是一些常见的系统内置仿函数&#xff1a; 算术仿函数 功能描述&#xff1a; 实现四则运算其中negate是一元…

PTA-6-45 工厂设计模式-运输工具

题目如下&#xff1a; 工厂类用于根据客户提交的需求生产产品&#xff08;火车、汽车或拖拉机&#xff09;。火车类有两个子类属性&#xff1a;车次和节数。拖拉机类有1个子类方法耕地&#xff0c;方法只需简单输出“拖拉机在耕地”。为了简化程序设计&#xff0c;所有…

依托数据、平台、知识增强等优势 夸克大模型大幅降低问答幻觉率

“大模型时代&#xff0c;夸克有巨大机会创造出革新性搜索产品。”11月22日&#xff0c;夸克大模型公布了其面向搜索、生产力工具和资产管理助手的大模型技术布局。数据显示&#xff0c;夸克千亿级参数大模型登顶C-Eval和CMMLU两大权威榜单&#xff0c;夸克百亿级参数大模型同样…

Linux-编译器

编译器 gcc-arm-linux-gnueabihf gcc-arm-linux-gnueabihf 是一个针对 ARM 架构 Linux 系统的交叉编译工具链&#xff0c;它包括了 C、C、Objective-C 和 Fortran 编译器以及一些辅助工具&#xff0c;用于将源代码编译成可在 ARM 架构的 Linux 系统上运行的二进制程序。arm架…

2023年,人工智能在医疗行业领域的应用场景

本期行业洞察将带领大家了解人工智能在医疗行业领域的应用&#xff0c;主要了解在患者治疗和运营中的应用、人工智能作为预防工具以及大型医院目前如何使用人工智能。未来的智慧医疗时代已经悄然到来。 人工智能在患者治疗和机构运营中的应用 人工智能有望彻底改变医疗护理的…

基本的弹层,点击弹出

<div class"role"><el-button type"primary" size"mini" click"showDialog true">添加角色</el-button></div><!--控制弹框的显示隐藏visible .sync可以点击X关闭弹框 --> <el-dialog width"…

C语言从入门到实战——数组和指针的强化练习题

数组和指针的强化练习题 前言1. sizeof和strlen的对比1.1 sizeof1.2 strlen1.3 sizeof和strlen的对⽐ 2. 数组和指针笔试题解析2.1 一维数组2.2 字符数组2.3 二维数组 3. 指针运算笔试题解析3.1 题目1&#xff1a;3.2 题目23.3 题目33.4 题目43.5 题目53.6 题目63.7 题目7 前言…

如何解决msvcp110.dll丢失问题,分享5个有效的解决方法

最近&#xff0c;我在使用电脑时遇到了一个令人头疼的问题——msvcp110.dll丢失。这个错误通常会导致某些应用程序无法正常运行。为了解决这个问题&#xff0c;我们需要采取一些有效的方法来修复丢失的msvcp110.dll文件。那么&#xff0c;msvcp110.dll到底是什么呢&#xff1f;…

【iOS】实现评论区展开效果

文章目录 前言实现行高自适应实现评论展开效果解决cell中的buttom的复用问题 前言 在知乎日报的评论区中&#xff0c;用到了Masonry行高自适应来实现评论的展开&#xff0c;这里设计许多控件的约束问题&#xff0c;当时困扰了笔者许久&#xff0c;特此撰写博客记录 实现行高自…

Globalsign证书

Globalsign证书是一种被广泛应用于各个领域的网络安全解决方案。它提供了一系列的功能&#xff0c;包括保证在线交易的安全性、管理大量的数字身份以及自动验证和加密等。由于其全面的安全保障功能&#xff0c;许多大型公司、云服务供应商以及互联网创业者都选择了Globalsign证…

接口自动化测试的价值是什么?

接口自动化的内容写了很多了&#xff0c;本来以为没什么东西再聊。这两天和两个不同团队的测试负责人交流&#xff0c;发现大家对于接口自动化的落地还是很多疑问&#xff0c;接口自动化到底能不能在短期内帮助到团队呢&#xff1f; 01 它不是救命稻草 自动化并不是提升效率…

大数据湖及应用平台建设解决方案:PPT全39页,附下载

关键词&#xff1a;大数据湖建设&#xff0c;集团大数据湖&#xff0c;大数据湖仓一体&#xff0c;大数据湖建设解决方案 一、大数据湖定义 大数据湖是一个集中式存储和处理大量数据的平台&#xff0c;主要包括存储层、处理层、分析层和应用层四个部分。 1、存储层&#xff…

028 - STM32学习笔记 - ADC结构体学习(二)

028 - STM32学习笔记 - 结构体学习&#xff08;二&#xff09; 上节对ADC基础知识进行了学习&#xff0c;这节在了解一下ADC相关的结构体。 一、ADC初始化结构体 在标准库函数中基本上对于外设都有一个初始化结构体xx_InitTypeDef&#xff08;其中xx为外设名&#xff0c;例如…

d3dx9_43.dll缺失怎么办?教你一分钟修复d3dx9_43.dll丢失问题

今天&#xff0c;与大家分享关于“d3dx9_43.dll丢失的5个解决方法”的主题。在我们的日常生活和工作中&#xff0c;我们可能会遇到各种各样的问题&#xff0c;而d3dx9_43.dll丢失就是其中之一。那么&#xff0c;什么是d3dx9_43.dll呢&#xff1f;它为什么会丢失&#xff1f;又该…