Skywalking(9.7.0) 告警配置

图片被吞,来这里看吧:https://juejin.cn/post/7344567669893021736

过年前一天发版,大家高高兴兴准备回家过年去了。这时候老板说了一句,记得带上电脑,关注用户反馈。有紧急问题在高速上都得给我找个服务区改好。

但是机智如我,怎么能让老板知道服务出问题了呢?毕竟我还奢望过完年有年终奖。那正确的方式当然服务出问题了,我们开发瞒着老板偷偷给他改了,当做什么都没发生过。

平时当然Bug多点无所谓,毕竟软件嘛,有点bug也正常。但现在是决定年终的重要时刻,我们要让老板相信我们的服务是稳定的。

1. 首先你要有个Skywalking

有条件玩K8S的同学看这个:在K8S集群中部署SkyWalking-CSDN博客

没条件就本地玩玩吧:SkyWalking 本地启动以及闪退问题-CSDN博客

告警相关配置文件路径:

打开后有一些默认的规则,这些规则的作用看这个:Alerting | Apache SkyWalking

rules:
  service_resp_time_rule:
    expression: sum(service_resp_time > 1000) >= 3
    period: 10
    silence-period: 5
    message: Response time of service {name} is more than 1000ms in 3 minutes of last 10 minutes.
  service_sla_rule:
    expression: sum(service_sla < 8000) >= 2
    period: 10
    silence-period: 3
    message: Successful rate of service {name} is lower than 80% in 2 minutes of last 10 minutes
  service_resp_time_percentile_rule:
    expression: sum(service_percentile{_='0,1,2,3,4'} > 1000) >= 3
    period: 10
    silence-period: 5
    message: Percentile response time of service {name} alarm in 3 minutes of last 10 minutes, due to more than one condition of p50 > 1000, p75 > 1000, p90 > 1000, p95 > 1000, p99 > 1000
  service_instance_resp_time_rule:
    expression: sum(service_instance_resp_time > 1000) >= 2
    period: 10
    silence-period: 5
    message: Response time of service instance {name} is more than 1000ms in 2 minutes of last 10 minutes
  database_access_resp_time_rule:
    expression: sum(database_access_resp_time > 1000) >= 2
    period: 10
    message: Response time of database access {name} is more than 1000ms in 2 minutes of last 10 minutes
  endpoint_relation_resp_time_rule:
    expression: sum(endpoint_relation_resp_time > 1000) >= 2
    period: 10
    message: Response time of endpoint relation {name} is more than 1000ms in 2 minutes of last 10 minutes

2. 告警规则参数

Alerting | Apache SkyWalking

Rule name:规则名称。需要保证唯一,必须以 _rule 结尾

Expression:告警表达式。

Include names:告警规则生效包含的实体名列表。在 Skywalking中,实例有多种类型 Alerting | Apache SkyWalking

实体名称这里要注意一下,我们在集成 Agent 的时候,一般都会设置 Namespace 和 Service group。举个栗子: SW_AGENT_NAMESPACE:"dev" SW_AGENT_NAME:"dev::example-name"
当我这样定义时,service name 应该写成 dev::example-name|dev|,参考:Table of Agent Configuration Properties | Apache SkyWalking

Exclude names:告警规则不生效包含的实体名列表

Include names regex:和 Include names 一样。只不过是正则表达式字符串

Exclude names regex:和 Exclude names 一样。只不过是正则表达式字符串

Tags:自定义的 k-v 对

Period:表达式计算结果的缓存时间

Silence Period:推送最低间隔时间。例如我有一个规则,1分钟会触发一次,当我把Silence Period配置为 3 时。那就是每3分钟发送一次请求到 hook

Hooks:向外界发送通知的方式 ,本质上都是 WebHook。

3. 表达式解析

service_sla_custom_rule:
    # service_sla 是一个在 `alarm-config.yaml` 中默认定义的指标,当然可以覆盖它。
    # sum((service_sla / 100) < 90) 就是字面意思,服务SLA低于90% 的次数
    # >= 4 是关键,表达式每分钟算一次(这是我看了文档后猜的,应该没问题), 那这里就表示最近4分钟服务SLA都低于90%
    expression: sum((service_sla / 100) < 90) >= 4

    # 字符串匹配写法
    include-names:
      - 'dev::example|dev|'

    # 正则写法:所有dev组的
    include-names-regex: '^dev::.*' 

    # 表达式计算结果缓存时长,表达式每一分钟计算一次,我表达式中设置了>=4
    # 所以period 应该设置一个大于4的值,这样能避免重复计算
    period: 10

    # 通知静默时长,如果服务有10分钟SLA是低于90的,那么m4的时候会提醒。
    # 下一次本来是m5提醒的,我设置了2,所以等到m6再次计算表达式的时候才会在提醒
    silence-period: 2

    # 自定义 tags,key-value形式
    tags:
      level: ERROR

    # 提醒文本,可以通过格式化插入参数
    message: '服务 SLA 低于 90%'

    # 使用的通知方式,如果不填则选择默认hooks
    hooks:
      - '{hookType}.{hookName}'

4. 表达式定义实例

4.1 所有服务SLA在最近3分钟内小于100

service_success_rule:
  expression: sum((service_success / 100) < 100) >= 3
  period: 5
  silence-period: 5
  message: '服务 SLA 低于 100%'

4.2 单接口SLA在最近3分钟内小于100

endpoint_sla_rule:
  expression: sum((endpoint_sla / 100) < 100) >= 3
  include-names: 
      - 'GET:/test/custom1 in dev::example|dev|'
  period: 5
  message: '此接口 SLA 低于 100%'

4.3 所有DB SLA 最近1分钟内小于100

database_access_sla_rule:
  expression: sum((database_access_sla / 100) < 100) >= 1
  period: 3
  message: 'DB SLA 低于 100%'

5. 定义配置 Hooks

实际测试下来,直接配置飞书会出现只有首次才会通知的情况。自己提供个Webhook在透传到飞书正常。猜测是Skywalking中集成飞书通知的模块有问题,这个待验证。

5.1 Webhook

Alerting | Apache SkyWalking

自定义的接口

@RestController  
@RequestMapping("/alerting")  
public class AlertingController {  
    // 我用的是lark,用飞书得改下host
    private final static String WEBHOOK_URL = "https://open.larksuite.com/open-apis/bot/v2/hook/<token>";  
    @Resource  
    private RestTemplate restTemplate;  
    @PostMapping("skywalking")  
    public void alert(@RequestBody List<AlarmMessage> alarmMessageList) {  
        alarmMessageList.parallelStream().forEach(alarmMessage -> {  
            String text = "Apache SkyWalking Alarm:\n\n" +  
                    alarmMessage.getScope() + ": " + alarmMessage.getName() + "\n\n" +  
                    alarmMessage.getAlarmMessage();  
  
            ImmutableMap<String, Object> body = ImmutableMap.of(  
                    "msg_type", "text",  
                    "content", ImmutableMap.of("text", text)  
            );  
  
            restTemplate.postForEntity(WEBHOOK_URL, body, String.class);  
        });  
    }  
    // https://github.com/apache/skywalking/blob/master/oap-server/server-core/src/main/java/org/apache/skywalking/oap/server/core/alarm/AlarmMessage.java 
    @Getter  
    @Setter    
    @JsonNaming(PropertyNamingStrategy.LowerCaseStrategy.class)  
    public static class AlarmMessage {  
        private int scopeId;  
        private String scope;  
        private String name;  
        private String id0;  
        private String id1;  
        @JsonAlias("ruleName")  
        private String ruleName;  
        @JsonAlias("alarmMessage")  
        private String alarmMessage;  
        private List<Tag> tags;  
        @JsonAlias("startTime")  
        private long startTime;  
        private transient int period;  
    }  
    @Getter  
    @Setter    
    public static class Tag {  
        private String key;  
        private String value;  
    }  
}

alarm-config.yaml 中配置

hooks:
  webhook:
    default:
      # 定义这是默认的hook
      is-default: true
      urls:
        - http://localhost:8080/alerting/skywalking

5.2 飞书

创建机器人很简单的,基本上有手就行。

Alerting | Apache SkyWalking

自定义机器人使用指南 - 开发指南 - 开发文档 - Lark 开放平台 (larksuite.com)

飞书群机器人通知配置

hooks:
  feishu:
    default:
      text-template: |-
        {
        "msg_type": "text",
        "content": {
          "text": "Apache SkyWalking Alarm: \n\n%s"
          }
        }
      webhooks:
        - url: https://open.larksuite.com/open-apis/bot/v2/hook/<token>
        - secret: <secret>

Ref

Alerting | Apache SkyWalking

https://skywalking.apache.org/docs/main/v9.7.0/en/api/metrics-query-expression

Analysis Native Streaming Traces and Service Mesh Traffic | Apache SkyWalking

skywalking/docs/en/setup/backend/backend-alarm.md at master · apache/skywalking (github.com)
skywalking/docs/en/api/metrics-query-expression.md at master · apache/skywalking (github.com)
自定义机器人使用指南 - 开发指南 - 开发文档 - Lark 开放平台 (larksuite.com)

Table of Agent Configuration Properties | Apache SkyWalking

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/449580.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

矩阵乘法--Strassen算法

一、矩阵乘法 从中可以看出&#xff0c;计算两个矩阵的乘积&#xff0c;需要三个 for 循环&#xff0c;可以简单写出代码&#xff1a; for(int i1;i<m;i)for(int j1;j<p;j)for(int k1;k<n;k)c[i][j]a[i][k]*b[k][j]; 时间复杂度的分析&#xff1a;很明显&#xff0c;…

JDK环境变量配置-jre\bin、rt.jar、dt.jar、tools.jar

我们主要看下rt.jar、dt.jar、tools.jar的作用&#xff0c;rt.jar在​%JAVA_HOME%\jre\lib&#xff0c;dt.jar和tools.jar在%JAVA_HOME%\lib下。 rt.jar&#xff1a;Java基础类库&#xff0c;也就是Java doc里面看到的所有的类的class文件。 tools.jar&#xff1a;是系统用来编…

网络通信(一)

网络编程概述 可以让设备中的程序与网络上其他设备中的程序进行数据交互&#xff08;实现网络通信的&#xff09;。 Java提供了哪些网络编程的解决方案 java.net.*包下提供了网络编程的解决方案 基本的通信架构 基本的通信架构有2种形式&#xff1a;CS架构&#xff08;Clie…

webgl instance 绘制

webgl instance 绘制 效果: key1: 创建实例缓存 function createMesh() {for (let i 0; i < NUM_CUBE; i) {const angle i * 2 * Math.PI / NUM_CUBE;const x Math.sin(angle) * RADIUS;const y 0;const z Math.cos(angle) * RADIUS;cubes[i] {scale: new THREE.V…

redis穿透、雪崩、击穿及其解决方案

redis穿透、雪崩、击穿及其解决方案 redis三个问题及解决方案缓存穿透缓存雪崩缓存击穿 redis三个问题及解决方案 缓存穿透 缓存穿透是指客户端请求的数据在缓存中和数据库中都不存在&#xff0c;这样缓存永远不会生效&#xff0c;这些请求都会打到数据库。也就是说key对应的…

黑马程序员-瑞吉外卖Day10

1.菜品分页查询 而在我们的实体类 Dish 中&#xff0c;仅仅包含 categoryId&#xff0c; 不包含 categoryName&#xff0c;那么我们应该如何封装查询的数据呢&#xff1f; 其实&#xff0c;这里我们可以返回DishDto对象&#xff0c;在该对象中我们可以拓展一个属性 categoryN…

高精度10m/30米NPP净初级生产力分布数据

引言 第一性生产力是绿色植物呼吸后所剩下的单位面积单位时间内所固定的能量或所生产的有机物质&#xff0c;即是总第一性生产量减去植物呼吸作用所剩下的能量或有机物质。多种卫星遥感数据反演净初级生产力&#xff08;NPP&#xff09;产品是地理遥感生态网平台推出的生态环境…

java-ssm-jsp的问卷调查系统的设计与实现

java-ssm-jsp的问卷调查系统的设计与实现

使用Python查询和下载Sentinel卫星数据

欢迎学习本教程,了解如何使用 Python 访问和下载 Sentinel 卫星数据。在深入探讨技术方面之前,让我们先了解一下哨兵卫星是什么以及它们为何如此重要。 哨兵家族。资料来源:欧空局。 Sentinel 卫星是欧洲航天局 (ESA) 开发的一组地球观测任务,是哥白尼计划的一部分,该计划…

论文阅读 Stepwise Feature Fusion: Local Guides Global

1&#xff0c;另一个ssfomer 我在找论文时发现&#xff0c;把自己的分割模型命名为ssformer的有两个&#xff1a;&#xff0c;一个论文SSformer: A Lightweight Transformer for Semantic Segmentation中提出的一种轻量级Transformer模型&#xff0c;结构如下 这个结构很简单&…

安装配置HBase

HBase集群需要整个集群所有节点安装的HBase版本保持一致&#xff0c;并且拥有相同的配置&#xff0c;具体配置步骤如下&#xff1a; 1. 解压缩HBase的压缩包 2. 配置HBase的环境变量 3. 修改HBase的配置文件&#xff0c;HBase的配置文件存放在HBase安装目录下的conf中 4. 首…

Docker Desktop将镜像存储位置从C盘迁移到其它盘

一、简述 Docker Desktop默认安装在C盘,默认镜像存储位置在 C:\用户\Administrator\AppData\Local\Docker\wsl Docker Desktop 通过WSL2启动,会自动创建2个子系统,分别对应2个 vhdx 硬盘映像文件。 可以命令行执行wsl --list -v 看到 二、迁移步骤 1、在Docker Desktop…

加载spacy中文语言模型 zh_core_web_sm错误解决办法

如果你代码在运行时找不到该模型且报错 并且安装该模块也报错 那么可以试一下手动安装 Chinese spaCy Models Documentationhttps://spacy.io/models/zh#zh_core_web_sm 点击安装到C盘&#xff0c;就是你平时pip install的标准路径 最后进入终端 即可安装成功&#xff01;

【编程语言】C#语言相关知识

前言&#xff1a;我们在游戏开发的过程中&#xff0c;往往会通过游戏引擎结合编程语言的方式&#xff0c;来作为项目开发的手段。因此&#xff0c;了解相关语言的特性、发展和前沿知识&#xff0c;就显得相当必要。笔者这里结合自身的工作经验和学习心得&#xff0c;用简洁通俗…

Jmeter入参问题小记

表单入参的时候&#xff0c;这个地方需要勾选&#xff0c;如果不☑️选的话&#xff0c;会提示errorMsg":"Required String parameter code is not present",

MYSQL Unknown column ‘appreciation.latitude‘ in ‘where clause‘

问题 笔者编写mysql语句&#xff0c;执行报错 详细问题 笔者sql代码 SELECT ap.*, su.username, wh.wheat_name FROM appreciation ap LEFT JOIN sys_user su ON su.id ap.user_id LEFT JOIN wheat wh ON wh.id ap.crop_id WHERE appreciation.latitude 1报错信息 >…

100. Go单测系列0---单元测试基础

文章目录 一、Go语言测试1. go test工具2. 单元测试函数3. 单元测试示例4. 子测试5. 表格驱动测试6. 并行测试 二、使用工具生成测试代码三、测试覆盖率四、testify/assert五、总结 本文主要讲解在Go语言中如何编写单元测试以及介绍表格驱动测试、回归测试和单元测试中常用的断…

【SpringBoot3】快速启动框架 快速入门 配置文件

文章目录 SpringBoot3介绍一、快速入门二、入门总结1. 为什么依赖不需要写版本&#xff1f;2. 启动器(Starter)是什么3. SpringBootApplication注解包括的效果&#xff1f; 三、SpringBoot3配置文件3.1 统一配置管理概述3.2 属性配置文件使用3.3 YAML配置文件使用3.4 批量配置文…

【开源】SpringBoot框架开发新能源电池回收系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 用户档案模块2.2 电池品类模块2.3 回收机构模块2.4 电池订单模块2.5 客服咨询模块 三、系统设计3.1 用例设计3.2 业务流程设计3.3 E-R 图设计 四、系统展示五、核心代码5.1 增改电池类型5.2 查询电池品类5.3 查询电池回…

大语言模型系列-提示工程

文章目录 前言一、Prompt Learning二、上下文学习&#xff08;In-Context Learning&#xff09;三、指示学习&#xff08;Instruction Learning&#xff09;四、思维链&#xff08;Chain-of-Thought&#xff09;总结 前言 前文提到自BERT以来&#xff0c;LLM的训练范式变为预训…