Author:rab
官方文档:https://flashcat.cloud/docs/content/flashcat-monitor/nightingale-v6/usage/alert/alert-rule/
目录
- 前言
- 一、配置
- 1.1 创建钉钉机器人
- 1.2 n9e 创建通知用户
- 1.3 n9e 创建团队(组)
- 1.4 将通知用户添加团队
- 1.5 配置告警接收组
- 二、验证
前言
前面介绍了 Nightingale 的部署
、监控
,现在我们来看看监控(采集)到的数据异常时如何通知到我们相关负责人,通知媒介有很多,比如:钉钉、邮件、飞书等,这里我们演示钉钉通知媒介如何配置。
一、配置
1.1 创建钉钉机器人
1、首先创建一个告警群(如 ops 群)
2、然后在群中添加机器人
选择【机器人】
选择【添加机器人】
选择【添加机器人】
选择【自定义】
选择【添加】
设置【机器人名字】
【自定义关键词】:目前夜莺不支持其他的钉钉认证方式,只能选择关键字认证方式。
为啥使用“20”作为关键字呢?因为告警消息里一定会有日期,比如 2020-09-09 12:12:12 年份里必然带有“20”这个字符串,所以,正常的告警消息一定是可以通过校验认证的。
创建完成后,保存好生存的 Webhook,因为在接下来的 N9e 告警配置时会用到。
1.2 n9e 创建通知用户
这里需要添加一个普通用户,用于接收告警信息,下图中 11 步骤就是上图生成的 Webhook 地址。
创建完了这个用户之后,未来发给这个用户的所有的告警,都会通过钉钉群里的机器人发到群里。
1.3 n9e 创建团队(组)
创建团队(组)的原因是:我们 n9e 的通知告警接收对象是团队(组),创建完团队后,将我们上面的 dingtalk 告警用户添加到该团队中,那每次 n9e 发出告警后,不仅团队的人能看得见告警信息,同时 dingtalk 用户也会将告警信息发送到钉钉机器人。
1、我们先来看看团队创建的格式
-
树形
创建后效果如下,有一个层次结构:
-
普通
2、因此这里我们创建一个运维团队
1.4 将通知用户添加团队
1.5 配置告警接收组
选择我们刚刚创建的团队(组)
至此,钉钉告警就配置完成了,那什么时候才会触发告警呢,我们继续看上图中的告警规则中相关配置及触发阈值。
但是注意上图中的告警规则是属于 cctv-web 这个业务组的,而且我们在告警规则中设置了仅在本业务组的团队(组)才生效,且告警接收组是 ops 团队,而 ops 团队又没在我的 cctv-web 业务组中,因此,我们需要将 ops 团队加入 cctv-web 业务组中。
二、验证
以上配置好后,就到我们钉钉中观察看是否有告警信息。
—END