专栏:数据库、中间件的监控一网打尽

前言

对于数据库、中间件的监控,目前社区里最为完善的就是 Prometheus 生态的各个 Exporter,不过这些 Exporter 比较分散,不好管理,如果有很多目标实例需要监控,就要部署很多个 Exporter,要是能有一个大一统的 Exporter,具备所有这些 Exporter 的能力就好了。还真有,而且还不止一个,一个是 Grafana-agent,一个是 Cprobe,Grafana-agent 整合这些 Exporter 相对比较生硬而且缺少了目标实例自动发现机制,好处是 Grafana-agent 不止是整合了常见的 Exporter,还整合了 Promtail 和 OTEL Collector,也可以用于日志和链路数据的采集转发,Cprobe 整合 Exporter 的方式相对更为丝滑且一致性更好,支持目标实例的自动发现机制,专注在指标采集方向,不提供日志采集和链路数据转发能力,两个项目都是开源的,大家根据自己的需求选择。

本专栏专注如何构建生产级监控系统,侧重指标监控领域,选择 Cprobe 作为采集器。下面我们对 Cprobe 的通用配置做简要说明。

Cprobe 简介

Cprobe 的 README 中已经放置了相关文档链接,不多总共三四篇,请各位自行阅读,这里就不再赘述了。安装的话,可以采用二进制方式、容器方式、Kubernetes 方式,安装文档在这里:https://github.com/cprobe/cprobe/issues/5,每种安装方式基本就是一条命令的事,简单的很。

Cprobe 的配置文件在 conf.d 目录下,writer.yaml 配置时序库的 remote write 地址,Cprobe 采集了数据之后通过 remote write 协议发送指标数据给时序库。conf.d 下面有不少目录,每个目录对应一个采集插件,每个采集插件的目录下通常都会有一个 main.yaml 的入口配置,main.yaml 中配置要采集的监控目标的地址,当然,也可以不写死目标实例的地址,而是通过 HTTP SD 或 File SD 的方式动态发现监控目标。其次,main.yaml 中一般会有 scrape_rule_files 配置项,配置各个 job 的采集规则,这是个数组,程序处理时会把数组里的每个规则文件拼接成一个整体来使用,即:通过这种方式可以实现配置文件拆分管理。举例:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'mysql'

scrape_configs:
- job_name: 'mysql_static'
  static_configs:
  - targets:
    - '127.0.0.1:3306'
  scrape_rule_files:
  - 'rule_head.toml'
  - 'rule_coll.toml'

- job_name: 'mysql_http_sd'
  http_sd_configs:
  - url: http://localhost:8080/get-targets
  scrape_rule_files:
  - 'rule_head.toml'
  - 'rule_coll.toml'

- job_name: 'mysql_file_sd'
  file_sd_configs:
  - files:
    - 'inst.yaml'
  scrape_rule_files:
  - 'rule_head.toml'
  - 'rule_coll.toml'
  - 'rule_cust.toml'

另外,每个插件目录下通常有个 doc/README.md 文件,里面会有该插件的详细说明,并且会有插件对应的仪表盘和告警规则的模板。OK,下面我们就来看看如何配置 Cprobe 来监控常见的数据库、中间件。

MySQL

MySQL 的监控插件配置在 conf.d/mysql 目录下,我给大家演示一下监控 3 个 MySQL 实例的配置,首先是 main.yaml:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'mysql'

scrape_configs:
- job_name: 'mysql_dept1'
  static_configs:
  - targets:
    - '10.99.1.107:3306'
    - '10.99.1.108:3306'
  scrape_rule_files:
  - 'rule_head1.toml'
  - 'rule_coll.toml'
- job_name: 'mysql_dept2'
  static_configs:
  - targets:
    - '10.99.1.109:3306'
  scrape_rule_files:
  - 'rule_head2.toml'
  - 'rule_coll.toml'

上面的配置文件可以看出,总共监控了 3 个实例,分成两个 job,之所以分成两个 job 是因为这两组数据库实例的认证信息不同,所以需要分开配置,mysql_dept1 这个 job 引用了 rule_head1.toml,而 mysql_dept2 这个 job 引用的是 rule_head2.toml,这俩 rule toml 文件中配置的是认证信息,比如 rule_head1.toml 的内容是:

[global]
user = 'cprobe'
password = 'cProbePa55'

上面只是为了演示,所以这么划分 job 和 认证信息,实际上,用于监控的账号,最好是全局统一的只读账号,方便管理,而 job 的划分依据,主要是 SD 的方式,不同的 SD 不同的 job。

通过 ./cprobe --no-writer --no-httpd --plugins mysql 可以测试一下采集是否成功,正常来讲,会输出一堆 mysql 指标,然后我们检查 writer.yaml 中的 remote write 地址是否正确,然后重启 Cprobe,就可以在时序库中看到 MySQL 的指标了。另外你可以从下面地址获取 MySQL 仪表盘:

https://github.com/cprobe/cprobe/blob/main/conf.d/mysql/doc/dash/grafana_mysql_01.json

20240104083953

对于常用的数据库、中间件,FlashDuty 已经提供了一些常用的告警规则,导入即可使用:

20240104085229

FlashDuty 在专栏第一篇已经介绍过,主要是一个事件 OnCall 中心,可以接入各种监控系统,把告警事件收集到一个地方统一管理,提供告警多渠道分发、收敛降噪、排班、认领升级、协同等能力,新版本还内置了告警引擎,可以对时序库中的数据做告警判定,内置各类常用的告警规则模板,总之,告警这个事,交给 FlashDuty 就好了。我们只需要做好数据采集(Cprobe等各类采集器)、存储(VictoriaMetrics等时序库)、展示(Grafana等可视化工具)这些事情就行了。

Redis

Redis 的监控插件配置在 conf.d/redis 目录下,main.yaml 举例如下:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'redis'

scrape_configs:
- job_name: 'redis'
  static_configs:
  - targets:
    - '10.99.1.107:6379'
  scrape_rule_files:
  - 'rule.toml'

通过 ./cprobe --no-writer --no-httpd --plugins redis 可以测试一下采集是否成功,正常来讲,会输出一堆 Redis 指标,Redis 的仪表盘可以从这里获取(或者自行从 Grafana 官网搜索别人分享的仪表盘):

https://github.com/cprobe/cprobe/blob/main/conf.d/redis/doc/dash/grafana_redis_01.json

20240104085003

Redis 的告警规则,FlashDuty 也已经内置了,使用 FlashDuty 做告警和事件分发即可,这里不再赘述。

MongoDB

MongoDB 的监控插件配置在 conf.d/mongodb 目录下,main.yaml 举例如下:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'mongodb'

scrape_configs:
- job_name: 'standalone'
  static_configs:
  - targets:
    - 10.99.1.110:27017
  scrape_rule_files:
  - 'rule.toml'

如果有认证信息,可以在 conf.d/mongodb/rule.toml 中配置,通过 ./cprobe --no-writer --no-httpd --plugins mongodb 可以测试一下采集是否成功,正常来讲,会输出一堆 MongoDB 指标,之后重启 Cprobe 即可。MongoDB 的仪表盘可以从这里获取(或者自行从 Grafana 官网搜索别人分享的仪表盘):

https://github.com/cprobe/cprobe/blob/main/conf.d/mongodb/doc/dash/grafana_mongodb_01.json

20240104091544

MongoDB 的告警规则,FlashDuty 也已经内置了,使用 FlashDuty 做告警和事件分发即可,这里不再赘述。

Oracle

Oracle 的监控插件配置在 conf.d/oracledb 目录下,main.yaml 举例如下:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'oracle'

scrape_configs:
- job_name: 'oracle'
  static_configs:
  - targets:
    - 10.99.1.107:1521/xe # ip:port/service
  scrape_rule_files:
  - 'link.toml'
  - 'comm.toml'

一般监控目标,即 target 的配置都是 IP + 端口,Oracle 的略有不同,需要配置成 IP + 端口 + service,通过 ./cprobe --no-writer --no-httpd --plugins oracledb 可以测试一下采集是否成功,正常来讲,会输出一堆 Oracle 指标,之后重启 Cprobe 即可。Oracle 的仪表盘可以从这里获取(或者自行从 Grafana 官网搜索别人分享的仪表盘):

https://github.com/cprobe/cprobe/blob/main/conf.d/oracledb/doc/dash/grafana_oracledb_01.json

20240104095322

Oracle 的告警规则,FlashDuty 也已经内置了,使用 FlashDuty 做告警和事件分发即可,这里不再赘述。

Postgres

Postgres 的监控插件配置在 conf.d/postgres 目录下,main.yaml 举例如下:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'postgres'

scrape_configs:
- job_name: 'postgres'
  static_configs:
  - targets:
    - '10.99.1.107:15432'
  scrape_rule_files:
  - 'rule.toml'

通过 ./cprobe --no-writer --no-httpd --plugins postgres 可以测试一下采集是否成功,正常来讲,会输出一堆 Postgres 指标,之后重启 Cprobe 即可。Postgres 的仪表盘可以从这里获取(或者自行从 Grafana 官网搜索别人分享的仪表盘):

https://github.com/cprobe/cprobe/blob/main/conf.d/postgres/doc/dash/grafana_postgres_01.json

20240104095711

Postgres 的告警规则,FlashDuty 也已经内置了,使用 FlashDuty 做告警和事件分发即可,这里不再赘述。

Tomcat

Tomcat 的监控插件配置在 conf.d/tomcat 目录下,main.yaml 举例如下:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'tomcat'

scrape_configs:
- job_name: 'tomcat'
  static_configs:
  - targets:
    - '10.211.55.3:8080'
  scrape_rule_files:
  - 'rule.toml'

注意,Tomcat 监控需要修改 conf/tomcat-users.xml 配置,增加 role 和 user,比如:

<tomcat-users xmlns="http://tomcat.apache.org/xml"
              xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
              xsi:schemaLocation="http://tomcat.apache.org/xml tomcat-users.xsd"
              version="1.0">
  <role rolename="manager-gui"/>
  <user username="tomcat" password="s3cret" roles="manager-gui"/>
</tomcat-users>

其次,通常 cprobe 和 tomcat 部署在不同的机器上,需要修改 webapps/manager/META-INF/context.xml 配置,把下面的部分注释掉:

<Valve className="org.apache.catalina.valves.RemoteAddrValve"
         allow="127\.\d+\.\d+\.\d+|::1|0:0:0:0:0:0:0:1" />

xml 的注释使用 <!-- -->,所以,最终注释之后变成:

<!--
<Valve className="org.apache.catalina.valves.RemoteAddrValve"
         allow="127\.\d+\.\d+\.\d+|::1|0:0:0:0:0:0:0:1" />
-->

然后修改 tomcat 的 rule.toml,写上认证信息,即可测试:./cprobe --no-writer --no-httpd --plugins tomcat。Tomcat 的仪表盘暂未整理,欢迎大家贡献 PR 呀。Tomcat 的告警规则,FlashDuty 也已经内置了,使用 FlashDuty 做告警和事件分发即可,这里不再赘述。

Kafka

Kafka 的众多指标是通过 jmx 的方式暴露的,所以,在 Kafka 启动的 shell 里通过 -javaagent 埋入 prometheus_jmx_agent.jar,就可以暴露 Prometheus 协议的监控数据了,使用 Cprobe 的 Prometheus 插件来抓即可。但是 Cprobe 还是提供了一个专门的 Kafka 插件,用于抓取 consumergroup 的 lag 信息,配置文件在 conf.d/kafka 目录下,main.yaml 内容举例:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'kafka'

scrape_configs:
- job_name: 'kafka'
  static_configs:
  - targets:
    - '10.99.1.105:9092'
  scrape_rule_files:
  - 'rule.toml'

如果是监控集群,想要写多个实例,Kafka 的 target 写法跟其他的 plugin 会有不同,举例:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'kafka'

scrape_configs:
  - job_name: 'kafka'
    static_configs:
      - targets:
          - '172.21.0.162:9092,172.21.0.163:9092,172.21.0.164:9092'
    scrape_rule_files:
      - 'rule.toml'

和 mysql 插件对比一下,应该可以看出差别吧?你知道为啥会有这样的不同设计么?欢迎在评论区留言探讨 :-)

通过 ./cprobe --no-writer --no-httpd --plugins kafka 可以测试一下采集是否成功,正常来讲,会输出一堆 Kafka 指标,之后重启 Cprobe 即可。Kafka 的仪表盘可以从这里获取(或者自行从 Grafana 官网搜索别人分享的仪表盘):

https://github.com/cprobe/cprobe/blob/main/conf.d/kafka/doc/dash/grafana_kafka_01.json

20240104101643

Kafka 的告警规则,FlashDuty 也已经内置了,使用 FlashDuty 做告警和事件分发即可,这里不再赘述。

ElasticSearch

ElasticSearch 的监控插件配置在 conf.d/elasticsearch 目录下,main.yaml 举例如下:

global:
  scrape_interval: 15s
  external_labels:
    cplugin: 'elasticsearch'

scrape_configs:
- job_name: 'elasticsearch'
  static_configs:
  - targets:
    - 10.99.1.105:9200
  scrape_rule_files:
  - 'rule.toml'

通过 ./cprobe --no-writer --no-httpd --plugins elasticsearch 可以测试一下采集是否成功,正常来讲,会输出一堆 ElasticSearch 指标,之后重启 Cprobe 即可。ElasticSearch 的仪表盘可以从这里获取(或者自行从 Grafana 官网搜索别人分享的仪表盘):

https://github.com/cprobe/cprobe/blob/main/conf.d/elasticsearch/doc/dash/grafana_elasticsearch_01.json

20240104103722

ElasticSearch 的告警规则,FlashDuty 也已经内置了,使用 FlashDuty 做告警和事件分发即可,这里不再赘述。

小结

作为专栏第二篇文章,给大家大体介绍了一下常用中间件的采集方式,Cprobe 是一个挺有意思的工具,大家可以一起贡献 PR。我们下一讲再见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/357190.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统Shell脚本-----------正则表达式 、grep、 sed

一、正则表达式 1.前言 正则表达式(regular expression)描述了一种字符串匹配的模式&#xff08;pattern&#xff09;&#xff0c;可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。在Linux中也就是代表我们定义的模式模板&…

SAI实例研究(3)

实例3 creature.id 16295&#xff08;smart_script.entryorguid&#xff09;的SAI设置&#xff1a; 共分为0和1两个事件阶段 第0阶段&#xff1a; 第1条(id 0&#xff09; 当 creature 刷新时&#xff08;event_type 11&#xff09;&#xff0c;creature 对自身&#xff0…

【网络】传输层TCP协议 | 三次握手 | 四次挥手

目录 一、概述 2.1 运输层的作用引出 2.2 传输控制协议TCP 简介 2.3 TCP最主要的特点 2.4 TCP连接 二、TCP报文段的首部格式 三、TCP的运输连接管理 3.1 TCP的连接建立(三次握手) 3.2 为什么是三次握手&#xff1f; 3.3 为何两次握手不可以呢&#xff1f; 3.4 TCP的…

ChatGPT4 比 ChatGPT3.5 强在了那里?

刚开始的时候我还在纠结&#xff0c;一个月20 刀的ChatGPT4 &#xff0c;到底值不值这个价钱&#xff1f;使用过后发现&#xff0c;诶嘛真香。因为 GPT4 比 GPT3.5 多了太多功能&#xff0c;特别是识图能力&#xff0c;用好的话效率翻倍。 1. 看图写代码 ChatGPT4 相比 ChatG…

colab使用自己数据集进行模型训练的方法汇总

在 Google Colab 上使用自己的数据集进行模型训练。Colab 允许通过多种方式上传数据&#xff0c;包括直接从本地计算机上传、从 Google Drive 加载或通过网络链接下载&#xff0c;从github导入等。 GitHub导入 使用以下的代码将github上的文件克隆到colab的当前目录下 !git …

除了Adobe之外,还有什么方法可以将Excel转为PDF?

前言 Java是一种广泛使用的编程语言&#xff0c;它在企业级应用开发中发挥着重要作用。而在实际的开发过程中&#xff0c;我们常常需要处理各种数据格式转换的需求。今天小编为大家介绍下如何使用葡萄城公司的的Java API 组件GrapeCity Documents for Excel&#xff08;以下简…

vue3使用AntV G6 (图可视化引擎)历程[三]

上期回顾&#xff1a;历程[二]描述了节点抽离自定义节点并做数据静态渲染。下面这篇继续描述节点升级版的模块化抽离以及动态数据渲染 官网地址&#xff1a;https://g6-next.antv.antgroup.com/manual/introduction “antv/g6”: “^4.8.24” 一、 案例效果 二、自定义节点的模…

第九节HarmonyOS 常用基础组件14-DataPanel

1、描述 数据面板组件&#xff0c;用于将多个数据占比情况使用占比图进行展示。 2、接口 DataPanel(options:{values: number[], max?: numner, type?: DataPanelType}) 3、参数 参数名 参数类型 必填 描述 values number[] 是 数据值列表&#xff0c;最多含9条数…

SpringCloud微服务常见问题

1 微服务 返回面试宝典 问题1 SpringCloud常见组件有哪些&#xff1f; SpringCloud包含的组件很多&#xff0c;有很多功能是重复的&#xff0c;其中最常见的组件包括&#xff1a; 注册中心组件&#xff1a;Eureka、Nacos等&#xff1b;负载均衡组件&#xff1a;Ribbon&…

Spring Security的入门案例!!!

一、导入依赖 <dependencies><!--web--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!--security--><dependency><groupId>…

如何获得《幻兽帕鲁》隐藏帕鲁唤夜兽?13000个配种配方查询 幻兽帕鲁Steam好评率还在涨 Mac苹果电脑玩幻兽帕鲁 Crossover玩Windows游戏

《幻兽帕鲁》是一款Steam平台热门游戏&#xff0c;开放式大陆和养成式冒险结合&#xff0c;成为2024首款热门游戏&#xff0c;不过由于官方仅发布了Windows版的游戏客户端&#xff0c;Mac用户无法直接玩&#xff0c;好在有Crossover这样的神器&#xff0c;让苹果电脑也能玩上《…

OCP NVME SSD规范解读-8.SMART日志要求-2

SMART-7&#xff1a; 软错误ECC计数可能是记录了被第一级ECC&#xff08;比如LDPC Hard Decode&#xff09;成功纠正过的读取错误次数。这意味着数据恢复成功&#xff0c;但依然表明存储介质出现了某种程度上的可靠性下降。 LDPC码是一种基于稀疏矩阵的纠错码&#xff0c;它由…

WebGL 入门:开启三维网页图形的新篇章(下)

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

go基础-垃圾回收+混合写屏障GC全分析

垃圾回收(Garbage Collection&#xff0c;简称GC)是编程语言中提供的自动的内存管理机制&#xff0c;自动释放不需要的对象&#xff0c;让出存储器资源&#xff0c;无需程序员手动执行。 Golang中的垃圾回收主要应用三色标记法&#xff0c;GC过程和其他用户goroutine可并发运行…

高端车规MCU的破局之路

目录 1 低质量的无效内卷 2 高端车规MCU产品共性 2.1 支持标定测量 2.2 低延迟通信加速 2.3 完备的网络安全解决方案 2.4虚拟化 3 国产替代的囚徒困境 1 低质量的无效内卷 近几年&#xff0c;车规MCU国产替代的呼声此消彼长&#xff0c;但仍然集中在低端产品。 从产…

网络安全知识和华为防火墙

网络安全 网络空间安全 ---Cyberspace 2003年美国提出的网络空间概念 ---一个由信息基础设施组成的互相依赖的网络。 我国官方文件定义&#xff1a;网络空间为继海、陆、空、天以外的第五大人类互动领域。 通信保密阶段 --- 计算机安全阶段 --- 信息系统安全 --- 网络空间安…

引用httplib时报undefined reference to `__imp_WSASocketW‘的解决方案

报错信息如下&#xff1a; undefined reference to __imp_getaddrinfo undefined reference to __imp_WSASocketW’ undefined reference to __imp_socket undefined reference to __imp_setsockopt’ undefined reference to __imp_setsockopt undefined reference to __imp_…

主从数据库MySQL服务重启步骤与注意事项

主从数据库MySQL服务重启步骤与注意事项 实验环境&#xff1a; 172.20.26.34 &#xff08;主应用服务器&#xff09; 172.20.26.26 &#xff08;备应用服务器&#xff09; 172.20.26.37 &#xff08;主库服务器&#xff09; 172.20.26.38 &#xff08;从库服务器&…

防御保护----防火墙基本知识

一.防火墙的基本知识--------------------------------------------------------- 防火墙&#xff1a;可以想象为古代每个城市的城墙&#xff0c;用来防守敌军的攻击。墙&#xff0c;始于防&#xff0c;忠于守。从古至今&#xff0c;墙予人以安全之意。 防火墙的主要职责在于&…

【客户端性能测试】手机设备的“高中端”怎么判断

在做客户端性能测试的时候&#xff0c;选择手机是一个老大难话题了&#xff0c;我们不可能随便拿一台设备就开工&#xff0c;最少也得选择高端机、终端机、低端机来看看结果。 一、先上科普 1.1 SoC 1.2 CPU 1.3 厂商rom 1.4 XXXm 二、划分思路 2.1 思路【目前是没有市面…