初识Prometheus和Grafana
通常来说,对于一个运行时的复杂系统,如果系统出了问题是很难排查的。因为你是不太可能在运行时一边检查代码一边调试的。因此,你需要在各种关键点加上监控,通过监控获取的数据,指导我们进一步工作,解决问题。
用开车作为例子:车子本身是一个极其复杂的系统,而当你的车在高速上以 120 公里的速度狂奔时出现了噪音,你是不可能这时候边开车边打开发动机盖子来查原因的。通常来说,好一点的车会有内置电脑,在车子出问题时,告诉你左边轮胎胎压有问题,或是发动机缺水了之类。而这些检测,就是系统监控的一个例子。
通过仪表盘,你不一定能清楚地了解车子出问题的具体原因,但至少可以给你一个大概的方向。比如说,如果水温很高时出现了问题,你大概率可以尝试加点水降温来尝试是否解决问题。
把上面的车类比计算机系统或者一个软件系统:Grafana就是仪表盘,它和车辆的速度表、水温表是一类的,通过这些表盘你可以实时了解系统运行情况。而Prometheus作为一个时序数据库,其实它和大家熟知的Mysql是一类的东西,可以理解为是带有时间戳的Mysql,都是存储数据,提供查询的,它存储了计算机系统在各个时间点上的监控数据。而Grafana仪表盘上的数据,就是通过查询Prometheus获取的。
就像用户使用某浏览器进行搜索,Prometheus负责记录用户搜索到结果用时多久,是否有滞后,cpu占用了多少等等,而Grafana则可以通过Prometheus把这些进行可视化展示
Prometheus
官网:Prometheus - Monitoring system & time series database
Prometheus 是一个开源的服务监控系统和时序数据库,其提供了通用的数据模型和快捷数据采集、存储和查询接口。它的核心组件Prometheus server会定期从静态配置的监控目标或者基于服务发现自动配置的自标中进行拉取数据,当新拉取到的数据大于配置的内存缓存区时,数据就会持久化到存储设备当中
Prometheus(普罗米修斯)是一套开源的监控系统,其基本原理是通过 HTTP 协议周期性抓取被监控组件的状态,不需要任何 SDK 或者其他的集成过程,其架构如图:
Prometheus 主要由以下部分组成:
- prometheus server: 是 Prometheus 组件中的核心部分,负责实现对监控数据的获取,存储以及查询;
- exporter: 采集端,通过 http 服务的形式保留一个 url 地址,prometheus server 通过访问该 exporter 提供的 endpoint 端点,即可获取到需要采集的监控数据。
- AlertManager: 在 prometheus 中,支持基于 PromQL 创建告警规则,如果满足定义的规则,则会产生一条告警信息,进入 AlertManager 进行处理。可以集成邮件,微信或者通过 webhook 自定义报警。
- Pushgateway: 由于 Prometheus 数据采集采用 pull 方式进行设置的, 内置必须保证 prometheus server 和对应的 exporter 必须通信,当网络情况无法直接满足时,可以使用 pushgateway 来进行中转,可以通过 pushgateway 将内部网络数据主动 push 到 gateway 里面去,而 prometheus 采用 pull方式拉取 pushgateway 中数据
普罗米修斯的数据存储采用的是时间序列数据(TimeSeries Data),它是按照时间顺序记录系统、设备状态变化的数据。
默认情况下 Prometheus 会将采集的数据存储到本机的 /usr/local/prometheus/data
目录,存储数据的大小受限和扩展不便;如果只作为测试自然不需要担心这个问题,如果用于生产的话需要安装配置时序数据库influxdb
。
Grafana
官网:Grafana: The open observability platform | Grafana Labs
Grafana 是一个监控仪表系统,它是由 Grafana Labs 公司开源的的一个系统监测 (System Monitoring) 工具。它可以大大帮助你简化监控的复杂度,你只需要提供你需要监控的数据,它就可以帮你生成各种可视化仪表。同时它还有报警功能,可以在系统出现问题时通知你。
Grafana 不对数据源作假设,它支持以下各种数据,也就是说如果你的数据源是以下任意一种,它都可以帮助生成仪表。同时在市面上,如果 Grafana 称第二,那么应该没有敢称第一的仪表可视化工具了。因此,如果你搞定了 Grafana,它几乎是一个会陪伴你到各个公司的一件称心应手的兵器。
Grafana 支持的数据源
- Prometheus
- Graphite
- OpenTSDB
- InfluxDB
- MySQL/PostgreSQL
- Microsoft SQL Server
- 等等
下面进行安装部署
1、用linux命令进行安装部署
要使用 Prometheus 和 Grafana 大约有五个步骤:
- 准备服务器环境
- 下载并安装 Node Exporter
- 下载并安装 Prometheus
- 配置 Prometheus
- 下载并安装 Grafana
- Exporter 监控工具,获取数据
- Prometheus 普罗米修斯时序数据库,用来存储和查询你的监控数据
- Grafana 仪表盘
(1)准备服务器环境
准备两台虚拟机
主机名 | IP | 角色 | 系统 |
bigdata01 | 192.168.233.128 | Prometheus 服务端 | CentOS 7 |
bigdata02 | 192.168.233.129 | node_exporter 客户端 | CentOS 7 |
(2)下载并安装 Node Exporter
以下命令在bigdata02上运行
wget https://github.com/prometheus/node_exporter/releases/download/v0.16.0/node_exporter-0.16.0.linux-amd64.tar.gz
解压到指定路径
tar -zxvf node_exporter-0.16.0.linux-amd64.tar.gz -C /opt/installs
重命名
mv node_exporter-1.1.2.linux-amd64/ node_exporter
解压压缩包后,会发现一个名为 node_exporter-0.16.0.linux-amd64
的目录,包含了可执行文件、README 以及许可证文件
启动node_exporter
./node_exporter &
启动后会监听9100端口
添加为服务方式启动
vim /usr/lib/systemd/system/node_exporter.service
[Unit]
Description=node_exporter
After=network.target
[Service]
ExecStart=/usr/local/node_exporter/node_exporter
Restart=on-failure
[Install]
WantedBy=multi-user.target
重启 Systemd
systemctl daemon-reload
启动服务
systemctl start node_exporter
查看服务
systemctl status node_exporter
可以通过浏览器访问:http://localhost:9100/metrics 查看采集到的指标
192.168.233.129:9100/metrics
- 每一行则表示当前Node Exporter采集到的一个监控样本
- 对于图中可见的node_***,代表了当前监控样本的名称
- 紧跟指标后大括号中的键值对中的键被称为标签,它与键值对的值共同组成筛选条件,相当于Mysql里的Where后面的内容。键值对整体反映了当前样本的一些特征和维度
- 而右大括号后的值则是该监控样本监控下的具体值
(3)下载并安装 Prometheus
以下命令在bigdata01上运行
可以在官网进行下载,这里是使用wget命令安装
在网上拉取prometheus 的压缩包
wget https://github.com/prometheus/prometheus/releases/download/v2.51.1/prometheus-2.51.1.linux-amd64.tar.gz
解压到指定路径
tar -zxvf prometheus-2.51.1.linux-amd64.tar.gz -C /opt/installs
重命名
mv prometheus-2.51.1.linux-amd64/ prometheus
查看是否安装成功
./prometheus --version
查看是否安装成功 ./prometheus --version
启动prometheus
./prometheus --config.file=prometheus.yml
添加为服务方式启动
cd /usr/lib/systemd/system
创建文件:vim prometheus.service
[Unit]
Description=https://prometheus.io
[Service]
Restart=on-failure
ExecStart=/usr/local/prometheus/prometheus --config.file=/usr/local/prometheus/prometheus.yml --web.listen-address=:9090
[Install]
WantedBy=multi-user.target
systemctl daemon-reload
开启服务
systemctl start prometheus
查看状态
systemctl status prometheus
浏览器访问
IP:9090
192.168.233.128:9090
(4)配置 Prometheus
# my global config
global:
# 默认情况下,每15s拉取一次目标采样点数据。
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
# 每15秒评估一次规则。默认值为每1分钟。
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
# - "first_rules.yml"
# - "second_rules.yml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# job名称会增加到拉取到的所有采样点上,同时还有一个instance目标服务的host:port标签也会增加到采样点上
- job_name: 'prometheus'
# 覆盖global的采样点,拉取时间间隔5s
scrape_interval: 5s
static_configs:
- targets: ['localhost:9090']
修改prometheus.yml
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
scrape_configs:
- job_name: 'prometheus'
static_configs:
- targets: ['192.168.233.128:9090']
- job_name: 'linux'
static_configs:
- targets: ['192.168.233.129:9100'] # 多个用,分开
# 指定配置文件
--config.file="prometheus.yml"
# 默认指定监听地址端口,可修改端口
--web.listen-address="0.0.0.0:9090"
# 最大连接数
--web.max-connections=512
# tsdb数据存储的目录,默认当前data/
--storage.tsdb.path="data/"
# premetheus 存储数据的时间,默认保存15天
--storage.tsdb.retention=15d
# 通过命令热加载无需重启 curl -XPOST 192.168.2.45:9090/-/reload
--web.enable-lifecycle
# 可以启用 TLS 或 身份验证 的配置文件的路径
--web.config.file=""
重启prometheus
systemctl restart prometheus.service
再次访问webdu192.168.233.128:9090
打开普罗米修斯自带的监控页面,Status -> Targets 查看:
Prometheus简单使用
点击Prometheus图标,进行查询页面。可以点击地图图标查看有哪些metrics name。输入要查询的metrics name和过滤条件,然后点击执行就会返回该时间序列中的一个瞬时(最新)监控数据
1 查询时间序列
prometheus_http_requests_total{code="200",handler=~"/graph"}
2 范围查询
查询过去一段时间范围内的监控数据时,需要使用区间向量表达式。如查询最近5分钟内的所有监控数据,一个label会有该时间范围内的一系列监控数据
prometheus_http_requests_total{}[5m]
3 时间位移操作
在瞬时向量表达式或区间向量表达式中,都是以当前时间为基准。如果我们想查询,5 分钟前的瞬时监控数据,可以使用时间位移操作offset
prometheus_http_requests_total{}offset 5m
更多运算操作请查看Prometheus的PromQL语法讲解和使用示例_prometheus 语法-CSDN博客
(5)下载并安装 Grafana
以下命令在bigdata01上运行
wget https://dl.grafana.com/enterprise/release/grafana-enterprise-10.2.2.linux-amd64.tar.gz
解压到指定路径
tar -zxvf grafana-enterprise-10.2.2.linux-amd64.tar.gz -C /opt/installs
重命名
mv grafana-v10.2.2 grafana
添加为服务方式启动
[Unit]
Description=Grafana Server
Documentation=http://docs.grafana.org
[Service]
Type=simple
Restart=on-failure
ExecStart=/opt/installs/grafana/bin/grafana-server \
--config=/opt/installs/grafana/conf/defaults.ini \
--homepath=/opt/installs/grafana
[Install]
WantedBy=multi-user.target
systemctl daemon-reload
systemctl start grafana.service
systemctl status grafana.service
访问端口是3000fhttp://192.168.233.128:3000/
第一次进入Grafana界面,账号和密码都是admin,会让你修改密码
在 Grafana 里,仪表盘的配置可以通过图形化界面进行,但配置好的仪表盘是以 JSON 存储的。这也就是说,如果你把你的 JSON 数据分享出去,别人导入就可以直接导入同样的仪表盘(前提是你们的监测数据一样)。
模板网址
Grafana dashboards | Grafana Labs
也可以连接mysql进行操作
2、用docker来进行安装
这里,最左边的 Docker 服务会将服务的数据发送给中间的普罗米修斯,而最右边的 Grafana 会查询中间的普罗米修斯,来展示仪表盘
安装docker
yum命令安装docker
yum install docker
安装后启动docker服务
systemctl start docker
查看docker状态
systemctl status docker
安装docker后其余步骤可参考该博客
Grafana 中文入门教程 | 构建你的第一个仪表盘-腾讯云开发者社区-腾讯云
3、在腾讯云上部署
一文搞懂Prometheus、Grafana(含腾讯云上实战)-腾讯云开发者社区-腾讯云
4、用脚本一键部署
入门 | Prometheus+Grafana 普罗米修斯-CSDN博客
本文参考一、Prometheus+Grafana普罗米修斯,搭建和使用_普罗米修斯 grafana-CSDN博客