prometheus server安装
创建sa账号,对prometheus server进行授权。因为Prometheus是安装在pod里面,以pod的形式去运行的,因此需要创建sa,并对他做rbac授权。
apiVersion: v1
kind: ServiceAccount
metadata:
name: monitor
namespace: monitor-sa
然后进行角色绑定 。
kubectl create clusterrolebinding monitor-clusterrolebinding -n monitor-sa --clusterrole=cluster.admin --serviceaccount=monitor-sa:monitor
再把sa绑定到pod里。这里需要提前设置Prometheus的存储目录。在工作节点上进行操作mkdir /data,然后设置目录权限chmod 777 /data。
Prometheus config
创建一个configMap存储卷来存储Prometheus的配置:
[root@master prometheus]# cat prometheus-cfg.yaml
---
kind: ConfigMap
apiVersion: v1
metadata:
labels:
app: prometheus
name: prometheus-config
namespace: monitor-sa
data:
prometheus.yml: |
global:
scrape_interval: 15s
scrape_timeout: 10s
evaluation_interval: 1m
scrape_configs:
- job_name: 'kubernetes-node'
kubernetes_sd_configs:
- role: node
relabel_configs:
- source_labels: [__address__]
regex: '(.*):10250'
replacement: '${1}:9100'
target_label: __address__
action: replace
- action: labelmap
regex: __meta_kubernetes_node_label_(.+)
- job_name: 'kubernetes-node-cadvisor'
kubernetes_sd_configs:
- role: node
scheme: https
tls_config:
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
relabel_configs:
- action: labelmap
regex: __meta_kubernetes_node_label_(.+)
- target_label: __address__
replacement: kubernetes.default.svc:443
- source_labels: [__meta_kubernetes_node_name]
regex: (.+)
target_label: __metrics_path__
replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor
- job_name: 'kubernetes-apiserver'
kubernetes_sd_configs:
- role: endpoints
scheme: https
tls_config:
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
relabel_configs:
- source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
action: keep
regex: default;kubernetes;https
- job_name: 'kubernetes-service-endpoints'
kubernetes_sd_configs:
- role: endpoints
relabel_configs:
- source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
action: keep
regex: true
- source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
action: replace
target_label: __scheme__
regex: (https?)
- source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
action: replace
target_label: __metrics_path__
regex: (.+)
- source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
action: replace
target_label: __address__
regex: ([^:]+)(?::\d+)?;(\d+)
replacement: $1:$2
- action: labelmap
regex: __meta_kubernetes_service_label_(.+)
- source_labels: [__meta_kubernetes_namespace]
action: replace
target_label: kubernetes_namespace
- source_labels: [__meta_kubernetes_service_name]
action: replace
target_label: kubernetes_name
服务发现配置node_exporter
scrape_configs:
- job_name: 'kubernetes-node'
kubernetes_sd_configs:
- role: node这一段是使用kubernetes的服务发现,使用node角色,它使用默认的kubelet提供的http端口来发现集群中每个node节点。
然后进行relabel:
relabel_configs:
- source_labels: [__address__]
regex: '(.*):10250'
replacement: '${1}:9100'
target_label: __address__
action: replace
- action: labelmap
regex: __meta_kubernetes_node_label_(.+)这个正则将前缀匹配,然后labelmap把前缀去掉,只用后面大家不一样的标签,这样就能进行更细致的数据表示和分类
在 Kubernetes 集群中,Prometheus 通过服务发现获取节点的默认地址和端口(通常是 node-ip:10250
,这是 kubelet 的默认 HTTP 端口)。由于 Node Exporter 通常运行在节点的 9100
端口,因此我们使用重标签配置(relabeling)将 node-ip:10250
替换为 node-ip:9100
。这样,Prometheus 就能从正确的端口(9100)抓取到 Node Exporter 的监控数据。
cAdvisor配置
- job_name: 'kubernetes-node-cadvisor'
kubernetes_sd_configs:
- role: node
scheme: https
tls_config:
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
relabel_configs:
- action: labelmap
regex: __meta_kubernetes_node_label_(.+)
- target_label: __address__
replacement: kubernetes.default.svc:443
- source_labels: [__meta_kubernetes_node_name]
regex: (.+)
target_label: __metrics_path__
replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor
cAdvisor是用来获取容器内部信息的job,pormetheus通过上面job的服务发现,得到了所有node的cluster IP,但是这里Prometheus想通过kubernetes 的api代理来进行aAdvisor的访问,kubernetes.default.svc:443
是 Kubernetes 集群内部访问 Kubernetes API 服务器的服务地址。这个地址使用 Kubernetes 内部 DNS 解析,并且所有集群内部的 Pod 都可以通过这个地址访问 API 服务器。所以用kubectl的新的url就是 https://kubernetes.default.svc:443/api/v1/nodes/xianchaomaster1/proxy/metrics/cadvisor,这个nodename可以随着不同的node改变。
下面的代码可以看到kubernetes的服务的端口就是443
[root@master prometheus]# kubectl get svc
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
client-svc ExternalName <none> nginx-svc.nginx-ns.svc.cluster.local 80/TCP 6d8h
kubernetes ClusterIP 10.96.0.1 <none> 443/TCP 18d
my-nginx-nodeport NodePort 10.99.238.240 <none> 80:30380/TCP 7d
nginx ClusterIP None <none> 80/TCP 3d
服务抓取
- job_name: 'kubernetes-service-endpoints'
kubernetes_sd_configs:
- role: endpoints
relabel_configs:
- source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
action: keep
regex: true
如果一个service打上了“prometheus.io/scrape: true” 的标签(source_labels),就是说这个service允许prometheus抓取。如果匹配到就保留,否则就丢弃。
- source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
action: replace
target_label: __scheme__
regex: (https?)
apiVersion: v1
kind: Service
metadata:
name: my-service-http
annotations:
prometheus.io/scheme: "http"
spec:
ports:
...
抓取service使用的协议,并放在__scheme__这个标签中保存,要么是http,要么是https。
- source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
action: replace
target_label: __address__
regex: ([^:]+)(?::\d+)?;(\d+)
replacement: $1:$2
指定要使用的源标签,分别是 __address__
和__meta_kubernetes_service_annotation_prometheus_io_port
。Prometheus 会将这两个标签的值用分号 ;
连接成一个字符串。例如,如果 __address__
的值是 my-service:8080
,__meta_kubernetes_service_annotation_prometheus_io_port
的值是 9090
,那么组合后的字符串就是 my-service:8080;9090
。举例如下:
apiVersion: v1
kind: Service
metadata:
name: my-service
annotations:
prometheus.io/port: "8080"
然后使用正则来处理 my-service:8080;9090。第一个括号(
[^:]+)选择冒号之前的部分为$0,这里为my-service,
(?::\d+)?匹配冒号之后的数字,(?:)表示这是一个非捕获组,+表示可以有多个数字,?表示这个组合整体是可选的,可以匹配 0 次或 1 次。;匹配一个封号,然后(\d+)匹配封号之后的数字,也就是9090。最后把target_label的地址变为my-service:9090
使用注释和 relabel_configs
来调整端口的目的是为了确保 Prometheus 能够灵活地适应不同服务和环境中暴露指标的端口变化。这种配置方式提高了 Prometheus 配置的灵活性和适应性,确保它能够正确地抓取到所需的指标数据。
同理,也可以抓取metrics的标签,然后放入标签_metrics_path__中,抓取namespace标签,放入kubernetes_namespace标签中。
配置deployment
apiVersion: apps/v1
kind: Deployment
metadata:
name: prometheus-server
namespace: monitor-sa
labels:
app: prometheus
spec:
replicas: 1
selector:
matchLabels:
app: prometheus
component: server
template:
metadata:
labels:
app: prometheus
component: server
annotations:
prometheus.io/scrape: 'false'
spec:
nodeName: node1
serviceAccountName: monitor
containers:
- name: prometheus
image: prom/prometheus:v2.2.1
imagePullPolicy: IfNotPresent
command:
- prometheus
- --config.file=/etc/prometheus/prometheus.yml
- --storage.tsdb.path=/prometheus
- --storage.tsdb.retention=720h
- --web.enable-lifecycle
ports:
- containerPort: 9090
protocol: TCP
volumeMounts:
- name: prometheus-config
mountPath: /etc/prometheus/prometheus.yml
subPath: prometheus.yml
- name: prometheus-storage-volume
mountPath: /prometheus/
volumes:
- name: prometheus-config
configMap:
name: prometheus-config
items:
- key: prometheus.yml
path: prometheus.yml
mode: 0644
- name: prometheus-storage-volume
hostPath:
path: /data
type: Directory
command:
- prometheus
- --config.file=/etc/prometheus/prometheus.yml
- --storage.tsdb.path=/prometheus
- --storage.tsdb.retention=720h
- --web.enable-lifecycle
这些命令是容器启动时执行的,其中第一行Prometheus并不是一个命令,而是一个可执行文件的名称,首先检查这个文件是否存在在镜像中,然后执行的过程中传递参数。
volumes:
- name: prometheus-config
configMap:
name: prometheus-config
items:
- key: prometheus.yml
path: prometheus.yml
mode: 0644
这个代表将prometheus config面的一个配置文件(有可能会包含多个配置文件)挂载起来
权限模式由四个数字组成:
- 第一个数字(通常省略):设置特殊权限(Setuid、Setgid、Sticky 位)。
- 第二个数字:所有者权限。
- 第三个数字:组权限。
- 第四个数字:其他用户权限。
每个数字代表三个权限位(读、写、执行):
- 4:读权限(r)
- 2:写权限(w)
- 1:执行权限(x)
例如,0644
分解为:
- 0:没有设置特殊权限。
- 6:所有者有读写权限(4+2)。
- 4:组有读取权限。
- 4:其他用户有读取权限。
/data目录权限错误
目录权限错误:第一次运行的时候,忘记给/data更改权限,导致container尝试在 /prometheus
目录中打开数据库文件时遇到了权限拒绝错误。
[root@master prometheus]# kubectl logs prometheus-server-777db64bdb-cth6b -n monitor-sa
level=info ts=2024-07-04T02:45:46.985182Z caller=main.go:220 msg="Starting Prometheus" version="(version=2.2.1, branch=HEAD, revision=bc6058c81272a8d938c05e75607371284236aadc)"
level=info ts=2024-07-04T02:45:46.985233192Z caller=main.go:221 build_context="(go=go1.10, user=root@149e5b3f0829, date=20180314-14:15:45)"
level=info ts=2024-07-04T02:45:46.985248736Z caller=main.go:222 host_details="(Linux 3.10.0-1160.el7.x86_64 #1 SMP Mon Oct 19 16:18:59 UTC 2020 x86_64 prometheus-server-777db64bdb-cth6b (none))"
level=info ts=2024-07-04T02:45:46.985260941Z caller=main.go:223 fd_limits="(soft=1048576, hard=1048576)"
level=info ts=2024-07-04T02:45:46.986875199Z caller=main.go:504 msg="Starting TSDB ..."
level=info ts=2024-07-04T02:45:46.98689516Z caller=web.go:382 component=web msg="Start listening for connections" address=0.0.0.0:9090
level=info ts=2024-07-04T02:45:46.986988203Z caller=main.go:398 msg="Stopping scrape discovery manager..."
level=info ts=2024-07-04T02:45:46.987001517Z caller=main.go:411 msg="Stopping notify discovery manager..."
level=info ts=2024-07-04T02:45:46.987008714Z caller=main.go:432 msg="Stopping scrape manager..."
level=info ts=2024-07-04T02:45:46.987018357Z caller=manager.go:460 component="rule manager" msg="Stopping rule manager..."
level=info ts=2024-07-04T02:45:46.987029598Z caller=manager.go:466 component="rule manager" msg="Rule manager stopped"
level=info ts=2024-07-04T02:45:46.987037473Z caller=notifier.go:512 component=notifier msg="Stopping notification manager..."
level=info ts=2024-07-04T02:45:46.987047143Z caller=main.go:573 msg="Notifier manager stopped"
level=info ts=2024-07-04T02:45:46.98703874Z caller=main.go:407 msg="Notify discovery manager stopped"
level=info ts=2024-07-04T02:45:46.98702453Z caller=main.go:394 msg="Scrape discovery manager stopped"
level=info ts=2024-07-04T02:45:46.98703596Z caller=main.go:426 msg="Scrape manager stopped"
level=error ts=2024-07-04T02:45:46.987764472Z caller=main.go:582 err="Opening storage failed open DB in /prometheus: open /prometheus/243953157: permission denied"
level=info ts=2024-07-04T02:45:46.987791139Z caller=main.go:584 msg="See you next time!"
创建service
创建Prometheus的service,从而可以从集群外访问
[root@master prometheus]# cat prometheus-svc.yaml
apiVersion: v1
kind: Service
metadata:
name: prometheus
namespace: monitor-sa
labels:
app: prometheus
spec:
type: NodePort
ports:
- port: 9090
targetPort: 9090
protocol: TCP
selector:
app: prometheus
component: server
随后查看创建的svc,发现匹配了端口
[root@master prometheus]# kubectl get svc -n monitor-sa
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
prometheus NodePort 10.101.118.2 <none> 9090:32331/TCP 24s
随后在浏览器上打开,访问成功