Prometheus监控Kubernetes Pod状态

本文将介绍如何配置Prometheus的告警规则,实现对于Kubernetes Pod状态的监控。

1.Pod的状态类型

在Prometheus 监控Kubernetes Pod 状态时,通常可以观察到以下几种状态情况:

1. Running(运行中)

Pod 处于运行状态意味着其容器正在正常运行。在该状态下,Pod 的容器正常响应请求,并且可以正常访问。这是最理想的状态,表明应用程序正在按预期运行。

2. Pending(挂起)

当 Pod 还未分配到集群中的节点(Node)时,处于挂起状态。可能的原因包括调度器(Scheduler)尚未找到适合的节点来运行 Pod,或者节点资源不足以满足 Pod 的需求。在挂起状态下,Pod 无法提供服务。

3. Succeeded(已成功)

Pod 中的所有容器已经成功完成任务并退出。这通常在批处理任务或定时任务完成后发生。Pod 的生命周期已经结束,并且不再运行任何容器。

4. Failed(失败)

Pod 中的一个或多个容器已经失败。可能的原因包括容器启动失败、应用程序崩溃或其他运行时错误。在这种状态下,Pod 可能需要重新启动或手动处理以解决问题。

5. Unknown(未知):

未知状态表示 Prometheus 无法获取 Pod 的状态信息。可能的原因包括 Kubernetes API 的故障,或者 Pod 已被删除但 Prometheus 仍然尝试监视它。在这种情况下,需要检查监控系统和 Kubernetes 集群的健康状态。

02.告警规则

kube_pod_status_phase 是 Pod监控的一个重要的指标,它用于表示 Pod 的当前所处的状态。

我们在Prometheus表达式显示中,查询某个该指标的情况,可看到对应上面五个状态的纪录(参见phase标签)。此时,如果Pod处于某个状态,那么该状态的指标纪录值将为1。

图片

因此,当Pod除Running或Succeeded外的指标为1时,可以认为该Pod目前出现问题。基于这个逻辑,我们可以来编写告警规则,实现Pod的状态监控。

如下:

- name: kubernetes-pod  rules:  - alert: 'pod 状态监控'    annotations:      description: 'Pod 状态:{{ $labels.phase }}'      limit: '检测到Pod 状态异常'    expr: |      (kube_pod_status_phase{job="kube-state-metrics", phase !~ "Running|Succeeded"}  != 0     for: 2m

该规则表示当Prometheus在两分钟内,检测到Pod的kube_pod_status_phase指标非"Running和Succeeded"的纪录值为1时,则发起告警。

在配置相关规则后,你可以发现当Pod状态出现问题时,Prometheus将触发告警。

图片

03.问题处理

如果你只是看网上的文章,那基本都是到了上面那一步就结束了。但是,实际生产环境要比实验环境复杂得多。在使用上面规则时,我就遇到了一个问题:

当服务进行发版更新时,由于Pod会重新生成,并且在创建过程处于非Running状态。因此,如果某个服务的Pod创建并正常启动的时间超过两分钟时,则会导致Prometheus发起告警。类似一些公司的算法服务,启动时间往往会比应用服务久得多。

因此,我发现经常会在每次版本发布时,由于Pod启动时间较长而出现误报情况。

那么,要怎么来解决此类问题呢?不知道你是否会想到以下两种方案。

方案一:

在发版时屏蔽相关服务的告警,等到发版完成后再启用,这样可以屏蔽期间的误报。

方案二:

将告警的等待时间延长,当等待时间大于那些Pod的启动时间时,则不会出现误报。

这两个方案合理吗?很明显,这两个想法都很一般。

方案一增加了工作量不说,还可能因为屏蔽而导致问题漏报。第二个方案也是一样,延长等待会让Pod真正出现问题时,无法及时发现。

那么,更好的解决方案是什么呢?

这里说说我最终的处理方法,我优化了上面的PromQL规则,增加了对于Pod创建时间的判断,以此来屏蔽那些刚发版的Pod。如果创建时间小于10分钟,则该Pod的状态不会触发告警,这样我们可以完美解决前面遇到的误报问题。

具体的告警规则如下 :

(kube_pod_status_phase{job="kube-state-metrics", phase !~ "Running|Succeeded"}  !

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/610723.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring Framework-IoC详解

IoC的概念和作用 在介绍Ioc之前,我们首先先了解一下以下内容 什么是程序的耦合 耦合性(Coupling),也叫耦合度,是对模块间关联程度的度量。耦合的强弱取决于模块间接口的复杂性、调用模块的方式以及通过界面传送数据的多少。模块间的耦合度…

Java毕业设计 基于SpringBoot vue新能源充电系统

Java毕业设计 基于SpringBoot vue新能源充电系统 SpringBoot 新能源充电系统 功能介绍 首页 图片轮播 充电桩 充电桩类型 充电桩详情 充电桩预约 新能源公告 公告详情 登录注册 个人中心 余额充值 修改密码 充电桩报修 充电桩预约订单 客服 后台管理 登录 个人中心 修改密码…

【Linux】模拟实现bash(简易版)

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:Linux 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵,希望大佬指点一二 如果文章对…

redis深入理解之数据存储

1、redis为什么快 1)Redis是单线程执行,在执行时顺序执行 redis单线程主要是指Redis的网络IO和键值对读写是由一个线程来完成的,Redis在处理客户端的请求时包括获取(socket 读)、解析、执行、内容返回 (socket 写)等都由一个顺序串行的主线…

权力集中,效率提升,中心化模式的优势与挑战

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》 💪🏻 制定明确可量化的目标,坚持默默的做事。 🚀 转载自热榜文章🔥:探索设计模式的魅力:权力集中…

Microsoft Project使用简明教程

一.认识Microsoft Project Microsoft Project 是微软公司开发的项目管理软件,用于规划、协调和跟踪项目的进度、资源和预算,如下图所示,左边是任务的显示,右边是一个日程的显示图,最上方的长方形处在我们项目设定日程…

【oracle数据库安装篇三】Linux6.8单机环境oracle11g容灾ADG搭建

说明 DataGuard 是在主节点与备用节点间通过日志同步来保证数据的同步,可以实现数据库快速切换与灾难性恢复。用户能够在对主数据库影响很小的情况下,实现主备数据库的同步。 关联文章 【oracle数据库安装篇一】Linux5.6基于LVM安装oracle11gR2单机 【…

Pandas数据取值与选择

文章目录 第1关:Series数据选择第2关:DataFrame数据选择方法 第1关:Series数据选择 编程要求 本关的编程任务是补全右侧上部代码编辑区内的相应代码,要求实现如下功能: 添加一行数据,时间戳2019-01-29值为…

vue开发网站—①调用$notify弹窗、②$notify弹窗层级问题、③js判断两个数组是否相同等。

一、vue中如何使用vant的 $notify(展示通知) 在Vue中使用Vant组件库的$notify方法来展示通知,首先确保正确安装了Vant并在项目中引入了Notify组件。 1.安装vant npm install vant --save# 或者使用yarn yarn add vant2.引入:在ma…

自存angular 自定义snackbar

定义 1.自定义样式 2.自定义组件 就在要使用snackbar的组件中 在module中引入该组件(重新写一个组件也行的 直接引入就好) 打开这个组件 给这个自定义的组件传参 这个自定义组件接参(类似对话框接参) 使用参数 在这个自定义组件中 做了点击如何关闭s…

企业信使运营管理平台功能介绍

企业信使运营管理平台是一种为企业提供内部协同、任务管理、沟通交流、文件共享等功能的综合性管理平台。该平台旨在提高企业内部的工作效率和沟通协作能力,提供便捷的工作管理工具,促进企业的业务发展。 内部协同功能 企业信使运营管理平台首先提供一种…

Navicat Data Modeler Ess for Mac:强大的数据库建模设计软件

Navicat Data Modeler Ess for Mac是一款专为Mac用户设计的数据库建模与设计工具,凭借其强大的功能和直观的界面,帮助用户轻松构建和管理复杂的数据库模型。 Navicat Data Modeler Ess for Mac v3.3.17中文直装版下载 这款软件支持多种数据库系统&#x…

android进阶-AIDL

参考:Android进阶——AIDL详解_android aidl-CSDN博客 AIDL(Android 接口定义语言),可以使用它定义客户端与服务端进程间通信(IPC)的编程接口,在 Android 中,进程之间无法共享内存&…

全视通助力珠海市井岸镇卫生院新院,建设智慧病房

5月6日,位于珠海市斗门区的井岸镇卫生院新院正式启用,面向市民开诊。新院各诊区就医秩序井然,总体情况良好。据统计,截至开诊当天11点30分,新院门诊共接诊347人次,预防接种81人次,儿童体检33人次…

Docker快速搭建NAS服务——NextCloud

Docker快速搭建NAS服务——NextCloud 文章目录 前言NextCloud的搭建docker-compose文件编写运行及访问 总结 前言 本文主要讲解如何使用docker在本地快速搭建NAS服务,这里主要写如下两种: FileBrowser1:是一个开源的Web文件管理器&#xff…

effective python学习笔记_类与接口

用组合类实现多层结构而不用内置类型 例子:成绩单,存储学生各科成绩多个然后加权重,如果用字典类型会导致字典有多层嵌套结构 思想 当用内置类型如字典元组等结构出现超过二层的多层嵌套结构时,读起来会比较难懂,此时…

新能源 锂电池行业创业的财富方案,锂电池回收实战攻略课(36节课)

实战攻略 12年锂电池回收行业经验与坑全收录 课程内容: 001-课程介绍.mp4 002-锂电池的全种类认识.mp4 003-废品锂电池到级片粉末价值估算,mp4 004-锂电池的生产应用回收,mp4 005-梯次回收到粉未提纯全流程,mp4 006-锂电池行业术语,mp4 007-回收所需必备工具…

汉诺塔问题和爬楼梯(递归)

感谢大佬的光临各位,希望和大家一起进步,望得到你的三连,互三支持,一起进步 个人主页:LaNzikinh-CSDN博客 c语言基础_LaNzikinh篮子的博客-CSDN博客 文章目录 一.爬楼梯问题二.汉诺塔问题总结 一.爬楼梯问题 假设你正…

Ansys界面设计:ACT入门

来自官方文档Getting Started with ACT,机翻。 Ansys 提供一流的现成仿真技术。为了最有效地部署普遍模拟,您可能需要更精心策划的体验,以使我们的模拟专业知识与您的用户、公司或行业需求相匹配。 Ansys ACT 使您能够自定义和扩展 Ansys 体验…

java注解全网最细

引言 在java编程中,注解(Annotation)是一种元数据,它提供了关于程序代码的额外信息。注解不直接影响程序的执行,但可以在运行时提供有关程序的信息,或者让编译器执行额外的检查。 下面笔者通过循序渐进的…