python开发prometheus exporter--用于hadoop-yarn监控

首先写python的exporter需要知道Prometheus提供4种类型Metrics

分别是:Counter, Gauge, Summary和Histogram

* Counter可以增长,并且在程序重启的时候会被重设为0,常被用于任务个数,总处理时间,错误个数等只增不减的指标。

* Gauge与Counter类似,唯一不同的是Gauge数值可以减少,常被用于温度、利用率等指标。

* Summary/Histogram概念比较复杂,对于我来说目前没有使用场景,暂无了解。

我们需要的pip模块

from prometheus_client import CollectorRegistry, Gauge, push_to_gateway, start_http_server

-----

pip install prometheus_client

代码思路实例

def push_yarn():

    # 监控zk_RM

    Yarn_zkRMAppRoot()





    # 监控yarn任务信息

    Yarn_AppsInfo()



def run():

    start_http_server(8006)  # 8006端口启动

    while True:

        push_yarn()

        time.sleep(10)



if __name__ == '__main__':

    run()

push_yarn()为监控的数据数据

循环进行监控拿取数据进行监控

我们使用Gauge实例

注意⚠️:Gauge与Counter类似,唯一不同的是Gauge数值可以减少,常被用于温度、利用率等指标。

新增Gauge实例

yarn_zkRMAppRoot_code = Gauge('yarn_zkRMAppRoot', 'yarn_zkRMAppRoot_num', ['instance'])

started_time_gauge = Gauge('yarn_started_time', 'started_time', ['application'])

launch_time_gauge = Gauge('yarn_launch_time', 'launch_time', ['application'])

finished_time_gauge = Gauge('yarn_finished_time', 'finished_time', ['application'])

memory_seconds_gauge = Gauge('yarn_memory_seconds', 'memory_seconds', ['application'])

vcore_seconds_gauge = Gauge('yarn_vcore_seconds', 'vcore_seconds', ['application'])

yarn_zkRMAppRoot_code: 这个是一个Gauge指标,用于记录YARN ResourceManager应用程序根目录在ZooKeeper中的znode数量。

yarn_started_time: 这是一个Gauge指标,用于记录应用程序的启动时间。这个指标有一个 application 标签,用于区分不同的应用程序。

yarn_launch_time: 这是一个Gauge指标,用于记录应用程序的启动时间。这个指标也有一个 application 标签。

yarn_finished_time: 这是一个Gauge指标,用于记录应用程序的结束时间。这个指标也有一个 application 标签。

yarn_memory_seconds: 这是一个Gauge指标,用于记录应用程序使用的内存数量乘以运行时间(内存-秒)。这个指标也有一个 application 标签。

yarn_vcore_seconds: 这是一个Gauge指标,用于记录应用程序使用的虚拟CPU核心数量乘以运行时间(vCore-秒)。这个指标也有一个 application 标签。

实现一下我们要监控的指标

# --------yarn-------- #####

def Yarn_zkRMAppRoot():

    # 命令

    # 命令

    if kerberos_switch:

        command = f'''

            echo 'ls /rmstore/ZKRMStateRoot/RMAppRoot' | /opt/dtstack/DTBase/zookeeper/bin/zkCli.sh | grep application_ | awk -F , '{{print NF}}'

            '''

    else:

        command = f'''

                    export CLIENT_JVMFLAGS="$CLIENT_JVMFLAGS -Djava.security.auth.login.config=/opt/dtstack/DTBase/zookeeper/conf/jaas.conf -Djava.security.krb5.conf=/opt/dtstack/Kerberos/kerberos_pkg/conf/krb5.conf -Dzookeeper.server.principal=zookeeper/{hostname}@DTSTACK.COM"

                    echo 'ls /rmstore/ZKRMStateRoot/RMAppRoot' | /opt/dtstack/DTBase/zookeeper/bin/zkCli.sh | grep application_ | awk -F , '{{print NF}}'

                    '''

    # 使用subprocess模块执行命令

    result = subprocess.getstatusoutput(command)  # (0, '455')

    if result[0] == 0:

        yarn_zkRMAppRoot_code.labels('yarn_' + hostname).set(result[1])





    else:

        print(f"Failed to execute command: {command}")









def Yarn_AppsInfo():

    list_apps = []

    command = "yarn rmadmin -getServiceState rm1"

    apps_url = "http://{}/ws/v1/cluster/apps"

    rm_info = subprocess.getstatusoutput(command)

    if rm_info[0] == 0:

        if rm_info[1] == 'active':

            rm_host = yarn_rm1

        else:

            rm_host = yarn_rm2

    response = requests.get(url=apps_url.format(rm_host))

    html = response.text

    data = json.loads(html)

    for i in range(0, len(data['apps']['app'])):

        need_data = data['apps']['app']

        if need_data[i]['memorySeconds'] > 102400:  # 大于10G的任务

            list_apps.append([need_data[i]['id'],

                              need_data[i]['startedTime'],

                              need_data[i]['launchTime'],

                              need_data[i]['finishedTime'],

                              need_data[i]['memorySeconds'], need_data[i]['vcoreSeconds']])

    sorted_lst = sorted(list_apps, key=lambda x: (x[4], x[5]))

    for list in sorted_lst:

        application = list[0]

        started_time = list[1]

        launch_time = list[2]

        finished_time = list[3]

        memory_seconds = list[4]

        vcore_seconds = list[5]

        started_time_gauge.labels(application=application).set(started_time)

        launch_time_gauge.labels(application=application).set(launch_time)

        finished_time_gauge.labels(application=application).set(finished_time)

        memory_seconds_gauge.labels(application=application).set(memory_seconds)

        vcore_seconds_gauge.labels(application=application).set(vcore_seconds)

其中Yarn_zkRMAppRoot是检测znode数量的

Yarn_AppsInfo是检测大于10G的任务的

传到服务器启动这个exporter

python3 mg_exporter.py

访问http://172.16.121.89:8006/metrics

然后加入prometheus配置中就可以检测到了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/798104.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

电脑硬盘里的文件能保存多久?电脑硬盘文件突然没了怎么办

在数字化时代,电脑硬盘作为我们存储和访问数据的重要设备,承载着无数珍贵的回忆、工作成果和创意灵感。然而,硬盘里的文件能保存多久?当这些文件突然消失时,我们又该如何应对?本文将深入探讨这两个问题&…

【Python】深入了解`zip()`函数:高效地组合迭代对象

文章目录 1. zip()函数的基本用法2. 处理不同长度的可迭代对象3. 解压缩序列4. 使用zip()处理多个可迭代对象5. 结合for循环使用zip()6. 与字典结合使用7. 处理嵌套结构8. 与*运算符结合使用9. 实际应用示例:合并多个数据源10. 总结 Python中的zip()函数是一个强大且…

71.WEB渗透测试-信息收集- WAF、框架组件识别(11)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:70.WEB渗透测试-信息收集- WAF、框架组件识别(10)-CSDN博客 如果有…

【Python 项目】类鸟群:仿真鸟群

类鸟群:仿真鸟群 仔细观察一群鸟或一群鱼,你会发现,虽然群体由个体生物组成,但该群体作为一个整体似乎有它自己的生命。鸟群中的鸟在移动、飞越和绕过障碍物时,彼此之间相互定位。受到打扰或惊吓时会破坏编队&#xf…

Java核心篇之JVM探秘:对象创建与内存分配机制

系列文章目录 第一章 Java核心篇之JVM探秘:内存模型与管理初探 第二章 Java核心篇之JVM探秘:对象创建与内存分配机制 第三章 Java核心篇之JVM探秘:垃圾回收算法与垃圾收集器 第四章 Java核心篇之JVM调优实战:Arthas工具使用及…

窗口比较器的TINA仿真

TINA仿真 LM339比较器是大多数情况下应用的,仿真用的TLV3491只是为了仿真说明问题。 窗口比较器。当被比较的信号电压Uin位于门限电压之间时,输出为高电位。当Uin不在门限电位范围之间时, 输出为低电位,窗口电压△UVS1-VS2。它可用来判断输入…

1.5.1抽象java入门

前言: 1.5.0版本中,我们熟练使用Git三个可视化操作(签出,提交,对比),再加上1.4.0版本的新建,总计使用四个Git可视化操作;对java编程的学习,总结,…

部署一台本机的ai智能模型

部署ai模型 1.打开地址搜 https://ollama.com/(开源ai模型网址)下载软件 2.点击安装具有羊驼图标的文件 3.在右下角查看 羊驼图标 4。打开脚本,执行可以切换羊驼安装的位置与环境变量 5.winR 输入cmd,在命令窗口输入ollama命令 如果安装成功…

算法之工程化内容(2)—— Git常用命令

目录 1. git初始化配置 2. 新建仓库 3. 工作区——>暂存区——>本地仓库 4. git reset回退版本 5. 查看差异 git diff 6. 删除文件git rm 7. .gitignore 8. vscode操作git 9. git分支、合并和删除 10. 解决合并冲突 11. 回退和rebase 12. 添加远程仓库 参考链接&#xff…

Web 性能入门指南-1.5 创建 Web 性能优化文化的最佳实践

最成功的网站都有什么共同点?那就是他们都有很强的网站性能和可用性文化。以下是一些经过验证的有效技巧和最佳实践,可帮助您建立健康、快乐、值得庆祝的性能文化。 创建强大的性能优化文化意味着在你的公司或团队中创建一个如下所示的反馈循环&#xff…

C语言:指针详解(5)

目录 一、sizeof()函数和strlen()函数的对比 1.sizeof()函数 2.strlen()函数 3.sizeof()函数和strlen()函数的对比 二、数组和指针笔试试题解析 1.一维数组 2.字符数组 (1)代码1 (2)代码2 (3)代码…

pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况 df -h /dev/shm内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理 2、手动清理shm 依然没被释放 3、查看关联的进程,一个一个kill lsof |grep deletedkill -9 46619 44618 44617 。。。。。4、搞定

vue中父子传递属性值

1、父传子属性值 自定义图库组件 在add.vue中应用tuku组件并给默认值 效果 2、 子传父,逆向赋值 add.vue和第一问中一样 修改tuku组件,传值给add.vue 3、多个传递 效果: 点击两个修改按钮后 4、使用defineModel简化父子传值 其他代码跟…

python作业三

1.使用requests模块获取这个json文件http://java-api.super-yx.com/html/hello.json 2.将获取到的json转为dict 3.将dict保存为hello.json文件 4.用io流写一个copy(src,dst)函数,复制hello.json到C:\hello.json import json import shutilimport requests #使用requests模块获…

OceanBase:引领下一代分布式数据库技术的前沿

OceanBase的基本概念 定义和特点 OceanBase是一款由蚂蚁金服开发的分布式关系数据库系统,旨在提供高性能、高可用性和强一致性的数据库服务。它结合了关系数据库和分布式系统的优势,适用于大规模数据处理和高并发业务场景。其核心特点包括: …

【C/C++积累技巧】实现 连续播放文件图片+逐帧文本显示, 同时 可以按任意键退出(基于easyx小游戏编程)

技巧一、使用 IMAGE数组循环&#xff1a;实现【连续播放图片】 &#xff08;1&#xff09;一张图片如何放映在 图形化窗口上&#xff1a;借用两个函数 #include<graphics.h> // 函数的头文件IMAGE imgMy; // 图形变量 loadimage(&imgMy, "写入你想显示的图片路…

软件开发面试题(C#语言,.NET框架)

1. 解释什么是委托&#xff08;Delegate&#xff09;&#xff0c;并举例说明它在C#中的用法。 委托是一种引用类型&#xff0c;它可以用于封装一个或多个方法。委托对象可以像方法一样调用&#xff0c;甚至可以用于创建事件处理程序。委托是C#中实现事件和回调函数的重要机制。…

Hive表【汇总】

提前必备 1、内部表和外部表的区别 概念讲解&#xff1a; 外部表&#xff1a;1、存放他人给予自己的数据2、当我们删除表操作时&#xff0c;会将表的元数据删除&#xff0c;保留数据文件 内部表&#xff1a;1、存放已有的数据2、当我们删除表操作时&#xff0c;会将表的元数据…

Unity 优化合集

1️⃣ 贴图优化 1. Read/Write Enable 这个属性勾选后允许你在运行时读取和写入纹理数据&#xff0c;这对于需要实时生成内容或者需要动态修改纹理的场合非常有用但在大部分情况下这是不必要的。如果打开这个属性&#xff0c;会使运行时贴图大小翻倍&#xff0c;内存中会额外…

缓存与分布式锁

一、缓存 1、缓存使用 为了系统性能的提升&#xff0c;我们一般都会将部分数据放入缓存中&#xff0c;加速访问。 适合放入缓存的数据有&#xff1a; 即时性、数据一致性要求不高的&#xff1b;访问量大且更新频率不高的数据。 在开发中&#xff0c;凡是放入缓存中的数据我们都…