Linux CPU 性能分析工具火焰图(Flame Graphs)认知

写在前面


  • 博文内容为 《BPF Performance Tools》 读书笔记整理
  • 详细了解小伙伴可以访问作者官网:
  • https://www.brendangregg.com/flamegraphs.html
  • 有油管上分享的作者在USENIX ATC 2017 的视屏
  • 理解不足小伙伴帮忙指正

不必太纠结于当下,也不必太忧虑未来,当你经历过一些事情的时候,眼前的风景已经和从前不一样了。——村上春树


火焰图是什么?

火焰图(Flame Graph)是一种可视化工具,可以用于 CPU 性能剖析,可视化 CPU 中函数执行调用栈,可视化来自任何剖析器或跟踪器所记录的调用栈信息。。它由 Brendan Gregg 发明,并广泛用于性能分析和优化领域。

下图为一台部署了 OpenStack 环境的机器,作为 master 节点存在,运行命令 profile -af 30 > out.stacks01 生成的调用栈数据的火焰图可视化展示。

在这里插入图片描述

我们上面讲到了调用栈,对应没接触编码的小伙伴可能不太熟悉,那么调用栈又是什么

调用栈信息

调用栈信息,也称为栈回溯跟踪调用跟踪信息,是一串展示了代码流向的函数名字。例如,如果 func_a() 调用了func_b(),后者又调用了func_c(),那么那里的调用栈信息可以写成:

func_c
func_b
func_a

栈的底部(func_a)是起点,它之上的行显示了代码流向。换句话说,栈的顶部(func_c)是当前函数,向下移动则显示了它的派生关系:先是父亲函数,然后是祖父函数,依此类推。

实际的函数关系可能是这样

func_a(){
      func_b();
}
func_b(){
      func_c();
}

func_c(){
      print("当前执行到这里啦")
}

为什么需要火焰图对调用栈进行剖析

定时采样 方式收集调用栈信息,一般会收集数千个调用栈信息,每个调用都有几十或几百行那么长。为了使这样体量的数据易于分析,

  • Linux 的perf(1)剖析器将其样本摘要为调用树格式,显示每个分支所占的百分比
  • BCC 的profile(8)工具则采用了另外一种摘要方式:对每个独特的调用栈分别计数

使用这两种工具时,如果有某个调用栈占用大量CPU运行时间,那么此类问题可以很快被识别出来。不过对于许多其他分析场景,包括一些微小的性能回归测试(进行更改后是否出现性能下降),定位罪魁祸首可能需要研究数百页的剖析器输出。火焰图就是为了解决这个问题

火焰图怎么看?

下述输出显示了一个调用栈和对应的累计数,总计 10 个样本。举例来说

func_e
func_d
func_b
func_a
1

func_b
func_a
2

func_c
func_b
func_a
7

func_a()->func_b()->func_c()这个代码路径有 7 次采样。这个代码路径显示了fun_c()正在 CPU 上运行。而 func_a()->unc_b()这个代码路径,即 func_b() 正在 CPU 上运行,被采样了 2 次。然后一个以func_e()结束的调用栈被采样了 1 次。

对应的火焰图

在这里插入图片描述

火焰图具备以下特点:

每个方块代表了调用栈中的一个函数(一个“栈帧”)

Y轴 :显示了栈的深度(栈中帧的数量),顺序是底部代表根顶部代表叶子。从下往上看时,展示的是代码执行的方向;从上往下看时,则看到的是函数的调用层次关系

X轴: 包括了全部的采样样本的数量。要注意的一点是,和一般的图不同,火焰图从左到右并不代表时间流动的方向。火焰图从左到右只是按照字母顺序排列,目的是将位于栈中同一层的函数最大化地合并。和轴的函数栈帧一起看,图的原点在左下方(和一般的图一样),表示[0,a]区间。

X轴上方块的长度确实也有它的意义:方块的长度表示了该函数在剖析文件中出现次数的比重。较长的方块所对应的函数比较短的方块所对应的函数在采样样本中出现的次数多

功能性操作

鼠标悬浮特性

原始的火焰图软件生成的 SVG 文件内置了 JavaScript,可以被加载到浏览器中,用于实现实时交互。其中的一个特性是,当鼠标指针移动到相应的栈帧上时,会有一行信息显示出来,表明该栈帧在整个剖析文件中所占的比例

缩放

可以单击栈帧实现横向缩放’。这可将较窄的栈帧展开放大,这样就能看到它们的名字。类似一个数据可视化中下转操作

搜索

使用搜索按钮,或者按 Ctr1+F 组合键,允许输入搜索关键词,命中的会以洋红色高亮显示出来,同时显示搜索命中结果在所有堆栈中所占的百分比。这就使得计算特定代码区域在整个文件中所占的比例十分容易。

如何生成火焰图?

当前实验环境

┌──[root@vms99.liruilongs.github.io]-[~]
└─$hostnamectl
   Static hostname: vms99.liruilongs.github.io
         Icon name: computer-vm
           Chassis: vm
        Machine ID: ea70bf6266cb413c84266d4153276342
           Boot ID: e09f7f3829ca4df1bea57385262eb16b
    Virtualization: vmware
  Operating System: Rocky Linux 8.9 (Green Obsidian)
       CPE OS Name: cpe:/o:rocky:rocky:8:GA
            Kernel: Linux 4.18.0-513.9.1.el8_9.x86_64
      Architecture: x86-64
┌──[root@vms99.liruilongs.github.io]-[~]
└─$

某一内核函数调用采样

stackcount工具 是一个 BPF 工具,用于通过给定频率对函数的内核堆栈进行计数。这是在内核中使用eBPF映射来实现的。只有唯一的堆栈和它们的计数被复制到用户级进行打印。

┌──[root@vms99.liruilongs.github.io]-[~]
└─$stackcount -f -P  -D 10 ktime_get > out.txt

上面的命令的意思:

  • -f、–folded:输出折叠格式
  • -P、–perpid:对每个进程分别显示栈信息
  • -D DURATION、–duration DURATION:总共跟踪的秒数
  • ktime_get: 调用函数(Linux 内核空间的系统调用,获取时钟时间)
┌──[root@vms99.liruilongs.github.io]-[~]
└─$ls
anaconda-ks.cfg  date.log  output.txt  out.txt  set.sh  SHA256SUMS
┌──[root@vms99.liruilongs.github.io]-[~]
└─$wc out.txt
  220   440 53978 out.txt

生成对应的 堆栈数据之后需要通过工具(FlameGraph)转化为火焰图

项目地址:https://github.com/brendangregg/FlameGraph

克隆项目

┌──[root@vms99.liruilongs.github.io]-[~]
└─$git clone https://github.com/brendangregg/FlameGraph.git
正克隆到 'FlameGraph'...
remote: Enumerating objects: 1285, done.
remote: Counting objects: 100% (707/707), done.
remote: Compressing objects: 100% (146/146), done.
remote: Total 1285 (delta 584), reused 575 (delta 561), pack-reused 578
接收对象中: 100% (1285/1285), 1.92 MiB | 174.00 KiB/s, 完成.
处理 delta 中: 100% (761/761), 完成.
┌──[root@vms99.liruilongs.github.io]-[~]
└─$cd FlameGraph/

通过下面的命令生成对应的 火焰图 矢量图

┌──[root@vms99.liruilongs.github.io]-[~/FlameGraph]
└─$./flamegraph.pl  --hash --bgcolors=grey <  ../out.txt > out.svg
Can't locate open.pm in @INC (you may need to install the open module) (@INC contains: /usr/local/lib64/perl5 /usr/local/share/perl5 /usr/lib64/perl5/vendor_perl /usr/share/perl5/vendor_perl /usr/lib64/perl5 /usr/share/perl5) at ./flamegraph.pl line 97.
BEGIN failed--compilation aborted at ./flamegraph.pl line 97.

可以看到报错了,这个错误消息表明在运行 ./flamegraph.pl 脚本时,Perl 解释器无法找到所需的 open.pm 模块。该模块可能没有正确安装或没有包含在 Perl 解释器的模块搜索路径中。

要解决这个问题,你可以尝试以下几个步骤:

检查模块安装:确保 open.pm 模块已经正确安装。你可以使用 CPAN 或其他 Perl 模块管理工具来安装该模块。

安装模块管理器

┌──[root@vms99.liruilongs.github.io]-[~/FlameGraph]
└─$yum install perl-CPAN -y

安装模块

┌──[root@vms99.liruilongs.github.io]-[~/FlameGraph]
└─$cpan open
Loading internal null logger. Install Log::Log4perl for logging messages

CPAN.pm requires configuration, but most of it can be done automatically.
If you answer 'no' below, you will enter an interactive dialog for each
configuration option instead.

Would you like to configure as much as possible automatically? [yes] yes
CPAN: HTTP::Tiny loaded ok (v0.074)
...............
http://www.cpan.org/modules/03modlist.data.gz
Reading '/root/.cpan/sources/modules/03modlist.data.gz'
DONE
Writing /root/.cpan/Metadata
Running install for module 'open'
The most recent version "1.13" of the module "open"
is part of the perl-5.38.2 distribution. To install that, you need to run
  force install open   --or--
  install P/PE/PEVANS/perl-5.38.2.tar.gz

安装完之后提示我们需要安装对应的 perl 版本

┌──[root@vms99.liruilongs.github.io]-[~/FlameGraph]
└─$perl -v

This is perl 5, version 26, subversion 3 (v5.26.3) built for x86_64-linux-thread-multi
(with 58 registered patches, see perl -V for more detail)

Copyright 1987-2018, Larry Wall

Perl may be copied only under the terms of either the Artistic License or the
GNU General Public License, which may be found in the Perl 5 source kit.

Complete documentation for Perl, including FAQ lists, should be found on
this system using "man perl" or "perldoc perl".  If you have access to the
Internet, point your browser at http://www.perl.org/, the Perl Home Page.

┌──[root@vms99.liruilongs.github.io]-[~/FlameGraph]
└─$yum -y install  perl -y

升级 perl 版本之后,火焰图可以正常生成

┌──[root@vms99.liruilongs.github.io]-[~/FlameGraph]
└─$./flamegraph.pl  --hash --bgcolors=grey <  ../out.txt > out.svg
┌──[root@vms99.liruilongs.github.io]-[~/FlameGraph]
└─$

下面为生成到的火焰图

在这里插入图片描述

可以看到最下层为 swapper 调用系统时间函数对应每个 VCPU,当前系统为6核,都是swapper的调用

说明系统整体 CPU 利用率很低,大部分时间都在执行 swapper 代表的 idle 等待状态。

┌──[root@vms99.liruilongs.github.io]-[~]
└─$top
top - 17:56:14 up 1 day, 10:11,  2 users,  load average: 0.00, 0.00, 0.00
Tasks: 243 total,   1 running, 242 sleeping,   0 stopped,   0 zombie
%Cpu0  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu1  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu2  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu3  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu4  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu5  :  0.0 us,  1.0 sy,  0.0 ni, 99.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
MiB Mem :   6141.5 total,   4655.9 free,    405.9 used,   1079.7 buff/cache
MiB Swap:   2068.0 total,   2068.0 free,      0.0 used.   5465.6 avail Mem

在这里插入图片描述

单击其中一个核的调用,可以查看详细调用信息,更深的颜色代表占用时间更长的函数。更浅的颜色代表占用时间较短的函数。

在这里插入图片描述

swapper任务没有实质工作,它实际代表的就是 CPU 等待工作或空闲的时间。通过统计其 CPU 时间可以评估系统负载和 CPU 使用效率。它起到了监控和统计 CPU 的作用。

全局的采样

profile(8)是一个定时采样调用栈信息并且汇报调用栈出现频率信息的 BCC 工具。该工具可以同时记录几乎所有占用CPU的代码调用栈。该工具的额外消耗几乎可以忽略不计,因为该工具是定时采样,采样频率可以随时调整。

默认情况下,该工具以49Hz的频率同时采样所有CPU的用户态和内核态的调用栈

下面的命令将30秒的采样信息输出到out.stacks01文件中,并且在输出中标记内核函数(a),-f 以折叠的方式

┌──[root@liruilongs.github.io]-[~]
└─$profile -af 30 > out.stacks01

生成对应的火焰图

┌──[root@liruilongs.github.io]-[~]
└─$cd FlameGraph/
┌──[root@liruilongs.github.io]-[~/FlameGraph]
└─$./flamegraph.pl  < ../out.stacks01  > outs.svg

指定时间的所以的调用栈信息

在这里插入图片描述

查看haproxy 相关的调用栈信息

在这里插入图片描述

查看容器运行时相关的调用栈信息

在这里插入图片描述

博文部分内容参考

© 文中涉及参考链接内容版权归原作者所有,如有侵权请告知 😃


https://www.brendangregg.com/flamegraphs.html

《BPF Performance Tools》


© 2018-2024 liruilonger@gmail.com, All rights reserved. 保持署名-非商用-相同方式共享(CC BY-NC-SA 4.0)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/391991.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

恢复被.target勒索病毒加密的数据文件:拒绝向.target勒索病毒支付赎金

引言&#xff1a; 在当今数字时代&#xff0c;勒索病毒已成为网络安全领域的一大威胁&#xff0c;而.target勒索病毒是其中引起广泛关注的一种变种。本文将深入探讨.target勒索病毒的特点以及被其加密的数据文件恢复方法。数据的重要性不容小觑&#xff0c;您可添加我们的技术…

2024023期传足14场胜负前瞻

新的一年祝大家行大运、发大财、中大奖&#xff01;2024023期赛事由英超2场&#xff0c;德甲2场、意甲4场、西甲3场、法甲3场组成。售止时间为2月18日&#xff08;周六&#xff09;21点30分&#xff0c;敬请留意&#xff1a; 本期中深盘较少&#xff0c;1.5以下赔率仅1场&#…

阿里云服务器租用费用价格多少钱啊?一年、1个月、1小时

2024年最新阿里云服务器租用费用优惠价格表&#xff0c;轻量2核2G3M带宽轻量服务器一年61元&#xff0c;折合5元1个月&#xff0c;新老用户同享99元一年服务器&#xff0c;2核4G5M服务器ECS优惠价199元一年&#xff0c;2核4G4M轻量服务器165元一年&#xff0c;2核4G服务器30元3…

数学建模【非线性规划】

一、非线性规划简介 通过分析问题判断是用线性规划还是非线性规划 线性规划&#xff1a;模型中所有的变量都是一次方非线性规划&#xff1a;模型中至少一个变量是非线性 非线性规划在形式上与线性规划非常类似&#xff0c;但在数学上求解却困难很多 线性规划有通用的求解准…

Sora技术报告——Video generation models as world simulators

文章目录 1. 视频生成模型&#xff0c;可以视为一个世界模拟器2. 技术内容2.1 将可视数据转换成patches2.2 视频压缩网络2.3 Spacetime Latent Patches2.4 Scaling transformers 用于视频生成2.5 可变的持续时间&#xff0c;分辨率&#xff0c;宽高比2.6 抽样的灵活性2.7 改进框…

《剑指 Offer》专项突破版 - 面试题 44 : 二叉树中每层的最大值(两种方法 + C++ 实现)

目录 前言 一、只用一个队列 二、使用两个队列 前言 题目链接&#xff1a;LCR 044. 在每个树行中找最大值 - 力扣&#xff08;LeetCode&#xff09; 题目&#xff1a; 输入一棵二叉树&#xff0c;请找出二叉树中每层的最大值。例如&#xff0c;输入下图中的二叉树&#x…

仅需5元,手把手教你训练纳西妲GPT-SoVITS模型

资源下载及音频试听&#xff1a; 仅需5元&#xff0c;手把手教你训练纳西妲GPT-SoVITS模型 - 风屿岛 (biliwind.com) 购买服务器 首先&#xff0c;我们需要买一台显卡云服务器 极度推荐使用雨云&#xff0c;优惠码&#xff1a;wp-admin 账户注册成功后&#xff0c;前往&am…

机试复习-4

1.string类 string类型和数值的转换 ※数值→字符串 to_string函数 //具体做法 int i1234; string gto_string(i);//这样就转成字符串1234了 //下面就是字符串转为数字&#xff0c;类似下面还有stof,stoi,stod string d "1289347647"; int j stoi(d); cout <…

2024.2.17 作业

1.终端输入一个字符&#xff0c;判断是大写字母小写字母还是数字字符 代码&#xff1a; #! /bin/bash read var case $var in [0-9]) echo 数字 ;; [[:lower:]]) echo 小写字母 ;; [[:upper:]]) echo 大写字母 …

在 Geoserver 中添加自定义的室内坐标系

要在 Geoserver 中添加自定义的室内坐标系&#xff0c;您需要在数据目录中的 user_projections 文件夹下创建或编辑一个 epsg.properties 文件&#xff0c;然后在文件末尾添加您的坐标系的定义&#xff0c;使用 WKT&#xff08;Well-Known Text&#xff09;格式。您还需要为您的…

一些配置问题记录

真的很感慨 为什么一开始的下载的软件还能用 卸载或重装后的软件总是存在各种各样的错误 真令人心烦 GNURADIO运行简单的采集信号程序报错&#xff0c; 其实不太理解为什么会出现这类错误&#xff0c;解决方法为 安装 jackd2 软件包&#xff0c;然后尝试手动启动 Jack 服务器…

第四节笔记:XTuner 大模型单卡低成本微调实战

视频链接&#xff1a;https://www.bilibili.com/video/BV1yK4y1B75J/?spm_id_from333.788&vd_source3bbd0d74033e31cbca9ee35e111ed3d1 课程笔记&#xff1a; 1.Finetune简介 指令微调&#xff1a; 开始的大模型可能不知道问的是问题 这三种角色的划分只有在微调训练阶…

自动化测试-RIDE编写自动化脚本

自动化脚本是软件测试的必修内容&#xff0c;是自动化测试的核心&#xff0c;脚本的逻辑严谨性、可维护性非常重要&#xff0c;优秀的自动化脚本需要能兼顾用例的正确有效性和自动化测试的效率&#xff0c;本篇文章将介绍如何用RIDE写自动化脚本。我们将深入探讨RIDE的具体用法…

对待不合理需求,前端工程师如何优雅的say no!

曾经有位老板&#xff0c; 每次给前端提需求&#xff0c;前端都说实现不了&#xff0c;后来他搜索了一下&#xff0c;发现网上都有答案。他就在招聘要求上加了条&#xff1a;麻烦你在说不行的时候&#xff0c;搜索一下。 上面是一个段子&#xff0c;说的有点极端了&#xff0c;…

【AIGC】Stable Diffusion的插件入门

一、上文中作者使用插件包的方式下安装插件&#xff0c;用户也可以从Stable Diffusion的界面安装插件&#xff0c;如下图所示&#xff0c;在相应的插件后面点安装按钮。 二、介绍一些比较好用的插件 “adetailer” 插件是 Stable Diffusion 中的一个增强功能&#xff0c;旨在提…

Practical User Research for Enterprise UX

2.1 Why It’s Hard to Get Support for Research in Enterprises 2.1.1 Time and Budget Instead of answering the question “What dowe gain if we do this research?”, ask instead “What do we stand to lose if we don’t do the research?” 2.1.2 Legacy Thinkin…

Flink理论—Flink架构设计

Flink架构设计 Flink 是一个分布式系统&#xff0c;需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器&#xff0c;例如Hadoop YARN&#xff0c;但也可以设置作为独立集群甚至库运行,例如Spark 的 Standalone Mode 本节概述了 Flink 架构&…

QT 信号和槽机制

信号&#xff1a;各种事件 槽&#xff1a; 响应信号的动作 当某个事件发生后&#xff0c;如某个按钮被点击了一下&#xff0c;它就会发出一个被点击的信号&#xff08;signal&#xff09;。 某个对象接收到这个信号之后&#xff0c;就会做一些相关的处理动作&#xff08;称为槽…

LeetCode刷题计划---day3

卡码网 练习ACM模式 https://kamacoder.com/ 11 可用静态链表存储树&#xff0c;最后求某个结点到共同树根的长度。 #include <iostream> #include <vector> using namespace std;int main() {int n;int a,b;vector<int> nums vector<int>(30,0);wh…

Java IO详解

一、流的概念与作用 流(Stream)&#xff1a; 在Java IO中&#xff0c;流是一个核心的概念。流从概念上来说是一个连续的数据传输过程。人们根据数据传输特性将流抽象为各种类&#xff0c;方便更直观的进行数据操作。你既可以从流中读取数据&#xff0c;也可以往流中写数据。流的…