perf 中的 cpu-cycles event 介绍

perf 中的 cpu-cycles event 介绍

cycles简介

cycles事件记录处理器核心执行的时钟周期数。每个时钟周期代表处理器内部时钟振荡器的一个周期。这个事件通常用于衡量处理器的执行速度,因为它直接反映了指令执行所需的时间。一个较高的cycles计数可能意味着代码执行较慢,因为需要更多的时钟周期来完成任务。

instructions 和 cycles的关系

instructions事件则记录处理器执行的指令数。这通常用来评估指令级别的效率,因为它显示了程序执行了多少条指令。如果一条指令需要多个时钟周期来执行,那么instructions与cycles之间的比率可以用来估算指令级的效率。一个较低的instructions/cycle比率表示更高的指令级并行性或更有效的代码。

在性能分析中,通常会关注这两个指标的比值,即instructions per cycle (IPC),来评估代码的执行效率。IPC越高,表示每时钟周期执行的指令越多,程序的执行效率也就越高。如果一个程序的IPC下降,可能是因为出现了分支预测错误、内存访问延迟或其他性能瓶颈。

perf cycles 分析

看环境是否支持 cycles 采集

[root@localhost ~]# perf list | grep cycles
...
  cpu-cycles OR cycles                               [Hardware event]
...

查看当前环境cpu频率: 2.6GHz

[root@localhost ~]# cat /sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_cur_freq
2600000

写一个简单的程序,让cpu利用率跑100%:

// test.cpp
int main() {
    while(1);
    return 0;
}
[root@localhost ~]# g++ test.cpp -o test
[root@localhost ~]# ./test
[root@localhost ~]# perf stat -e cycles -p `pidof test` sleep 1

 Performance counter stats for process id '515011':

     2,601,831,429      cycles

       1.000756985 seconds time elapsed

可以看出这个值近似等于2.6G

进一步测试

写一个程序,让控制cpu利用率在20%左右

#include <iostream>
#include <chrono>
#include <unistd.h>

int main() {
    int ratio = 20;
    int base_time = 1000;
    int sleeptime = base_time * (100-ratio);
    int runtime = base_time * ratio;
    while(true) {
        auto start = std::chrono::high_resolution_clock::now();
        while(std::chrono::duration_cast<std::chrono::microseconds>(std::chrono::high_resolution_clock::now() - start).count() < runtime) {}
        usleep(sleeptime);
    }

    return 0;
}

[root@localhost ~]# perf stat -e cycles -p `pidof test` sleep 1

 Performance counter stats for process id '515142':

       520,289,676      cycles

       1.000767149 seconds time elapsed

520,289,676/2,601,831,429=0.199
可以看出,结合cycles 和 系统频率可以换算出cpu利用率,利用perf采集各个线程的cycles,可以计算这个线程的负载。

采用perf record 的 方式

控制采集频率为 50Hz

[root@localhost ~]# perf record -h
    -a, --all-cpus        system-wide collection from all CPUs
    -c, --count <n>       event period to sample
    -e, --event <event>   event selector. use 'perf list' to list available events
    -F, --freq <freq or 'max'>
                          profile at this frequency
[root@localhost ~]# perf record -e cycles -F 1  -p `pidof test`  sleep 50
[ perf record: Woken up 1 times to write data ]
[ perf record: Captured and wrote 0.014 MB perf.data (12 samples) ]
[root@localhost ~]# perf script -i perf.data
            test 515142 4507231.759994:          1 cycles:  ffff50d8eeff379c finish_task_switch+0x74 ([kernel.kallsyms])
            test 515142 4507231.759996:          1 cycles:  ffff50d8eeff379c finish_task_switch+0x74 ([kernel.kallsyms])
            test 515142 4507231.759997:          1 cycles:  ffff50d8eeff379c finish_task_switch+0x74 ([kernel.kallsyms])
            test 515142 4507231.760015:      45456 cycles:      ffff904e03cc __kernel_clock_gettime+0xcc ([vdso])
            test 515142 4507243.582136: 6176126731 cycles:            400a40 std::chrono::operator-<long, std::ratio<1l, 1000000000l>, long, std::ratio<1l, 1000000000l> >+0x58 (/home/test)
            test 515142 4507248.582382: 2593218597 cycles:            4009d4 std::chrono::duration<long, std::ratio<1l, 1000000l> >::count+0x4 (/home/test)
            test 515142 4507253.582381: 2592326656 cycles:            400a28 std::chrono::operator-<long, std::ratio<1l, 1000000000l>, long, std::ratio<1l, 1000000000l> >+0x40 (/home/test)
            test 515142 4507258.581960: 2591492485 cycles:      ffff904e03f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515142 4507263.581284: 2591325615 cycles:            400a28 std::chrono::operator-<long, std::ratio<1l, 1000000000l>, long, std::ratio<1l, 1000000000l> >+0x40 (/home/test)
            test 515142 4507268.580381: 2590221715 cycles:      ffff904e03e4 __kernel_clock_gettime+0xe4 ([vdso])
            test 515142 4507273.501923: 2596489317 cycles:            400964 std::chrono::time_point<std::chrono::_V2::system_clock, std::chrono::duration<long, std::ratio<1l, 1000000000l> > >::time_since_epoch+0x4 (>
            test 515142 4507278.502390: 2594059695 cycles:      ffff904e040c __kernel_clock_gettime+0x10c ([vdso])

以1Hz的频率采样,可以看出,当perf稳定下来后,cycles稳定在 2.59e6,相邻的数据事件间隔5s,换算过后,也是相当于20%的cpu占用率。但是这似乎与我的预期不符,我的程序1s中实际会在运行状态下多次,理论上每秒都会采到,采样率1Hz,cpu利用率,采样时间50s, 实际的样本个数才有12个,似乎是 样本个数约等于采样间隔 * 采样频率 * 线程cpu利用率。

通过此方法计算线程的利用率,必须考虑时间戳,或者计算的周期要比采样周期大很多,如果采样1s,每1s计算下占用率,那么就会出现每5s的计算的线程占用率100%,其余是0%;

将程序绑在 core 10 上运行,观察现象。现象基本一致。

[root@localhost ~]# perf record -e cycles -F 1  -C 10  sleep 50
[ perf record: Woken up 1 times to write data ]
[ perf record: Captured and wrote 0.417 MB perf.data (11 samples) ]
[root@localhost ~]# perf script -i perf.data
            test 515307 [010] 4509711.079092:          1 cycles:            400a10 std::chrono::operator-<long, std::ratio<1l, 1000000000l>, long, std::ratio<1l, 1000000000l> >+0x28 (/home/test)
            test 515307 [010] 4509711.079094:          1 cycles:            400a10 std::chrono::operator-<long, std::ratio<1l, 1000000000l>, long, std::ratio<1l, 1000000000l> >+0x28 (/home/test)
            test 515307 [010] 4509711.079095:          1 cycles:            400a10 std::chrono::operator-<long, std::ratio<1l, 1000000000l>, long, std::ratio<1l, 1000000000l> >+0x28 (/home/test)
            test 515307 [010] 4509711.079121:      67206 cycles:      fffd5d4503f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515307 [010] 4509726.498642: 8000773091 cycles:      fffd5d4503f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515307 [010] 4509731.213642: 2447049195 cycles:      fffd5d4503e0 __kernel_clock_gettime+0xe0 ([vdso])
            test 515307 [010] 4509736.170329: 2574579536 cycles:      fffd5d4503e4 __kernel_clock_gettime+0xe4 ([vdso])
            test 515307 [010] 4509741.066237: 2540232188 cycles:      fffd5d4503f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515307 [010] 4509746.031759: 2575910682 cycles:      fffd5d2f9ba0 clock_gettime@plt+0x0 (/usr/lib64/libstdc++.so.6.0.24)
            test 515307 [010] 4509750.937614: 2546808087 cycles:      fffd5d45040c __kernel_clock_gettime+0x10c ([vdso])
            test 515307 [010] 4509755.894792: 2574924584 cycles:            400878 main+0x74 (/home/test)

以固定周期数采样

[root@localhost ~]# perf record -e cycles -c 520000000  -p `pidof test` sleep 10
[ perf record: Woken up 1 times to write data ]
[ perf record: Captured and wrote 0.014 MB perf.data (9 samples) ]
[root@localhost ~]# perf script -i perf.data
            test 515307 4510198.258890:  520000000 cycles:            400a94 std::chrono::__duration_cast_impl<std::chrono::duration<long, std::ratio<1l, 1000000l> >, std::ratio<1l, 1000l>, long, true, false>::__cast<long, std::ratio<1l, 1000000000l> >>
            test 515307 4510199.263843:  520000000 cycles:      fffd5d4503e4 __kernel_clock_gettime+0xe4 ([vdso])
            test 515307 4510200.268764:  520000000 cycles:      fffd5d4503f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515307 4510201.273860:  520000000 cycles:      fffd5d325304 std::chrono::_V2::system_clock::now+0x4c (/usr/lib64/libstdc++.so.6.0.24)
            test 515307 4510202.278955:  520000000 cycles:            400a8c std::chrono::__duration_cast_impl<std::chrono::duration<long, std::ratio<1l, 1000000l> >, std::ratio<1l, 1000l>, long, true, false>::__cast<long, std::ratio<1l, 1000000000l> >>
            test 515307 4510203.275996:  520000000 cycles:      fffd5d4503f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515307 4510204.281150:  520000000 cycles:      fffd5d4503f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515307 4510205.286123:  520000000 cycles:      fffd5d4503f4 __kernel_clock_gettime+0xf4 ([vdso])
            test 515307 4510206.291034:  520000000 cycles:            400ab0 std::chrono::duration<long, std::ratio<1l, 1000000l> >::duration<long, void>+0x14 (/home/test)

这样每秒都可以采到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/614683.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】顺序表与链表的差异

顺序表和链表都是线性表&#xff0c;它们有着相似的部分&#xff0c;但是同时也有着很大的差异。 存储空间上的差异&#xff1a; 对于插入上的不同点&#xff0c;顺序表在空间不够时需要扩容&#xff0c;而如果在使用realloc函数去扩容&#xff0c;会有原地扩容和异地扩容两种情…

Blender细节补充

1.饼状菜单&#xff0c;用于快速切换/选择 例如&#xff1a; ~&#xff1a;切换视图 Z&#xff1a;切换着色方式 &#xff0c;&#xff1a;切换坐标系 .&#xff1a;切换基准点 Shift S&#xff1a;吸附 有两种使用方式&#xff1a; -点选 -滑选&#xff0c;按快捷键…

在Tiled中制作动画瓦片图

什么是瓦片图&#xff1f;瓦片图是指用图块把游戏场景评出来 工具安装链接&#xff1a;Tiled | Flexible level editor 资源下载教程 资源下载&#xff1a;Mystic Woods - 16x16 Pixel Art Asset Pack by Game Endeavor 解压后得到一些资源 新建图块集合 Tiled的安装就不介绍…

Nginx或Tengine服务器配置SSL证书

目录 前提条件 步骤一&#xff1a;下载SSL证书 步骤二&#xff1a;在Nginx服务器安装证书 步骤三&#xff1a;验证SSL证书是否配置成功 前提条件 已通过数字证书管理服务控制台签发证书SSL证书绑定的域名已完成DNS解析&#xff0c;即您的域名与主机IP地址相互映射已在Web服…

全志ARM-SG90舵机

控制转角 向黄色信号线“灌入”PWM信号。 PWM波的频率不能太高&#xff0c;50hz&#xff0c;即周期1/频率1/500.02s&#xff0c;20ms左右数据&#xff1a; 不同的PWM波形对应不同的旋转角度&#xff0c;以20ms为周期&#xff0c;50hz为频率的PWM波 定时器需要定时20ms,关心的单…

Ubuntu24安装搜狗输入法,修复闪屏问题

下载deb安装包&#xff1a;搜狗输入法linux-首页 安装&#xff1a;sudo dpkg -i 1.deb 搜狗输入法linux-安装指导 重启&#xff0c;但是完成后闪烁。按以下步骤更改桌面配置。 sudo gedit /etc/gdm3/custom.conf 取消WaylandEnable的注释即可

Python 函数式编程

匿名函数 Python 允许用 lambda 关键字创造匿名函数。匿名顾名思义就是没有名字&#xff0c;即不需要以标准的方式来声明&#xff0c;比如说&#xff0c;使用 def 加函数名来声明。一个完整的 lambda “语句”代表了一个表达式&#xff0c;这个表达式的定义体必须和声明放在同…

CountDownLatch应用场景代码练习

目录 概念原理核心参数和方法两种应用场景实现代码应用一&#xff1a;让 主任务 等待 所有子任务执行完毕后&#xff0c;再继续执行执行结果应用二&#xff1a;让所有子任务同时执行&#xff0c;打印出发时间执行结果应用二&#xff08;扩展&#xff09;&#xff1a;让所有子任…

[沫忘录]MySQL 锁

[沫忘录]MySQL 锁 锁能够协调多线程或多进程并发访问某资源产生的数据冲突与错乱。而在数据库中&#xff0c;锁也是协调数据库访问的有效工具。 全局锁 能够锁住当前服务器所有数据库及其表。后续所有事务都只能进行读操作&#xff0c;而不能进行写操作或表属性更改。 典型…

C++入门系列-析构函数

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 析构函数 概念 析构函数&#xff0c;与构造函数功能相反&#xff0c;析构函数不是完成对对象本身的销毁&#xff0c;局部对象销毁工作是由编译器完成的&#xff0c;而对象在销…

即插即用篇 | YOLOv8 引入 Strip Pooling | 重新思考场景解析的空间池化

本改进已集成到 YOLOv8-Magic 框架。 空间池化已被证明在捕获像素级预测任务的长距离上下文信息方面非常有效,如场景解析。在本文中,我们超越了通常具有N N规则形状的常规空间池化,重新思考空间池化的构成,引入了一种新的池化策略,称为条带池化,它考虑了一个长而窄的核,…

【Linux】从零开始认识动静态库 -动态库

送给大家一句话&#xff1a; 我不要你风生虎啸&#xff0c; 我愿你老来无事饱加餐。 – 梁实秋 《我把活着欢喜过了》 ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚ ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚ଘ(੭ˊᵕˋ)੭* ੈ✩‧₊˚ଘ(੭ˊᵕˋ)੭…

ES6-自学01

调用方法读取文件&#xff1a;如果失败就throw抛出err,成功则抛出data 2.使用promise封装&#xff0c;如果失败就改变状态为 reject(err) 如果成功就 resolve(返回成功的值) &#xff0c;然后then,就可以获取返回的值&#xff0c;值toString&#xff08;&#xff09;方法来把…

示例十一、声音传感器

通过以下几个示例来具体展开学习,了解声音传感器原理及特性&#xff0c;学习声音传感器的应用&#xff08;干货版&#xff09;&#xff1a; 示例十一、声音传感器 ino文件源码&#xff1a; //Arduino C demo void setup() {Serial.begin(9600);pinMode(5, OUTPUT); }void loo…

解决wangEditor使用keep-alive缓存后,调用editor.cmd.do()失败

前提&#xff1a;wangeditor版本&#xff1a;4.7.11 vue版本&#xff1a;vue2 问题&#xff1a;在使用wangeditor富文本编辑器时&#xff0c;需求需要通过点击一个按钮&#xff0c;手动插入定义好的内容&#xff0c;所以使用了 editor.cmd.do(insertHTML, ....) 方法新增…

steam_api64.dll是什么东西?steam_api64.dll缺失的多个详细解决方法

在现代PC游戏领域&#xff0c;Steam无疑是最具影响力的游戏分发和社交平台之一。它不仅提供了一个庞大的游戏市场&#xff0c;还集成了好友系统、成就系统、云存储等多种功能&#xff0c;为数百万玩家提供了便捷的游戏体验。在这庞大的生态系统中&#xff0c;steam_api64.dll作…

快递物流查询:如何实现快递批量查询?这些技巧助你轻松应对

在日常生活和工作中&#xff0c;我们经常需要查询快递物流信息&#xff0c;尤其是当面对大量的快递包裹时&#xff0c;逐一查询无疑会耗费大量的时间和精力。这时&#xff0c;实现快递批量查询就显得尤为重要。本文将为你介绍办公提效工具一些实现快递批量查询的技巧&#xff0…

基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (一)

基于LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;一&#xff09; RAG 是未来人工智能应用的基石。大家并不是在寻求仅仅产生无意义反应的人工智能。而目标是人工智能能够从特定文档集中检索答案&#xff0c;理解查询的上下文&#xff0c;指导自己搜索其嵌入内容或…

嵌入式C语言高级教程:实现基于STM32的智能健康监测手环

智能健康监测手环能够实时监控用户的生理参数&#xff0c;如心率、体温和活动量&#xff0c;对于健康管理和疾病预防非常有帮助。本教程将指导您如何在STM32微控制器上实现一个基本的智能健康监测手环。 一、开发环境准备 硬件要求 微控制器&#xff1a;STM32L476RG&#xf…

软考常见排序

1.桶排序 将需要排序的数组内容全都取出来放在另一个有序的数组中,然后在依次放回(菜鸟网原图) 2.冒泡排序 数组最前面的元素与之后的每个元素依次比较,后面的元素比前面的元素大,就获取后面的元素然后继续与后面元素比较,直到所有元素都比较过一遍. 3.选择排序 从待排序的数据…