一、介绍
Intel Vtune profiler是用于串行和多线程应用程序的性能分析工具,可以帮助软件开发人员对应用程序的性能问题进行分析,支持包括linux和windows在内的多种操作系统。主要功能包括:
- 性能分析:可以对应用程序进行深入的性能分析,帮助用户了解应用程序在不同的硬件和软件环境下的运行情况。
- 热点检测:可以识别出程序中的热点部分,指导开发者进行优化。
- 性能瓶颈分析:通过分析CPU、内存、IO等各个方面的性能,帮助确定应用程序的性能瓶颈。
- 多线程分析:对于多线程应用程序,能够分析线程的运行状况,包括线程的同步、竞争和死锁等问题。
二、安装
tee > /tmp/oneAPI.repo << EOF
[oneAPI]
name=Intel® oneAPI repository
baseurl=https://yum.repos.intel.com/oneapi
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://yum.repos.intel.com/intel-gpg-keys/GPG-PUB-KEY-INTEL-SW-PRODUCTS.PUB
EOF
将oneAPI.repo移动到/etc/yum.repos.d目录中,执行
yum install intel-oneapi-vtune
安装vtune工具
如果是使用root用户进行安装的,安装完成后,默认的安装目录是在/opt/intel/oneapi/vtune中,执行
source /opt/intel/oneapi/vtune/latest/env/vars.sh
之后就可以在命令行界面中使用vtune命令了。
为了验证vtune profiler是否能够正确使用以及在安装过程中是否存在某些未知问题,可以运行安装包中的一个自动测试脚本,此脚本会运行对一个示例应用程序的分析
运行如下命令:
sh /opt/intel/oneapi/vtune/latest/bin64/vtune-self-checker.sh
此脚本会运行几分钟进行必要的信息收集,如果一切正常会产生对应的输出。
三、使用
3.1 默认测试用例使用
在vtuned中自带了一个测试用例matrix,目录位于/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix
在vtune的welcome界面点击New Project创建一个新的项目
在Project name栏输入项目名称(自定义),Location输入项目存放路径(任意)
项目创建完成自动进入Configure Analysis目录,Where选择Local Host(默认),Launch Application->Application处选择二进制文件的位置,也可以使用进程pid或者进行整系统的监测,修改WHAT的类型即可
我们这里是/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix,点击start按钮
vtune自动执行分析操作
执行完成后会输出summary
右上部分是一些基本的衡量指标,中间部分是可以进行进一步分析的方向,其中标红是推荐进行分析的方向。
接下来可对应用程序进行性能瓶颈分析,优化,然后再次执行性能分析工作来判断性能是否提升。
下一步分析方向有以下几个点:
算法分析:
热点分析用来查找代码花费时间最多的位置。
异常监测识别频繁重复代码中的性能异常问题。
内存消耗分析分析应用进程的内存消耗情况,仅适用于linux。
微架构分析:
微架构识别CPU流水线中的性能瓶颈。
内存访问分析应用程序的内存,查看CPU的缓存和主存使用情况。
并行性分析:
线程分析线程的并行度,定位并发度低的原因以及代码中的串行瓶颈。
HPC性能分析计算密集型应用程序如何使用CPU、内存和FPU的资源。
IO分析:
分析IO系统、总显得利用率
加速单元:
GPU offload分析应用程序是否存在GPU限制。
GPU热点分析GPU绑定的应用程序执行效率低的问题
CPU/FPGC分析FPGA的利用率
平台分析:
系统概述识别限制性能的平台因素
Platform Profiler手机较长时间内满负荷运行的系统数据
3.2 测试用例分析
matrix用例的功能是一个矩阵乘法器。
可以选择以下任意一种乘法核进行运算,需要在multiply.h头文件中对MULTIPLY的宏定义进行修改然后重新通过make编译程序。
multiply0:最基本的单线程实现
multiply1:最基本的多线程实现
multiply2:使用循环交换和向量化进行优化的实现(使用了编译器的向量选项)
multiply3:使用了cache blocking和data align的优化
multiply4:使用了matrix transposition和loop unrolling的优化
multiply5:使用Intel MKL优化
线程使用方式:线程模型使用系统自定义的,linux上是pthreads,windows上是win32 threads,OpenMP线程模型也可以使用。
修改线程模型:windows上选择使用Release,Release_OMP或者Release_MKL配置
linux上在Makefile文件中修改PARAMODEL为USE_THR,USE_OMP或者USE_MKL
矩阵属性:默认情况下矩阵的大小是2048,如果需要增大matrix的大小可以在multiply.h中重新定义MAXTHREADS的值,需要确保这个值是线程的倍数。默认情况下执行线程数目等于CPU cores的数目,可以修改MAXTHREADS来修改线程数。
vtune自带的测试用例matrix.c文件(在/opt/intel/oneapi/vtune/latest/samples/en/C++/matrix/src目录下)需要修改
将
#include
修改为
#include
否则会报出找不到gettimeofday的错误