C++中OpenMP的使用方法

适用场景

OpenMP是一种用于共享内存并行系统的多线程程序设计方案;简单地说,OpenMP通过一种较为简单的使用方式,实现代码的CPU并行化处理,从而最大化利用硬件的多核性能,成倍地提升处理效率;
OpenMP适用场景通常满足以下条件:

  1. 一个代码块被重复调用,且每次耗时较长,或者耗时较短但重复调用次数非常多;
  2. 被重复调用的代码块中,每次处理的数据之间,独立性较强,不存在线程安全问题,或者只有少数需要线程互斥的操作;
  3. 在一个算法中,被重复调用的代码块,是在一个顺序执行的逻辑中的;在引入并行处理提高效率的同时,期望算法逻辑保持简单,不希望引入过多的异步控制;

注意:以上的条件并不是绝对的,实际开发中还是需要根据算法/需求的特性,来衡量OpenMP是否能够有效地提高代码的执行效率,滥用OpenMP有时只会徒增代码的复杂性、降低运行效率;

开启方式

一般情况下,默认的C++编程环境是没有开启OpenMP支持的,需要手动开启;开启之后只需要在使用omp的地方包含头文件即可:

#include <omp.h>

VisualStudio开启方式

打开项目属性页 => 配置属性 => C/C++ => 语言 => OpenMP支持
image.png

QtCreator开启方式

在pro项目文件中加入行:

 QMAKE_CXXFLAGS += /openmp

CMake开启方式

FIND_PACKAGE( OpenMP REQUIRED)
if(OPENMP_FOUND)
	message("OPENMP FOUND")
	set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} ${OpenMP_C_FLAGS}")
	set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} ${OpenMP_CXX_FLAGS}")
	set(CMAKE_EXE_LINKER_FLAGS"${CMAKE_EXE_LINKER_FLAGS}${OpenMP_EXE_LINKER_FLAGS}")
endif()

OpenMP的指令

概览

OpenMP中的指令有:

  • parallel,用在一个代码段之前,表示这段代码将被多个线程并行执行;
  • for,用于for循环之前,将循环分配到多个线程中并行执行,必须保证每次循环之间无相关性;
  • parallel for, parallel 和 for语句的结合,也是用在一个for循环之前,表示for循环的代码将被多个线程并行执行;
  • sections,用在可能会被并行执行的代码段之前;
  • parallel sections,parallel和sections两个语句的结合;
  • critical,用在一段代码临界区之前;
  • single,用在一段只被单个线程执行的代码段之前,表示后面的代码段将被单线程执行;
  • flush,用于保证各个OpenMP线程的数据影像的一致性;
  • barrier,用于并行区内代码的线程同步,所有线程执行到barrier时要停止,直到所有线程都执行到barrier时才继续往下执行;
  • atomic,用于指定一块内存区域被制动更新;
  • master,用于指定一段代码块由主线程执行;
  • ordered,用于指定并行区域的循环按顺序执行;
  • threadprivate,用于指定一个变量是线程私有的;

常用案例

parallel

parallel指令用于创建并行域,可以和forsections等配合成为复合指令:

#pragma omp parallel [for | sections] [子句]
{
	// 并行代码
}
// 隐式同步

parallel指令之后的代码块,即为并行运行的代码块,并行代码执行完毕后,会隐式地进行线程同步;其执行次数通常可通过omp_set_num_theads()函数或num_threads字句指定:

#pragma omp parallel num_threads(8)
{
    // 执行8次
	printf("ThreadId=%d\n", omp_get_thread_num());
}

for/parallel for

for指令需要与parallel指令配合使用,配合方式有两种;
第一种,与parallel组成复合指令(应用于单个for循环,使用简洁明了):

#pragma omp parallel for
for (int j=0; j<4; ++j) 
{
	printf("j=%d, Threadid=%d\n", j, omp_get_thread_num());
}
// 隐式同步

第二种,与parallel嵌套使用(可用于单个或多个for循环,使用更加灵活):

#pragma omp parallel
{
	#pragma omp for
	for(int j=0; j<4; ++j)
    {
		printf("j=%d, Threadid=%d\n", j, omp_get_thread_num());
	}
    // 隐式同步
}

注意:for与parallel嵌套使用时,如果parallel指令中有多个for指令,会在完成第一个for指令后进行同步,然后执行第二个for指令后进行同步,如此类推,直到执行完成最后一个for指令;

另外,需要注意的是,for/parallel for指令对for循环的格式是有要求的,且在指令执行时,for循环的次数必须是固定且已知的:

std::vector<int> num_vector = { 0, 1, 3, 2, 5, 9, 4, 6 };

// 正确
#pragma omp parallel for
for(int i=0; i<num_vector.size(); ++i) 
{
	printf("i=%d, num=%d\n", i, num_vector.at(i));
}

// 错误
#pragma omp parallel for
for(auto num : num_vector)
{
    printf("num=%d\n", num);
}

// 错误
#pragma omp parallel for
for(auto iter=num_vector.begin(); iter!=num_vector.end(); ++iter)
{
    printf("num=%d\n", *iter);
}

cirtical/atomic

critical用于执行并行代码中的互斥操作,也即相当于加锁操作:

int max_x = -1;
int max_y = -1;
#pragma omp parallel for
for(int i=0; i<n; ++i)
{
	#pragma omp critical
	if (arx[i] > max_x)
	{
		max_x = arx[i];
	}
 
	#pragma omp critical
	if (ary[i] > max_y)
	{
		max_y = ary[i];
	}
}

atomic跟critical类似,但如指令名,主要用于原子操作(+、-、*、/、&、^、<<、>>):

#pragma omp parallel
{
	for(int i=0; i<10000; ++i)
	{
		#pragma omp atomic // 原子操作
		++counter;
	}
}

barrier

barrier指令也是用于代码同步,但有别于critical、atomic等用于多线程之间的互斥操作,barrier用于所有并行线程的强制同步,可以说是设置显式同步点(相对于OpenMP的隐式同步点,作用一样)的指令:

#pragma omp parallel
{
	Initialization();
    
	#pragma omp barrier // 显式同步点,等待所有线程完成Initialization()后, 继续执行后续代码
    
	Process();
}

OpenMP的函数库

概览

OpenMP中常用的函数有:

  • omp_get_num_procs,返回运行本线程的多处理机的处理器个数;
  • omp_get_num_threads,返回当前并行区域中的活动线程个数;
  • omp_get_thread_num,返回线程号;
  • omp_set_num_threads,设置并行执行代码时的线程个数;
  • omp_init_lock,初始化一个简单锁;
  • omp_set_lock,上锁操作;
  • omp_unset_lock,解锁操作,要和omp_set_lock函数配对使用;
  • omp_destroy_lockomp_init_lock函数的配对操作函数,关闭一个锁;

常用案例

omp_get_num_procs

omp_get_num_procs函数可以获取到当前机器的CPU数量(核数,或CPU的超线程数量);通常,如果算法中对于并行数量没有明确限制要求,可以通过该函数的返回值作为参考值,设置并行数量:

#pragma omp parallel for num_threads(omp_get_num_procs())
for(int i=0; i<10000; ++i)
{
	// 并行代码
}

omp_get_thread_num/omp_set_num_threads/omp_get_num_threads

omp_set_num_threads和omp_get_num_threads是设置和获取并行线程数量的一对接口,而omp_get_thread_num可以在并行代码之中获取当前线程号:

// 设置并行线程数量为4
omp_set_num_threads(4);

#pragma omp parallel
{
	// 获取并打印线程ID(0/1/2/3)
	int tid = omp_get_thread_num();
	printf("Hello Word from OMP thread %d\n",tid);

    // 只有第一个线程执行
    if(tid == 0)
    {
        // 获取当前的并行线程数量(此处固定为4)
    	int nthreads = omp_get_num_threads();
        printf("Number of thread: %d\n",nthreads);
	}
}

omp_init_lock/omp_set_lock/omp_unset_lock/omp_destroy_lock

omp_init_lock与omp_destroy_lock是用于初始化锁/关闭锁的一对函数,omp_set_lock与omp_unset_lock是用于上锁/解锁的一对函数,对应的互斥锁类型为omp_lock_t

static omp_lock_t lock;
omp_init_lock(&lock);
#pragma omp parallel for
for(int i=0; i<5; ++i)
{
	omp_set_lock(&lock);
	printf("%d +\n", omp_get_thread_num());
	printf("%d -\n", omp_get_thread_num());
	omp_unset_lock(&lock);
}
omp_destroy_lock(&lock);

OpenMP的子句

概览

OpenMP中的子句有:

  • private, 指定每个线程都有它自己的变量私有副本;
  • firstprivate,指定每个线程都有它自己的变量私有副本,并且变量要被继承主线程中的初值;
  • lastprivate,主要是用来指定将线程中的私有变量的值在并行处理结束后复制回主线程中的对应变量;
  • reduction,用来指定一个或多个变量是私有的,并且在并行处理结束后这些变量要执行指定的运算;
  • nowait,忽略指定中暗含的等待;
  • num_threads,指定线程的个数;
  • schedule,指定如何调度for循环迭代;
  • shared,指定一个或多个变量为多个线程间的共享变量;
  • ordered,用来指定for循环的执行要按顺序执行;
  • copyprivate,用于single指令中的指定变量为多个线程的共享变量;
  • copyin,用来指定一个threadprivate的变量的值要用主线程的值进行初始化;
  • default,用来指定并行处理区域内的变量的使用方式,缺省是shared

常用案例:

private

OpenMP各个线程的变量是共享还是私有,是依据OpenMP自身的规则和相关的数据子句而定,而不是依据操作系统线程或进程上的变量特性而定;其中private(list)子句,可用来将一个或多个变量声明成线程私有的变量,变量声明成私有变量后,指定每个线程都有它自己的变量私有副本,其他线程无法访问私有副本;即使在并行域外有同名的共享变量,共享变量在并行域内不起任何作用,并且并行域内不会操作到外面的共享变量;

int k = 100;
#pragma omp parallel for private(k)
for (k=0; k<8; ++k)
{
	printf("k=%d\n", k);  // 0-7
}
printf("last k=%d\n", k); // 100

num_threads

num_threads可以用于指定一块并行代码的线程数量:

#pragma omp parallel for num_threads(8)
for(int i=0; i<10000; ++i)
{
	// 并行代码
}

schedule

适用场景

假如在一个parallel并行域中有多个for制导指令,在该并行域内的多个线程首先完成第一个for语句的任务分担,然后在此进行一次同步(for制导指令本身隐含有结束处的路障同步),然后再进行第二个for语句的任务分担,直到退出并行域并只剩下一个主线程为止;对于for循环的并行计算,如果仅仅像上面这种方式进行任务分配,假如循环变量不同时计算量不同,那么这样的分配是不合理的。
对于这种情况,我们可以使用schedule子句来解决。

子句格式

schedule子句的格式是schedule(type [,size])。type的类型有static、dynamic、guided三种调度方式,此外还可以是runtime,但runtime是根据环境变量OMP_SCHEDULED来选择前三种中的某种类型,相应的内部控制变量ICV是run-sched-var。size是可选的,默认为平均分配。size参数必须是整数,表示以循环迭代次数计算的划分单位,每个线程所承担的计算任务对应于0个或若干个size次循环。需要注意的是,当type参数类型为runtime时,size参数是非法的。

type:static

当for或者parallel for编译制导指令没有带schedule子句时,大部分系统中默认采用size为1的static调度方式。假设有n次循环迭代,t个线程,那么给每个线程静态分配大约n/t次迭代计算,当然不要钻什么除不尽这样的牛角尖,线程分配到的迭代次数相差一次就行了。如果指定了size,则可能相差更大。对两个线程,以schedule(static)为例,以for循环10次为例,它们将分别得到5次;再以schedule(static,2)为例,0、1次迭代分配给0号线程,2、3次迭代分配给1号线程,4、5次迭代分配给0号线程,6、7次迭代分配给1号线程,…

type:dynamic

schedule(dynamic)是按情况每size次迭代进行分配,各线程动态地申请任务,因此较快的线程可能申请更多次数,而较慢的线程申请任务次数可能较少,因此动态调度可以在一定程度上避免前面提到的按循环次数划分引起的负载不平衡问题。默认size为1,类似于static的情况,容易想到size被指定后的情形,就不再赘述。

type:guided

这是一种采用指导性的启发式自调度方法。开始时每个线程会分配到较大的迭代块,之后分配到的迭代块会逐渐递减。迭代块的大小会按指数级下降到指定的size大小,如果没有指定size参数,那么迭代块大小最小会降到1。下面举个例子,其中第0、1、2、3、4次迭代被分配给线程0,第5、6、7次迭代被分配给线程1,第8、9次迭代被分配给线程0,分配的迭代次数呈递减趋势,最后一次递减到2次;

#pragma omp parallel for schedule(guided,2)
for (j=0; j<10; ++j) 
{
	printf("j=%d, Threadid=%d\n", j, omp_get_thread_num());
}
/* 可能的打印结果:
i=0, thread_id=0
i=1, thread_id=0
i=2, thread_id=0
i=3, thread_id=0
i=4, thread_id=0 
i=8, thread_id=0
i=9, thread_id=0
i=5, thread_id=1
i=6, thread_id=1
i=7, thread_id=1 */

default

default(shared | none)子句,用来允许用户控制并行区域中变量的共享属性。使用shared时,缺省情况下,传入并行区域内的同名变量被当作共享变量来处理,不会产生线程私有副本,除非使用private等子句来指定某些变量为私有的才会产生副本。如果使用none作为参数,除了那些由明确定义的除外,线程中用到的变量都必须显式指定为是共享的还是私有的;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/435502.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot3.x集成SpringDoc Swagger3

近期将springboox2.x升级到了3.x&#xff0c;索性将swagger2也同步升级到swagger3&#xff0c;具体过程如下。 一、添加maven依赖 <dependency><groupId>org.springdoc</groupId><artifactId>springdoc-openapi-starter-webmvc-ui</artifactId>…

每日力扣——滑动窗口与前 K 个高频元素

&#x1f525; 个人主页: 黑洞晓威 &#x1f600;你不必等到非常厉害&#xff0c;才敢开始&#xff0c;你需要开始&#xff0c;才会变的非常厉害。 滑动窗口最大值 给定一个数组 nums&#xff0c;有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑…

uni app 微信小程序微信支付

使用方法 接口传参 使用wx.requestPayment方法是一个统一各平台的客户端支付API&#xff0c;不管是在某家小程序还是在App中&#xff0c;客户端均使用本API调用支付

STM32自学☞WDG(看门狗)及其案例

一、WDG简介 由于看门狗的代码很少所以就直接在main主函数中写了&#xff0c;没单独建文件 二、独立看门狗 涉及的按键可参考之前的key.c和key.h文件 独立看门狗配置流程&#xff1a; 1.开启时钟&#xff08;LSI&#xff09; 2.解除IWDG_PR和IWDG_RLR的写保护 3.写入预分频和重…

[HackMyVM]靶场 Wild

kali:192.168.56.104 主机发现 arp-scan -l # arp-scan -l Interface: eth0, type: EN10MB, MAC: 00:0c:29:d2:e0:49, IPv4: 192.168.56.104 Starting arp-scan 1.10.0 with 256 hosts (https://github.com/royhills/arp-scan) 192.168.56.1 0a:00:27:00:00:05 …

Golang的Channel源码阅读、工作流程分析。

Channel整体结构 源码位置 位于src/runtime下的chan.go中。 Channel整体结构图 图源&#xff1a;https://i6448038.github.io/2019/04/11/go-channel/ Channel结构体 type hchan struct {qcount uint // total data in the queuedataqsiz uint // si…

python unittest实现api自动化测试

这篇文章主要为大家详细介绍了python unittest实现api自动化测试的方法&#xff0c;具有一定的参考价值&#xff0c;感兴趣的小伙伴们可以参考一下 项目测试对于一个项目的重要性&#xff0c;大家应该都知道吧&#xff0c;写python的朋友&#xff0c;应该都写过自动化测试脚本…

Nginx启动服务

Nginx启动服务 一、启动前置 下载地址 如已安装Docker&#xff0c;下一步拉取Nginx最新的Docker镜像&#xff1a; docker pull nginx:latest查看拉取下来的镜像&#xff1a; docker images二、启动服务 创建Docker容器&#xff1a; docker run --name {projectname} -p 80…

Open3D 生成空间3D椭圆点云

目录 一、算法原理二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 设椭圆在 X O Y XOY XO

MySQL基础-----SQL语句之DCL数据控制语句

目录 前言 一、管理用户 1.查询用户 2.创建用户 3.修改用户密码 4.删除用户 案例 二、权限控制 1.查询权限 2.授予权限 3.撤销权限 案例 前言 本期我们学习SQL语句的最后一部分内容&#xff0c;也就是数据控制语句DCL。DCL英文全称是Data Control Language(数据控制语…

支部管理系统微信小程序(管理端+用户端)flask+vue+mysql+微信小程序

系统架构如图所示 高校D支部管理系统 由web端和微信小程序端组成&#xff0c;由web端负责管理&#xff0c;能够收缴费用、发布信息、发布问卷、发布通知等功能 部分功能页面如图所示 微信小程序端 包含所有源码和远程部署&#xff0c;可作为毕设课设

ctf_show笔记篇(web入门---文件上传)

文件上传 151&#xff1a;简单的前端验证&#xff0c;有多种绕过方法 152&#xff1a;简单后端验证&#xff0c;不知道过滤了那些后缀&#xff0c;我尝试以后都可以上传 153&#xff1a;利用.user.ini文件&#xff0c;虽然能上传.pht这一类文件但访问时只会下载下来 这里就…

本地项目推送到腾讯云轻量应用服务器教程(并实现本地推送远程自动更新)

将本地项目上传到腾讯云轻量应用服务器并实现后续的推送更新&#xff0c;具体步骤如下&#xff1a; 在本地项目目录下初始化 Git 仓库&#xff1a; cd 项目目录 git init将项目文件添加到 Git 仓库并提交&#xff1a; git add . git commit -m "Initial commit"在…

【unity实战】3D水系统,游泳,潜水,钓鱼功能实现

文章目录 素材将项目升级为URP画一个水潭地形材质升级为URP创建水调节水第一人称人物移动控制游泳水面停留添加水下后处理水下呼吸钓鱼参考完结 素材 https://assetstore.unity.com/packages/vfx/shaders/urp-stylized-water-shader-proto-series-187485 将项目升级为URP 这…

在vue3中使用el-tree-select做一个树形下拉选择器

el-tree-select是一个含有下拉菜单的树形选择器&#xff0c;结合了 el-tree 和 el-select 两个组件的功能。 因为包含了el-tree的功能&#xff0c;我们可以自定义tree的节点&#xff0c;创造出想要的组件 使用default插槽可以自定义节点内容&#xff0c;它的default插槽相当于…

理解循环神经网络(RNN)

文章目录 1. 引言&#xff1a;什么是RNN以及它的重要性RNN简介RNN在机器学习中的作用和应用场景 2. RNN的工作原理神经网络基础RNN的结构和运作方式循环单元的作用 3. RNN的关键特点与挑战参数共享长期依赖问题门控机制&#xff08;例如LSTM和GRU&#xff09;代码示例&#xff…

【p3128、LQB14I砍树】树上差分

文章目录 差分树上差分p3128LQB14I砍树题目解题步骤代码样例 差分 差分数组求法&#xff1a; 设原始数组是arr&#xff0c;差分数组是b b[0] arr[0];b[i] arr[i] - arr[i-1]; 如果我们要对图中2-4区间的数每个都加上3&#xff0c;就可以在差分数组2的位置加上3&#xff0c;…

三、统计语言模型(N-gram)

为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷&#xff0c;将词表示成一个低维的实数向量&#xff0c;且相似的词的向量表示是相近的&#xff0c;可以用向量之间的距离来衡量相似度。 N-gram 统计语言模型是用来计算句子概率的…

tomcat基础介绍

目录 一、Tomcat的基本介绍 1、Tomcat是什么&#xff1f; 2、Tomcat的配置文件详解 3、Tomcat的构成组件 6、Tomcat的请求过程 一、Tomcat的基本介绍 1、Tomcat是什么&#xff1f; Tomcat 服务器是一个免费的开放源代码的Web 应用服务器&#xff0c;属于轻量级应用服务器…

【力扣 - 三数之和】

题目描述 给你一个整数数组 nums &#xff0c;判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k &#xff0c;同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。 注意&#xff1a;答案中不可以包含重复的三元组。…