性能优化-OpenMP基础教程(三)

本文主要介绍OpenMP并行编程的环境变量和实战、主要对比理解嵌套并行的效果。

🎬个人简介:一个全栈工程师的升级之路!
📋个人专栏:高性能(HPC)开发基础教程
🎀CSDN主页 发狂的小花
🌄人生秘诀:学习的本质就是极致重复!

目录

一、OpenMP是什么?

1 OpenMP的主要特点

2 Linux下OpenMP版本查看

3 OpenMP 环境变量

二、OPenMP实战

1 parallel

2 parallel for 

3 最大线程数获取(核数)

4 嵌套的使用(重点)

4.1 简单单并行

4.2 双并行不允许嵌套

4.3 双并行允许嵌套


一、OpenMP是什么?

        OpenMP(Open Multi-Processing)是一个用于C、C++和Fortran编程语言的并行编程模型。

        是由OpenMP Architecture Review Board牵头提出的,并已被广泛接受的,用于共享内存并行系统的多线程程序设计的一套指导性注释(Compiler Directive)。

        支持OpenMP的编译器包括Sun Compiler,GNU Compiler和Intel Compiler等。它提供了一套简单而强大的API,使得开发人员可以轻松地在多核处理器上编写并行程序。

        OpenMP通过将一个大的任务分解成多个小的任务,并将这些任务分配给不同的线程来并行执行,从而提高程序的性能。它提供了一些指令和函数,用于控制线程的创建、同步和通信等操作。

        OpenMP提供了一种高层的抽象描述,用于并行算法。程序员可以通过在源代码中添加专用的pragma来明确表达他们的意图,这样编译器就可以自动将程序进行并行化,并在需要的地方添加同步、互斥和通信机制。当选择忽略这些pragma或者编译器不支持OpenMP时,程序可以退化为普通的串行程序,代码仍然可以正常运行,只是无法利用多线程来加速程序执行

        作为高层抽象,OpenMP并不适合需要复杂的线程间同步和互斥的场合。OpenMP的另一个缺点是不能在非共享内存系统(如计算机集群)上使用。在这样的系统上,MPI使用较多。

        OpenMP官网 OpenMP官网

        OpenMP规范 OpenMP规范

        

1 OpenMP的主要特点

        1. 简单易用:OpenMP提供了一组简单的API,使得开发人员可以轻松地编写并行代码。
        2. 可移植性:OpenMP可以在各种硬件平台上运行,包括多核CPU、GPU和分布式系统等。
        3. 高性能:OpenMP可以利用多核处理器的并行计算能力,提高程序的执行效率。
        4. 共享内存模型:OpenMP使用共享内存模型来实现线程之间的通信和同步,避免了数据竞争的问题。
        5. 支持多种编程范式:OpenMP支持多种编程范式,包括数据并行、任务并行和指令级并行等。

2 Linux下OpenMP版本查看

        Linux的GCC编译器支持OpenMP,版本的查看使用如下:

 echo |cpp -fopenmp -dM |grep -i open

        执行后打印例如:

#define _OPENMP 201511

        可以到OpenMP Specification 查看对应的版本映射,201511代表2015年11月发布的OpenMP版本。

3 OpenMP 环境变量

        在性能优化-OpenMP基础教程(一)中主要介绍了OpenMP的指令和函数,这里补充OpenMP的环境变量。

环境变量描述
OMP_NUM_THREADS指定并行区域中使用的线程数
OMP_PROC_BIND控制线程与处理器之间的绑定关系
OMP_PLACES指定线程在处理器上的放置方式
OMP_SCHEDULE控制循环迭代的调度策略
OMP_STACKSIZE指定线程栈的大小
OMP_DYNAMIC控制是否启用动态调度
OMP_DEBUG控制是否启用OpenMP调试功能
OMP_WAIT_POLICY控制线程等待其他线程完成的策略
OMP_FLUSH_INTERVAL指定刷新内存缓存的时间间隔
OMP_PROC_BIND控制线程与处理器之间的绑定关系
OMP_PLACES指定线程在处理器上的放置方式
OMP_SCHEDULE控制循环迭代的调度策略
OMP_STACKSIZE指定线程栈的大小
OMP_DYNAMIC控制是否启用动态调度
OMP_DEBUG控制是否启用OpenMP调试功能
OMP_WAIT_POLICY控制线程等待其他线程完成的策略
OMP_FLUSH_INTERVAL指定刷新内存缓存的时间间隔

二、OPenMP实战

        编译仅仅需要在g++或者gcc 后面加编译选项 -fopenmp 。需要调用OpenMP的某些接口时,需要在代码中包含<omp.h>头文件。例如:

gcc test.c -fopenmp -o test

g++ test1.cpp -fopenmp -o test1

1 parallel

        编译制导指令parallel,用来创建并行域,后面紧跟需要创建并行域的代码,紧跟的才有用,可以使用{}括起来,空行不算代码。

#include<iostream>
#include"omp.h"
using namespace std;
int main()
{
    #pragma omp parallel
    {
        cout << "parallel Test" << endl;
    }
    {
        cout << "serial Test" << endl;
    }
    
 return 0;
}

        运行结果:

        由于笔者电脑有八个核,所以打印8次。可以明显看出只有紧跟的代码才并行处理。OpenMP可以非常简单的编写并行程序,这是它的优势。

        注意:输出也可能是乱码,因为多线程共享标准输出引起的竞争条件

2 parallel for 

        paraller 仅仅只是让系统有了并行域,创建了多个线程执行相同的内容,并没有提高效率。使用parallel for可以让内容分配给不同的线程去执行,注意是将一个任务划分为多个子任务让多核系统去执行,这样就提高了效率,这才是OpenMP的核心。parallel for 可以默认使用系统的多核线程数,也可以用num_threads(number)指定线程数。

        parallel for 只作用于紧跟的for循环,但是这个for循环是可以嵌套的。

        注意parallel for 需要搭配for 循环使用。

#include<iostream>
#include"omp.h"
using namespace std;
int main()
{
    #pragma omp parallel for
    for (int i = 0;i < 8;i++)
    {
        printf("ThreadID: %d i = %d 当前并行域线程数: %d \n",omp_get_thread_num(),i,omp_get_num_threads());
    }

    printf("****************************\n");

    #pragma omp parallel for num_threads(4)
    for (int i = 0;i < 8;i++)
    {
        printf("ThreadID: %d i = %d 当前并行域线程数: %d \n",omp_get_thread_num(),i,omp_get_num_threads());
    }

    {
        cout << "serial Test" << endl;
    }
    
 return 0;
}

        运行结果:

3 最大线程数获取(核数)

#include <iostream>
#include <omp.h>

int main()
{
    
    #ifdef _OPENMP
        printf("Max threads nums: %d \n",omp_get_max_threads());
    #else

    #endif

    return 0;
}

        运行结果:

4 嵌套的使用(重点)

        omp_set_nested(1) 设置允许嵌套使用,作用域在下面所有代码,不包括设置之前,只有当设置为omp_set_nested(0)时,嵌套允许才会被取消。

        omp_get_nested() 测试当前并行域是否支持嵌套使用

4.1 简单单并行

#include <stdio.h>
#include <omp.h>

int  main()
{
	// omp_set_nested(1);   // 设置允许嵌套并行可用 
    #pragma omp parallel num_threads(2)
    {
        printf("第一级, thread %d of %d\n", omp_get_thread_num(),omp_get_num_threads());
        
        // #pragma omp parallel num_threads(2)
        {
            printf("第二级, thread %d of %d\n", omp_get_thread_num(),omp_get_num_threads());
            
        }
    }

    

    
	return 0;
}

        运行结果:

        分析可知2个线程,都执行第一级和第二级,两个线程都执行一次第一级和第二级。

4.2 双并行不允许嵌套

#include <stdio.h>
#include <omp.h>

int  main()
{
	// omp_set_nested(1);   // 设置允许嵌套并行可用 
    #pragma omp parallel num_threads(2)
    {
        printf("第一级, thread %d of %d\n", omp_get_thread_num(),omp_get_num_threads());
        
        #pragma omp parallel num_threads(2)
        {
            printf("第二级, thread %d of %d\n", omp_get_thread_num(),omp_get_num_threads());
            
        }
    }

    

    
	return 0;
}

        运行结果:

        分析可知,第一级部分获得两个线程执行,第二级一个线程执行两次,这是不允许嵌套并行。

4.3 双并行允许嵌套

#include <stdio.h>
#include <omp.h>

int  main()
{
	omp_set_nested(1);   // 设置允许嵌套并行可用 
    #pragma omp parallel num_threads(2)
    {
        printf("第一级, thread %d of %d\n", omp_get_thread_num(),omp_get_num_threads());
        
        #pragma omp parallel num_threads(2)
        {
            printf("第二级, thread %d of %d\n", omp_get_thread_num(),omp_get_num_threads());
            
        }
    }

    

    
	return 0;
}

        运行结果:

     

        分析可知,第一级在嵌套并行外部,因此在允许嵌套并行的情况下,执行两次;第二级在嵌套并行内,因此外部的每个线程会产生两个线程,这样就有4个线程执行第二级,这是允许嵌套执行的效果。

🌈我的分享也就到此结束啦🌈
如果我的分享也能对你有帮助,那就太好了!
若有不足,还请大家多多指正,我们一起学习交流!
📢未来的富豪们:点赞👍→收藏⭐→关注🔍,如果能评论下就太惊喜了
感谢大家的观看和支持!最后,☺祝愿大家每天有钱赚!!!

下一节继续对OpenMP的更深层次的编程进行讲解!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/298217.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS 应用开发学习笔记 stateStyles:多态样式

1、 HarmoryOS Ability页面的生命周期 2、 Component自定义组件 3、HarmonyOS 应用开发学习笔记 ets组件生命周期 4、HarmonyOS 应用开发学习笔记 ets组件样式定义 Styles装饰器&#xff1a;定义组件重用样式 Extend装饰器&#xff1a;定义扩展组件样式 前面记录了ets组件样式…

基于粒子群算法的曲面路径优化

目录 摘要 测试函数shubert 粒子群算法的原理 粒子群算法的主要参数 粒子群算法原理 粒子群算法参数拟合 代码 结果分析 展望 基于粒子群算法的曲面路径优化(代码完整,数据齐全)资源-CSDN文库 https://download.csdn.net/download/abc991835105/88698419 摘要 寻优算法,…

Guarded Suspension模式--适合等待事件处理

Guarded是被守护、被保卫、被保护的意思&#xff0c; Suspension则是暂停的意思。 如果执行现在的处理会造成问题&#xff0c; 就让执行处理的线程进行等待--- 这就是Guarded Suspension模式。 模式通过让线程等待来保证实例的安全性。 一个线程ClientThread会将请求 Request的…

Linux第16步_安装NFS服务

NFS&#xff08;Network File System&#xff09;是一种在网络上实现的分布式文件系统&#xff0c;它允许不同的操作系统和设备之间共享文件和资源。 在创建的linux目录下&#xff0c;再创建一个“nfs“文件夹&#xff0c;用来供nfs服务器使用&#xff0c;便于”我们的开发板“…

C语言注意点(2)

1.使用pow函数的相关问题 局部变量n0 while(num/pow(10,n)) n; 为什么不可行 printf("%d",num/pow(10,4)%10) 为什么要提前用temp先引出来 答&#xff1a;pow函数的返回值为double类型&#xff0c;1.终止条件不会满足 2.num/pow(10,4)结果为浮点型&#xff0c;浮…

Nginx 常用变量 与 防盗链

目录 1.常用变量 2. $http_referer 配置防盗链 2.1 referer 2.2 配置防盗链 1.常用变量 变量说明 $args 请求中的参数&#xff0c;也叫查询参数 $content_length HTTP响应信息里的"Content-Length" $document_root nginx虚拟主机配置文件中的root站点根目录…

STM32的在线升级(IAP)实现方法:BOOT+APP原理详解

0 工具准备 Keil uVision5 Cortex M3权威指南&#xff08;中文&#xff09; STM32参考手册 1 在线升级&#xff08;IAP&#xff09;设计思路 为了实现STM32的在线升级&#xff08;IAP&#xff09;功能&#xff0c;通常会将STM32的FLASH划分为BOOT和APP两个部分&#xff0c;BOO…

JavaScript:关系数组、对象的复制

关系数组(关联数组)解字符串出现的次数: var str aaccddvvasdadqwd;// 统计每个字母出现的次数// 关系数组(关联数组) 长度永远为0// 使用字符串当做索引var arr [];arr[0] 20;// arr[a] 1;// arr[b] 3;// arr[c] 4;// console.log(arr)for (var i 0; i < str.lengt…

美经济学家预测,明年美股或将大跌86%,你怎么看?

年初至今&#xff0c;标准普尔500指数上涨25%&#xff0c;道琼斯指数上涨13%&#xff0c;以科技股为主的纳斯达克指数大涨了44%。 美国经济学家哈里斯登特近日预测&#xff0c;这种牛市是“100%人为印钞的结果”&#xff0c;而这一巨大的泡沫将在2024年破灭&#xff0c;届时美…

“智慧”千里眼助力水泵站

泵站是为水提供势能和压能&#xff0c;解决无自流条件下的排灌、供水和水资源调配问题的唯一动力来源&#xff0c;在工农业用水、防洪、排涝和抗旱减灾等方面发挥着重要作用。一旦出现异常&#xff0c;对经济生产将造成难以估量的损失&#xff0c;给水利安全管理造成负担。因此…

反射UnityEditor.GameView设置GamePlayMode分辨率

现在很有游戏考虑横屏适配、竖屏适配、阿拉伯语适配&#xff08;横竖屏&#xff09;导致拼界面变得越来越繁琐。 有很多时候需要记录各个控件的状态。 为了减少操作&#xff0c;特意制作了这个工具&#xff0c;点击用x配置可以自动切换到 宽高分辨率&#xff0c;如果当前没有则…

简易视频播放器(案例)

介绍 本篇Codelab使用ArkTS语言实现视频播放器&#xff0c;主要包括主界面和视频播放界面&#xff0c;我们将一起完成以下功能&#xff1a; 主界面顶部使用Swiper组件实现视频海报轮播。主界面下方使用List组件实现视频列表。播放界面使用Video组件实现视频播放。在不使用视频组…

程序员必知!命令模式的实战应用与案例分析

命令模式是一种行为设计模式&#xff0c;它将请求封装为对象以实现客户端参数化、请求排队、日志记录及撤销操作&#xff0c;旨在解耦调用者与操作实现者&#xff0c;以智能家居为例&#xff0c;用户通过界面发送命令对象&#xff0c;设备作为接收者执行相应操作&#xff0c;无…

物理与网络安全

物流环境安全 场地选择考虑抗震、承重、防火、防水、供电、空气调节、电磁防护、雷击及静电 场地因素&#xff1a; 自然灾害&#xff0c;社会因素&#xff08;加油站、化工厂&#xff09;&#xff0c;配套条件&#xff08;消防&#xff0c;交通&#xff0c;电力&#xff0c;…

QT项目中添加资源文件和使用qss样式

时间记录&#xff1a;2024/1/6 一、添加使用资源文件 1.1 创建项目并打开项目&#xff08;带ui界面的项目&#xff09; 1.2 使用快捷键Ctrln创建文件&#xff0c;选择"QT"下面的"QT Resource File" 1.3 输入文件名和文件保存路径 1.4 将需要添加的文件…

钡铼网关 只需一台,解锁智慧无人搅拌站系统,绿色又环保

行业需求 为了提高搅拌站的自动化&#xff0c;减少人工繁琐的操作&#xff0c;同时记录物料的增减记录&#xff0c;实现对于物料从进场到出场的全周期管理。 系统介绍 针对搅拌站各个环节的需求大致相同&#xff0c;市场中逐渐流行一整套基本的智慧搅拌站解决方案。各种搅拌站…

水母目标检测数据集VOC格式500张

水母&#xff0c;一种美丽而神秘的海洋生物&#xff0c;以其独特的形态和生态习性而备受瞩目。 水母的体型呈伞状&#xff0c;身体透明&#xff0c;有各种颜色和花纹。它们没有骨骼&#xff0c;身体由胶状物质组成&#xff0c;非常柔软和脆弱。水母通过触手上的刺细胞释放毒素…

哪个洗地机质量好?2024年洗地机推荐

如今&#xff0c;家用洗地机已经成为越来越多家庭的不可或缺之物。然而&#xff0c;在市场上琳琅满目的洗地机品牌和型号中&#xff0c;究竟哪一个性价比高、质量好&#xff0c;很多消费者常常陷入选择困难。为了帮助大家能够更加轻松地购买到适合自己的洗地机&#xff0c;我们…

dotdotdot插件快速实现多行文本的省略

jQuery.dotdotdot 前言 在“css新增文本样式&#xff08;完整&#xff09;”这篇&#xff0c;我们介绍了text-overflow属性省略多余的文本。用text-overflow属性可以直接省略单行文本&#xff0c;但省略多行文本&#xff0c;单独使用CSS是无法实现&#xff0c;今天我们介绍一…

【Linux 内核源码分析】关于Linux内核源码目录结构

Linux内核源码采用树形结构。功能相关的文件放到不同的子目录下面&#xff0c;使程序更具有可读行。 使用Source Insight打开源码&#xff0c;如下图所示&#xff0c;可以看到源码是树形结构。 目录含义描述arch存放与体系结构相关的代码&#xff0c;包括不同硬件平台的特定代…