GPU学习(1)

在这里插入图片描述

一、为什么要GPU

我们先看一个基本的神经网络计算 Y=F(x)=Ax+B
这就是一次乘法一次加法 ,也叫FMA,(fused multiply-add)
如果矩阵乘,就是上面的那个式子扩展一下,所以又用了这张老图

在这里插入图片描述

比如你要多执行好几个y=Ax+B,可能比较简单的方法就是这个
在这里插入图片描述
上面能用,但是一个线程效率低
在一个处理器周期里面是可以处理多个指令的,这个时候引入了线程的概念来做这个事,也就是所谓的并发。
在这里插入图片描述

并发能大大提升处理器处理任务的效率,在一个时间段执行多个任务,但是请注意,这并不意味着这些任务是同时执行的,虽然都在这个时间段执行,比如一个时钟周期,但是任务都会被随时中断,供其他任务运行。

能不能自己弄自己的不要有别人打扰,在同一时刻

在这里插入图片描述

那就得上并行了,上了并行开启了多进程,然后进程分布在不同的硬件core上,大家互不打扰,执行效率就高。总之,在同一时刻,大家互不打扰的一个方式就是多core,自己玩自己的。

比如CPU来讲它多少core呢?我看过前几天发布会有至强6的E系列最高288core的,那GPU呢,上一代H100是1万8。
刚才我们聊了,要把矩阵运算要是分解为多个这种FMA(Y=AX+B),最高效率肯定是多进程来实现并行。
就因为这个原因,CPU从根上就不太可能和GPU相比

当然CPU也不是不能做矩阵乘,就是效率低,虽然现在也有多向量化支持的指令集,甚至出现了AMX这种的指令集,但是硬件上的限制还是决定了它的上限,这也是硬件架构决定的,比如下面的这张老图。

在这里插入图片描述
不同于CPU要处理好多复杂逻辑和上下文,GPU就属于天生不能干细活,但是擅长并行计算的那一趴了(人家CPU本来就不是发明出来要干这个事的)。

二、GPU的架构

这东西其实一开始也不是用于AI的,它只要就是用来给游戏算多边形的,后来吴恩达发现用GPU的多核能力运行AI的训练推理效果非常好,再加上CUDA推出,GPU编程简单了一大半,GPU才慢慢从AI学界逐渐走向产业界。

在这里插入图片描述
他们之间的层级关系为:GPC > TPC > SM > CORE,当然还有什么sram寄存器啥的也不在这里每个都点了,我们玩AI的话呢,从大面上讲主要就是玩SM,SM最早是在G80的时候被定义出来的,目前也是被沿用。
在这里插入图片描述

一个SM里面包含了很多的东西

在这里插入图片描述
刚我们讲了并发和并行的区别,肯定并行处理单位时间处理能力更高,但是在一个processor(或者更高一级的概念)内部,我们肯定还是会调用thread来实现并发,而GPU/CUDA玩的核心理念也叫SIMT,就是单指令多线程。

不同于有的core级别设计的线程管理,NV的GPU是SM级别的SIMT,这些线程的调度是要靠Warp Scheduler来实现的。

简单说就是:
因为表面上看起来是N(N个硬件SKU有关)个Threads来实现并行,但是同一时刻因为硬件的限制,也不可能。所以就要求一个 Warp 调度N个Threads来实现并行之间的调度,这N个 Threads 以锁步的方式执行同一条指令,其中任何一个单独的 Thread会使用自己的 Data 执行指令分支,就通过这个方法,让GPU同一时刻能实现超大的数据和指令处理能力。
当然这些都是硬件层面的,软件层面要和CUDA配合。
先写到这,下节来讲CUDA的软件层面怎么和硬件层面配合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/663231.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI图书推荐:使用GitHub Copilot和ChatGPT辅助的Python编程

使用Python编写计算机程序变得更加简单了!使用像GitHub Copilot和ChatGPT这样的AI辅助编码工具,将你的想法快速转化为应用程序。人工智能已经改变了我们编写计算机程序的方式。有了像Copilot和ChatGPT这样的工具,你可以用简单的英语描述你想要…

【docker】Docker的基本指令和HTML/PYTHON/C++的简单创建示例

目录 🌊1. 什么是 Docker? 🌊2. Docker 安装 🌊3. Docker基本指令 🌊4. Docker 创建示例【联网情况】 🌍4.1 示例:HTML 🌍4.2 示例:Python 脚本 🌍4.3…

四信云-设备维保管理系统上线,实现设备全生命周期管理

在当今的制造业中,设备是企业生产的核心要素,是企业竞争力的基石。 随着企业发展规模不断扩大,设备数量急速增长,传统的手工管理方式已经无法满足企业需求,设备管理系统的出现则填补了市场需求空白,其目标…

5-21作业

流式域套接字 服务器端实现 #include <stdio.h> #include <unistd.h> #include <stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <pthread.h> #include <semaphore.h> #include <…

【运维项目经历|015】:Nginx Web服务性能提升与优化项目

目录 项目名称 项目背景 项目目标 项目成果 我的角色与职责 我主要完成的工作内容 本次项目涉及的技术 本次项目遇到的问题与解决方法 本次项目中可能被面试官问到的技术性问题 问题1&#xff1a;本次项目的人员配置&#xff1f; 问题2&#xff1a;本次项目的周期&am…

PX4使用yolo仿真环境搭建

文章目录 前言一、修改机架sdf文件二、安装yolo三、运行 前言 ubuntu20.04 PX4 1.13.3 已配置好PX4 ROS gazebo环境 一、修改机架sdf文件 将双目相机加到仿真的iris机架上 修改下图文件 添加如下&#xff1a; <include><uri>model://stereo_camera</uri>…

tensorrt输出结果为nan的解决方案

系统环境&#xff1a; ubuntu20.04 python3.9 cuda11.8 cudnn8.9.7.29 torch1.13.1cu117&#xff08;pip install torch1.13.1&#xff09; 1.针对cuda版本查了一下trt支持版本&#xff0c;发现V10和V8版本都支持 本着用新不用旧标准&#xff0c;果断下载了8.6&#xff0c…

iptables+SNAT+DNAT

一、Linux包过滤防火墙概述 主要工作在网络层&#xff0c;针对IP数据包&#xff0c;体现在对包内的IP地址、端口、协议等信息的处理上 以下两种称呼都可以表示Linux防火墙 netfilter 位于Linux内核中的包过滤功能体系 成为Linux防火墙的“内核态” 是内核的一部分&#xff0…

誉天Linux云计算架构师就业班要学习哪些内容?

课程设计思路&#xff1a; 根据十多年来毕业学员的就业和反馈&#xff0c;对数百名学员的就业回访;Linux运维&#xff0c;云计算&#xff0c;高并发&#xff0c;分布式&#xff0c;容器&#xff0c;云原生&#xff0c;自动化等是目前市场上就业情况最好&#xff0c;需求量最大&…

SQL查询-电商数据案例

假设我们现在需要是某电商平台数据分析&#xff0c;由于业务需要&#xff0c;需要用sql取数 包括&#xff0c;Python连接数据库到模拟电商数据库&#xff0c;到sql场景查询 1,Python连接SQL数据库 以下是使用Python连接MySQL数据库并进行操作的示例代码&#xff1a; import…

【python】python 全国5A级景区数据采集与pyecharts可视化(源码+数据+论文)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

Liunx上安装MySQL

该文章是介绍的是 Ubuntu 操作系统&#xff0c;如果有使用 CentOS 的小伙伴不会的话可以私信我~ 1. 查找安装包 apt list |grep "mysql-server" 2. 安装mysql sudo apt install mysql-server 注意&#xff1a;安装的到最后一步会问你是否继续&#xff0c;输入y / Y就…

python内存马学习

python内存马学习 python内存马学习 python内存马学习环境搭建和复现分析payloadFlask 请求上下文管理机制bypass高版本flask内存马的利用before_request**after_request** teardown_requesterrorhandler相关例题H&NCTF 2024 ezFlask python内存马 环境搭建和复现 from fl…

SQL问题的常用信息收集命令及解决思路 |OceanBase应用实践

面对SQL问题&#xff0c;大家的常用的分析思路是&#xff1a; 一、问题是否源于SQL本身&#xff1f;是的话需进行SQL调优。 二、SQL语句本身无误&#xff0c;但执行效果并未达到我们的预期效果。 检查当前的服务器负载状况&#xff0c;例如CPU利用率、内存占用、IO读写等关键…

图书管理系统——java基础(源码)后续引入数据库,Swing程序设计,支持关注!后续更新……

学了java想要练手&#xff0c;图书管理系统这个项目非常适合你 项目需求大体想法&#xff1a; 能够查看书籍&#xff0c;借阅书籍&#xff0c;打印书籍等功能。输出姓名后能进入为普通用户模式或者管理员模式。 各类包之间协同合作之间关系讲解。 做这个项目的始终是为了对…

新疆 | 金石商砼效率革命背后的逻辑

走进标杆企业&#xff0c;感受名企力量&#xff0c;探寻学习优秀企业领先之道。 本期要跟砼行们推介的标杆企业是新疆砼行业的龙头企业&#xff1a;新疆兵团建工金石商品混凝土有限责任公司&#xff08;以下简称&#xff1a;新疆金石&#xff09;。 从年产80万方到120万方&am…

计算机图形学入门03:基本变换

变换(Transformation)可分为模型(Model)变换和视图(Viewing)变换。在3D虚拟场景中相机的移动和旋转&#xff0c;角色人物动画都需要变换&#xff0c;用来描述物体运动。将三维世界投影变换到2D屏幕上成像出来&#xff0c;也需要变换。 1.二维变换 1.1缩放变换 如上图所示&…

自动化测试-ddt数据驱动yaml文件实战(详细)

前言 ddt 驱动 yaml/yml 文件来实现数据驱动测试 ddt.file_data&#xff1a;装饰测试方法&#xff0c;参数是文件名。文件可以是 json 或者 yaml 类型。 注意&#xff1a;如果文件是以 “.yml”或者".yaml" 结尾&#xff0c;ddt 会作为 yaml 类型处理&#xff0c;…

期权与股票在交易上是有什么区别吗?

国内的股票市场&#xff0c;只能做多&#xff0c;T1交易。期权则分为4个方向&#xff0c;买入看涨期权&#xff0c;买入看跌期权&#xff0c;也就是做多和做空T0双向交易&#xff0c;同时每个方向还区分不同的行权价&#xff0c;每个行权价对应的4个方向的期权&#xff0c;都有…

精通推荐算法6:用户行为序列建模 -- 总体架构

1 行为序列建模技术架构 身处目前这个信息爆炸的时代&#xff0c;用户在各推荐场景上有丰富的行为序列。将行为序列特征引入推荐算法中&#xff0c;有利于丰富特征工程体系、获得更立体和更全面的信息&#xff0c;同时可以表达用户兴趣演化过程&#xff0c;并捕获用户实时兴趣…