【大厂AI课学习笔记NO.71】AI算力芯片GPU/TPU等

AI算力芯片的发展历程

人工智能(AI)算力芯片的发展历程紧密地跟随着AI技术的发展脚步。从早期的基于传统中央处理器(CPU)的计算,到图形处理器(GPU)的广泛应用,再到专门为AI设计的处理器如神经处理单元(NPU)和张量处理单元(TPU)的出现,AI算力芯片不断演进,以满足日益增长的计算需求。

一、早期基于CPU的计算

在AI技术发展的初期,大部分的计算任务都是由CPU来完成的。CPU是计算机的核心部件,负责执行程序的指令,进行数据的处理和存储。然而,CPU的设计初衷是为了处理通用的计算任务,而不是针对AI中大量并行的矩阵运算进行优化。因此,在使用CPU进行AI计算时,往往会遇到计算效率低下的问题。

二、GPU的崛起

随着AI技术的快速发展,尤其是深度学习的兴起,对计算能力的需求急剧增加。GPU由于其并行处理的能力,逐渐在AI计算领域崭露头角。GPU最初是为了加速图形渲染而设计的,但其高度并行的架构也非常适合进行大规模的矩阵运算,这使得GPU成为深度学习训练的首选硬件。

三、专门为AI设计的处理器

尽管GPU在AI计算中表现出色,但人们仍在探索更加高效、更加专用的AI算力芯片。于是,NPU和TPU等专门为AI设计的处理器应运而生。

NPU(神经处理单元)是一种专门为神经网络计算设计的处理器。它通过对神经网络算法进行硬件级别的优化,实现了更高的计算效率和更低的功耗。NPU的出现极大地推动了边缘计算和移动设备上AI应用的发展。

TPU(张量处理单元)则是谷歌开发的一种专门为深度学习设计的定制芯片。TPU通过优化深度学习中常见的张量运算,实现了比传统硬件更高的计算性能和能效比。TPU在谷歌的云服务中得到了广泛应用,为大规模深度学习训练提供了强大的支持。

CPU、GPU、NPU、TPU的定义、原理、特性、优势、场景及异同点

1. CPU(中央处理器)

定义:CPU是电子计算机的主要设备之一,是计算机中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。

原理:CPU从存储器或高速缓冲存储器中取出指令,放入指令寄存器,并对指令译码。它把指令分解成一系列的微操作,然后发出各种控制命令,执行微操作系列,从而完成一条指令的执行。

特性:通用性强,能执行多种类型的计算任务;但并行处理能力相对较弱。

优势:适用于复杂的逻辑控制和通用计算任务。

场景:日常办公、网页浏览等通用计算场景。

2. GPU(图形处理器)

定义:GPU是一种专门在个人电脑、工作站、游戏机和一些移动设备上进行图像运算工作的微处理器。

原理:GPU采用并行架构,拥有成百上千个核心,可以同时处理多个任务。它特别适合于处理大量的浮点运算和并行数据。

特性:并行处理能力强,适合进行大规模矩阵运算;功耗相对较高。

优势:在深度学习训练、游戏图形渲染等需要大量并行计算的场景中表现出色。

场景:深度学习训练、游戏、图形渲染等。

3. NPU(神经处理单元)

定义:NPU是一种专门为神经网络计算设计的处理器,通过对神经网络算法进行硬件级别的优化来实现高效计算。

原理:NPU采用针对神经网络优化的架构和指令集,能够高效执行神经网络中的各种运算,如卷积、池化等。

特性:高度优化神经网络计算,低功耗,适合移动设备和边缘计算场景。

优势:在神经网络推理任务中提供极高的性能和能效比。

场景:智能手机、无人机、自动驾驶汽车等边缘计算场景。

4. TPU(张量处理单元)

定义:TPU是一种专门为深度学习设计的定制芯片,通过优化深度学习中常见的张量运算来实现高性能计算。

原理:TPU采用针对张量运算优化的架构和指令集,能够高效执行深度学习中的矩阵乘法和卷积等运算。

特性:专门为深度学习优化,高性能和高能效比;但通用性相对较弱。

优势:在大规模深度学习训练和推理任务中提供卓越的性能。

场景:云服务、数据中心等需要进行大规模深度学习计算的场景。

异同点

  • 相同点:CPU、GPU、NPU和TPU都是用于计算的处理器,它们都能执行计算任务,只是优化的方向和适用的场景不同。
  • 不同点:CPU是通用处理器,适用于各种计算任务;GPU擅长并行处理,适合大规模矩阵运算;NPU专门为神经网络优化,适合神经网络推理任务;TPU则专门为深度学习优化,适合大规模深度学习训练和推理。在性能和功耗方面,CPU通常性能较低但功耗较高;GPU性能较高但功耗也相对较高;NPU和TPU则针对特定任务进行了优化,实现了高性能和低功耗的平衡。

总结一下,就是:

  • 算力
    • CPU:算力相对较低,因为其设计初衷是为了处理通用的计算任务,而不是针对AI中大量并行的矩阵运算进行优化。
    • GPU:算力较高,由于其并行处理的能力,使得它在大规模矩阵运算方面表现出色,适用于深度学习训练等计算密集型任务。
    • NPU:专门为神经网络计算设计的处理器,通过对神经网络算法进行硬件级别的优化,实现了更高的计算效率。
    • TPU:专门为深度学习设计的定制芯片,通过优化深度学习中常见的张量运算,实现了比传统硬件更高的计算性能。
  • 功耗
    • CPU:功耗相对较高,因为其需要处理各种复杂的逻辑控制和通用计算任务。
    • GPU:功耗也相对较高,尤其在进行大规模并行计算时,需要消耗大量的电力。
    • NPU:功耗较低,因为它专门针对神经网络进行了优化,实现了更高的能效比。
    • TPU:功耗相对较低,因为它是专门为深度学习设计的,能够在保证性能的同时降低功耗。

由于不同芯片在设计和制造上的差异,以及任务类型的不同,很难给出一个具体的倍数关系来描述它们之间算力和功耗的对比。但是一般来说,在相同任务下,专门为AI设计的处理器(如NPU和TPU)往往能够在保证性能的同时实现更低的功耗。而CPU和GPU则可能在某些任务下表现出更高的功耗。

这里要注意的是:(考点)

GPU无法单独工作,必须由CPU进行控制和调用。

CPU擅长复杂的逻辑运算和数据格式,GPU浮点运算能力不断直线上升。

NPU视频,多媒体数据。

TPU张量处理单元,30-80倍效率提升。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/447081.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

01_electron入门

由于毕业论文可能需要用 electron,所以 Linux 驱动学习慢了下来。 一、安装 node.js 进入 node.js 官网:Node.js (nodejs.org) 咱们就是用稳定版,安装包除了安装路径自己选择外,一直点 Next。 安装完成后需要配置环境&#xff0c…

C++容器适配器stack、queue、priority_queue

文章目录 C容器适配器stack、queue、priority_queue1、stack1.1、stack的介绍1.2、stack的使用1.3、stack的模拟实现 2、queue2.1、queue的介绍2.2、queue的使用2.3、queue的模拟实现 3、priority_queue3.1、priority_queue的介绍3.2、priority_queue的使用3.3、仿函数3.4、pri…

Vue3+ts(day02:CompositionAPI、setup)

学习源码可以看我的个人前端学习笔记 (github.com):qdxzw/frontlearningNotes 觉得有帮助的同学,可以点心心支持一下哈(笔记是根据b站上学习的尚硅谷的前端视频【张天禹老师】,记录一下学习笔记,用于自己复盘,有需要学…

Linux——信号

目录 什么是信号 Linux下的信号 信号的记录 信号处理的常见方式 产生信号 使用组合键产生信号(包含core dump) 使用系统调用向进程发送信号 由软件条件产生信号 由硬件异常产生信号 阻塞信号 内核表示 sigset_t 信号集操作函数 sigpendin…

基于粒子群(PSO)的PID控制器matlab仿真

算法实现简介 利用粒子群算法对 PID 控制器的参数进行优化设计,其过程如图 所示。 图中,粒子群算法与 Simulink 模型之间连接的桥梁是粒子(即 PID 控制器参数)和该粒子对应的适 应值(即控制系统的性能指标&#xff09…

商家转账到零钱场景申请哪一个

商家转账到零钱是什么? 商家转账到零钱功能是指商家可以通过支付平台将资金直接转账到用户的零钱账户中。在这种情况下,商家不需要用户提供银行账户信息,而是使用支付平台的转账功能将资金直接转移到用户的零钱账户中。 商家转账到零钱的使…

什么是脚本语言?——跟老吕学Python编程

什么是脚本语言?——跟老吕学Python编程 脚本语言脚本语言概述脚本语言定义脚本语言简介脚本语言特点 脚本语言特点脚本语言优点脚本语言缺点 脚本语言应用和发展脚本语言应用脚本语言发展情况 脚本语言分类工作控制语言和ShellGUI脚本应用程序定制的脚本语言WEB编程…

储能系统--户用储能美洲市场(三)

2、美洲市场 2.1、美国户储发展驱动力 (1)电网老化带来配储需求,户用光储成家庭第二用电保障 美国大部分电网建于20世纪60和70年代,超70%以上的输电系统已经超过了25年,在高负荷运转或者外部环境承压时,…

深入理解MVC和MVVM:构建现代Web应用的利器

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

C语言笔记:类型、运算符与表达式

类型与变量 概念 类型是定义变量的,什么是类型,例如张三是一个人,张三就是变量而人就是类型,什么是变量就是用来存储数据的,为什么变量会分为很多类型,因为存储的数据类型不同,需要不容的类型来…

LVS集群(Linux Virtual server)

集群概念lvs模型lvs调度算法lvs实现lvs高可用性,负载均衡 1 集群和分布式 系统性能扩展方式: Scale UP:垂直扩展,向上扩展,增强,性能更强的计算机运行同样的服务 升级单机的硬件设备Scale Out:水平扩展…

C++的一些基础语法

前言: 本篇将结束c的一些基础的语法,方便在以后的博客中出现,后续的一些语法将在涉及到其它的内容需要用到的时候具体展开介绍;其次,我们需要知道c是建立在c的基础上的,所以c的大部分语法都能用在c上。 1.…

妇女节:打开AI视界,成就“她力量”

根据国内招聘平台猎聘发布的《2024女性人才数据洞察报告》,从2023年3月到2024年2月,女性在AIGC领域的求职人次同比增长了190.49%。随着人工智能时代的降临,女性正以前所未有的姿态,在技术的助力下,蜕变成为新生的力量。…

STM32电源及时钟介绍

一、STM32最小系统 二、电源电路 2.1供电电压VDD,VSS F103VET6 的引角图 在 F103VET6 的引角图中可找到 49\50 角, 74\75 角, 99\100 角, 27\28角,10 \11角一共 5 对的VDD,VSS,也就是给我们芯片…

鸿蒙开发学习入门教程之环境配置

最近鸿蒙开发越来越火,各个大厂都有鸿蒙版本的计划和宣传,看这个趋势,可能会在几年内发展壮大,为我们移动端码农开辟一片新的职场。所以现在开始学起来还是很有必要的。今天就一起开始配置环境搞起来吧。 首先,找到官…

高级语言讲义2010软专(仅高级语言部分)

1.编写一程序&#xff0c;对输入的正整数&#xff0c;求他的约数和。 如&#xff1a;18的约数和为1236939 #include <stdio.h>int getsum(int n){int i,sum0;for(i1;i<n;i)if(n%i0)sumi;return sum; } int main(){int sum getsum(18);printf("%d",sum); …

ERP实施顾问面试题目

02什么是BOM和ECN&#xff1f;它们的完整英文拼写是什么&#xff1f;什么是替代料&#xff1f;&#xff08;10分&#xff09; BOM物料清单是英文Bill of Material的简写&#xff1b;ECN工程变更通知单是英文Engineering Change Notice的简写&#xff1b;替代料&#xff1a;由于…

CPP编程-CPP11中的内存管理策略模型与名称空间管理探幽(时隔一年,再谈C++抽象内存模型)

CPP编程-CPP11中的内存管理策略模型与名称空间管理探幽 CPP的四大内存分区模型 在 C 中&#xff0c;**内存分区是一种模型&#xff0c;用于描述程序运行时内存的逻辑组织方式&#xff0c;但在底层操作系统中&#xff0c;并不存在严格意义上的内存分区。**操作系统通常将内存分…

08 数据结构之查找-Hash、二分、顺序

引言&#xff1a; 实现链式哈希的代码 /* 质数&#xff1a; 对于大于1的正自然数&#xff0c; 处理1和它本身别的数都无法整除它&#xff0c; 这个数就是质数 hash函数的确定&#xff1a; α(质量因子) 0.7-0.8比较合适 m&#xff1a;存储数据的真实个数 n&#xff1a;存储空…

H264解码器实现-帧间预测

前言 本文所说的帧间预测是指根据当前预测块的MV向量和预测所需的参考块数据&#xff0c;计算出当前预测块的预测像素值的过程。该过程得到的预测像素值经过运动补偿后&#xff08;与反变换量化之后得到的残差像素值相加&#xff09;可以得到滤波前的重建像素值。 原理说明 …