CPU、GPU、NPU

文章目录

    • 内存、带宽、时延:尽可能提高算力的利用率!
    • AI 芯片基础

内存、带宽、时延:尽可能提高算力的利用率!

CPU计算本质:数据如何传输【AI芯片】芯片基础03

横坐标:算力敏感度,每次操作能执行多少数据
纵坐标:性能,每秒能执行多少操作

在这里插入图片描述

在这里插入图片描述

FLOPS(Floating Point Operations per Second,每秒浮点运算的次数)是衡量计算机性能的一个重要指标,用于描述计算机在单位时间内能够执行的浮点运算数量。FLOPS通常用来评估高性能计算系统(如超级计算机、GPU等)的计算能力。
FLOPS 的单位:
GFLOPS:每秒十亿次浮点运算(Giga-FLOPS,10^9 FLOPS)
TFLOPS:每秒万亿次浮点运算(Tera-FLOPS,10^12 FLOPS)
PFLOPS:每秒千万亿次浮点运算(Peta-FLOPS,10^15 FLOPS)
EFLOPS:每秒百亿亿次浮点运算(Exa-FLOPS,10^18 FLOPS)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
——————
现在是算力过剩,数据来不及提供!

在这里插入图片描述

CPU大概每秒钟能够进行2万亿次(2000GFlops)的双精度的运算(Flops64 FP64)
每个FP64是8个字节(64bit)
内存每秒传输 200G 的字节Byte,就是 25Giga-FP64 的数值
这个数值对于内存来说,就是每秒能够提供250亿个FP64的数据
但是CPU每秒能够处理2万亿个FP64的数据(2000GFlops)

2000亿FP64的数据/s / 250亿FP64的数据/s = 80
就需要计算强度来维持整体的平衡,也就是说要对每个数据进行80次计算操作,
否则PE、CPU、PU就会处于空闲、等待的状态

如果你的数据不需要CPU对其进行每次80次的操作,可以买一个更低的 flops 的 cpu 价格也更低!

在这里插入图片描述

在这里插入图片描述

当FLOP的计算的速度的增加,比内存带宽 速度增加更快的时候,计算强度就会上升
算力过剩,带宽太低!

就需要在程序算法上,做出一些创新,来尽可能的去提升算力的利用率


AI 芯片基础

AI芯片技术基础【AI芯片】芯片基础06

在这里插入图片描述
(1)CPU 大部分的工作都是在做一个控制,里面占据了芯片面积的大部分,而里面的计算单元(ALU)其实并不多,经常谈到的4核 8核,到现在的32核,它的核数还是非常的少的
(2)GPU 里面的SM数,里面的计算单元就有3000个,非常的夸张,而里面的控制单元反而很少
(3)NPU 是以AI Core、Tensor Core进行加速的 (专门用来加速神经网络里面的卷积、transformer等计算)

在这里插入图片描述
在这里插入图片描述

问界M7的智能驾驶系统主要依赖于车载芯片进行计算,而不是依赖远程数据中心。
(1)问界M7的智能驾驶系统配备了华为的 MDC 610芯片,其算力为200TOPS。
(2)此外,车辆还搭载了麒麟990A芯片,用于支持智能座舱和部分智能驾驶功能。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962467.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

11.QT控件:输入类控件

1. Line Edit(单行输入框) QLineEdit表示单行输入框,用来输入一段文本,但是不能换行。 核心属性: 核心信号: 2. Text Edit(多行输入框) QTextEdit表示多行输入框,也是一个富文本 & markdown编辑器。并且能在内容超…

蓝桥杯刷题DAY1:前缀和

所谓刷题,讲究的就是细心 帕鲁服务器崩坏【算法赛】 “那个帕鲁我已经观察你很久了,我对你是有些失望的,进了这个营地,不是把事情做好就可以的,你需要有体系化思考的能力。” 《幻兽帕鲁》火遍全网,成为…

【Proteus仿真】【51单片机】简易计算器系统设计

目录 一、主要功能 二、使用步骤 三、硬件资源 四、软件设计 五、实验现象 联系作者 一、主要功能 1、LCD1602液晶显示 2、矩阵按键​ 3、可以进行简单的加减乘除运算 4、最大 9999*9999 二、使用步骤 系统运行后,LCD1602显示数据,通过矩阵按键…

Office / WPS 公式、Mathtype 公式输入花体字、空心字

注:引文主要看注意事项。 1、Office / WPS 公式中字体转换 花体字 字体选择 “Eulid Math One” 空心字 字体选择 “Eulid Math Two” 使用空心字时,一般不用斜体,取消勾选 “斜体”。 2、Mathtype 公式输入花体字、空心字 2.1 直接输…

Baklib对比其他知识管理工具的优势及应用效果全面分析

内容概要 Baklib知识中台作为一种集成化的数字化平台,其核心功能围绕知识的高效管理、共享以及运用展开。这一平台不仅为企业提供了统一的知识管理架构,还依托智能化技术,使得组织内外的知识资源能够实现流畅的交互与利用。通过Baklib&#…

python:洛伦兹变换

洛伦兹变换(Lorentz transformations)是相对论中的一个重要概念,特别是在讨论时空的变换时非常重要。在四维时空的背景下,洛伦兹变换描述了在不同惯性参考系之间如何变换时间和空间坐标。在狭义相对论中,洛伦兹变换通常…

Janus-Pro 论文解读:DeepSeek 如何重塑多模态技术格局

Janus-Pro:多模态领域的璀璨新星——技术解读与深度剖析 一、引言 在人工智能的浩瀚星空中,多模态理解与生成模型犹如耀眼的星座,不断推动着技术边界的拓展。Janus-Pro作为这一领域的新兴力量,以其卓越的性能和创新的架构&#x…

稀疏混合专家架构语言模型(MoE)

注:本文为 “稀疏混合专家架构语言模型(MoE)” 相关文章合辑。 手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE) 机器之心 2024年02月11日 12:21 河南 选自huggingface 机器之心编译 机器之心…

被裁与人生的意义--春节随想

还有两个月就要被迫离开工作了十多年的公司了,不过有幸安安稳稳的过了一个春节,很知足! 我是最后一批要离开的,一百多号同事都没“活到”蛇年。看着一批批仁人志士被“秋后斩首”,马上轮到我们十来个,个中滋味很难言清…

AVL搜索树

一、介绍 高度平衡的搜索二叉树,保证每个节点的左右子树高度差不超过1,降低搜索树的高度以提高搜索效率。 通过平衡因子和旋转来保证左右子树高度差不超过1 二、插入节点 1、插入规则 (1)搜按索树规则插入节点 (…

unity导入图片素材注意点和AI寻路模块导入

当我们导入了图片资源,我们需要设置为Sprite类型 UI资源的位置通常是Rect Transform 要进行转化: (imgHP.transform as RectTransform).sizeDelta new Vector2((float)hp / maxHP * hpW,74); RectTransform 是Unity中用于UI元素的特殊变换组件&#…

中国网络安全产业分析报告

网络安全是总体国家安全观的重要组成部分,切实维护网络空间安全,筑牢国家网络安全屏障,已成为关系我国发展全局的重大战略任务。近年来,我国网信相关部门深入推进网络安全治理,网络安全政策法规体系更加健全&#xff0…

kimi,天工,gpt,deepseek效果对比

偶然间碰到的这个问题,这个问题感觉有点意思,他不是定义性的问题,而是不同概念之间的区别对比,我觉得这个效果立竿见影,一看就能看出来回答问题水平的层次。 单纯这个问题的答案,deepseek远超gpt&#xff…

Github 2025-01-30 Go开源项目日报 Top10

根据Github Trendings的统计,今日(2025-01-30统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Go项目10Ollama: 本地大型语言模型设置与运行 创建周期:248 天开发语言:Go协议类型:MIT LicenseStar数量:42421 个Fork数量:2724 次关注人…

MySQL查询优化(三):深度解读 MySQL客户端和服务端协议

如果需要从 MySQL 服务端获得很高的性能,最佳的方式就是花时间研究 MySQL 优化和执行查询的机制。一旦理解了这些,大部分的查询优化是有据可循的,从而使得整个查询优化的过程更有逻辑性。下图展示了 MySQL 执行查询的过程: 客户端…

【4Day创客实践入门教程】Day3 实战演练——桌面迷你番茄钟

Day3 实战演练——桌面迷你番茄钟 目录 Day3 实战演练——桌面迷你番茄钟1. 选择、准备元件、收集资料2. 硬件搭建3.编写代码 Day0 创想启程——课程与项目预览Day1 工具箱构建——开发环境的构建Day2 探秘微控制器——单片机与MicroPython初步Day3 实战演练——桌面迷你番茄钟…

leetcode 2300. 咒语和药水的成功对数

题目如下 数据范围 示例 注意到n和m的长度最长达到10的5次方所以时间复杂度为n方的必然超时。 因为题目要求我们返回每个位置的spell对应的有效对数所以我们只需要找到第一个有效的药水就行,这里可以先对potions排序随后使用二分查找把时间复杂度压到nlogn就不会…

Android Studio 正式版 10 周年回顾,承载 Androider 的峥嵘十年

Android Studio 1.0 宣发于 2014 年 12 月,而现在时间来到 2025 ,不知不觉间 Android Studio 已经陪伴 Androider 走过十年历程。 Android Studio 10 周年,也代表着了我的职业生涯也超十年,现在回想起来依然觉得「唏嘘」&#xff…

互斥锁/信号量实现5个线程同步

互斥锁 实现同步 互斥锁保证在同一时刻,只有一个线程可以访问共享资源,从而实现了线程同步。 思路 1 创建互斥锁(1个) pthread_mutex_t mutex; 2 初始化互斥锁 所有线程开始执行前,pthread_mutex_init(&mutex, …

WordPress Web Directory Free插件本地包含漏洞复现(附脚本)(CVE-2024-3673)

免责申明: 本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权,请及时与我们联系,我们将…