文章目录
- 内存、带宽、时延:尽可能提高算力的利用率!
- AI 芯片基础
内存、带宽、时延:尽可能提高算力的利用率!
CPU计算本质:数据如何传输【AI芯片】芯片基础03
横坐标:算力敏感度,每次操作能执行多少数据
纵坐标:性能,每秒能执行多少操作
FLOPS(Floating Point Operations per Second,每秒浮点运算的次数)是衡量计算机性能的一个重要指标,用于描述计算机在单位时间内能够执行的浮点运算数量。FLOPS通常用来评估高性能计算系统(如超级计算机、GPU等)的计算能力。
FLOPS 的单位:
GFLOPS:每秒十亿次浮点运算(Giga-FLOPS,10^9 FLOPS)
TFLOPS:每秒万亿次浮点运算(Tera-FLOPS,10^12 FLOPS)
PFLOPS:每秒千万亿次浮点运算(Peta-FLOPS,10^15 FLOPS)
EFLOPS:每秒百亿亿次浮点运算(Exa-FLOPS,10^18 FLOPS)
——————
现在是算力过剩,数据来不及提供!
CPU大概每秒钟能够进行2万亿次(2000GFlops)的双精度的运算(Flops64 FP64)
每个FP64是8个字节(64bit)
内存每秒传输 200G 的字节Byte,就是 25Giga-FP64 的数值
这个数值对于内存来说,就是每秒能够提供250亿个FP64的数据
但是CPU每秒能够处理2万亿个FP64的数据(2000GFlops)
2000亿FP64的数据/s / 250亿FP64的数据/s = 80
就需要计算强度来维持整体的平衡,也就是说要对每个数据进行80次计算操作,
否则PE、CPU、PU就会处于空闲、等待的状态
如果你的数据不需要CPU对其进行每次80次的操作,可以买一个更低的 flops 的 cpu 价格也更低!
当FLOP的计算的速度的增加,比内存带宽 速度增加更快的时候,计算强度就会上升
算力过剩,带宽太低!
就需要在程序算法上,做出一些创新,来尽可能的去提升算力的利用率
AI 芯片基础
AI芯片技术基础【AI芯片】芯片基础06
(1)CPU 大部分的工作都是在做一个控制,里面占据了芯片面积的大部分,而里面的计算单元(ALU)其实并不多,经常谈到的4核 8核,到现在的32核,它的核数还是非常的少的
(2)GPU 里面的SM数,里面的计算单元就有3000个,非常的夸张,而里面的控制单元反而很少
(3)NPU 是以AI Core、Tensor Core进行加速的 (专门用来加速神经网络里面的卷积、transformer等计算)
问界M7的智能驾驶系统主要依赖于车载芯片进行计算,而不是依赖远程数据中心。
(1)问界M7的智能驾驶系统配备了华为的 MDC 610芯片,其算力为200TOPS。
(2)此外,车辆还搭载了麒麟990A芯片,用于支持智能座舱和部分智能驾驶功能。