AI算力专题:华为算力分拆:全球AI算力的第二极

今天分享的是AI算力系列深度研究报告:《AI算力专题:华为算力分拆:全球AI算力的第二极》。

(报告出品方:华西计算机团队)

报告共计:53

全球龙头英伟达业绩持续高度景气,印证全球AI产业趋势

 英伟达二季度业绩持续超预期,印证AI景气度:美东时间8月23日,英伟达公布2024财年第二财季季报。二季度营收135.07亿美元,同 比增长101%,远超市场预期的指引区间107.8亿到112.2亿美元,相较于华尔街预期水平高22%-29%以上。业绩指引方面,英伟达预计, 本季度、即2024财年第三财季营业收入为160亿美元,正负浮动2%,相当于指引范围在156.8亿到163.2亿美元之间。以160亿美元计 算,英伟达预期三季度营收将同比增长170%,连续两个季度翻倍增长,高于市场预期。

 AI芯片所在业务同环比均翻倍激增较市场预期高近30%,游戏业务同比重回增长: AI对英伟达业绩的贡献突出。包括AI显卡在内的英伟 达核心业务数据中心同样收入翻倍激增,二季度数据中心营业收入为103.2亿美元,同比增长171%,环比增长141%;二季度游戏营收 24.9亿美元,同比增长22%,环比增长11%,英伟达称,数据中心收入主要来自云服务商和大型消费类互联网公司。基于Hopper和A mpere 架构GPU的英伟达HGX平台之所以强劲需求,主要源于开发生成式AI和大语言模型的推动。

英伟达三大AI法宝

高性能芯片,其中IC设计是重点

 全球高端GPU领导者,经数十代产品迭代,技术指标全面升级。从2011年英伟达推出Tesla M2090数据中心GPU,到2022年H100、 L40等型号产品,多项核心技术指标大幅提升。其中,CUDA作为GPU内部主要的计算单元,从512个升级到超14000个;芯片工艺尺 寸也从40nm降至4nm;单精度浮点算力从1332GFLOPS增至超50TFLOPS。GPU产品性能整体大幅跃升。

 推出Grace系列,加速大型 AI、HPC、云和超大规模工作负载。2022年公司发布首款CPU产品Grace,用于高性能计算和云计算。 Grace CPU超级芯片采用NVLink®-C2C 技术,可提供 144 个 Arm®Neoverse V2 核心和 1 TB/s 的内存带宽,每瓦性能是当今领先 CPU的 2 倍。此外,公司还推出的Grace Hopper超级芯片将 Grace 和 Hopper 架构相结合,为加速 AI 和高性能计算 (HPC) 应用提供 CPU+GPU 相结合的一致内存模型。

 2023年,英伟达发布多款AI超算产品,助力全球生态:其中包括DGX服务器、DGX GH200 AI超级计算机、AI foundations云服务等产 品,其中DGX GH AI超级计算机由NVIDIA GH200 Grace Hopper超级芯片和NVIDIA NVLink Switch System驱动,相比上一代将 NVLink带宽提升了48倍以上。

CUDA架构,助力AI加速计算生态

 GPU适用于处理大数据集,CUDA核是本质原因。最开始,GPU(图形处理单元)作为一种专用计算机处理器,可以满足实施高分辨率 3D图形计算密集型任务的需求。到2012年,由于GPU已经发展成为高度并行的多核系统,让它具备了处理大量数据的能力。简而言之, CPU做的专注线性计算,GPU做的是并行计算(数据之间没有直接关系),而本质的原因是CUDA核的不同,CUDA核越多,计算性能越 强,而GPU的CUDA核数是CPU的上百倍,如AMD EPYC 7003系列7763核心数为64个,而英伟达A100 40GB核心数为6912个。

 CUDA的本质是“软件定义硬件”,实现“软件调用硬件”。 CUDA是一种并行计算平台和应用程序编程接口(API),允许软件使用特 定类型的图形处理单元(GPU)进行通用目的的处理,称为通用图形处理单元计算(GPGPU)。CUDA提供了直接访问GPU虚拟指令集和并 行计算元素的软件层,用于执行计算内核。CUDA支持的GPU还可以使用编程框架,通过将代码编译为CUDA来使用HIP。CUDA将从 前多种不同的代码整合成了一气呵成的代码,这样极大的加快了开发模型的训练速度。可以简单理解,CUDA是英伟达实现软硬件适配 的一种“类编译器”,将软件的代码转换成硬件汇编代码,CUDA是英伟达实现软硬件生态的护城河。

 CUDA助力加速计算及深度学习:GPU通过图形应用程序的算法存在算法密集、高度并行、控制简单、分多个阶段执行等特征,英伟达 引入的CUDA使GPU超越了图形领域。同时,CUDA的框架和库可以充分发挥GPU的并行计算能力,提供高效的矩阵运算、卷积运算等 计算任务的实现,大大简化深度学习的编程工作,提高开发效率和代码质量。在经GPU加速的应用中,工作负载的串行部分在CPU上 运行,而应用的计算密集型部分则以并行方式在数千个GPU 核心上运行,能够大幅提升计算效率。目前NVIDIA H100 GPU的CUDA数 已达到14592个,远超AMD EPYC Genoa-X CPU的96个核心。

 CUDA生态合作者规模翻倍增长。根据英伟达2023财年年报,目前有400万名开发者正在与CUDA合作,而且规模还在不断扩大。英伟 达通过12年的时间达到200万名开发者,在过去的两年半里该数字翻了一番。目前CUDA的下载量已经超过了4000万次。

Nvlink、NVSwitch助力芯片快速互联互通

 速度更快、可扩展性更强的互连已成为当前的迫切需求: AI和高性能计算领域的计算需求不断增长,对于能够在每个GPU之间实现无缝 高速通信的多节点、多GPU系统的需求也在与日俱增。要打造功能强大且能够满足业务速度需求的端到端计算平台,可扩展的快速互 连必不可少。简而言之,随着模型复杂程度增加,单张GPU无法完成训练任务,需要联合多张GPU,乃至多台服务器搭建集群协同工 作,并需要GPU之间以及服务器之间进行数据传输交互。我们认为数据传输同样也是大模型算力集群能力的重要体现。

 英伟达推出NVLink技术代替传统的PCIe技术:第四代NVIDIA® NVLink® 技术可为多GPU系统配置提供高于以往1.5倍的带宽,以及增 强的可扩展性。单个 NVIDIA H100 Tensor Core GPU 支持多达18个NVLink 连接,总带宽为900GB/s,是PCIe 5.0带宽的7倍。NVIDIA DGX™ H100等服务器可利用这项技术来提高可扩展性,进而实现超快速的深度学习训练。

 NVSwitch与Nvlink协同互联,助力英伟达高速通信能力构建: NVSwitch是一种高速交换机技术,可以将多个 GPU 和 CPU 直接连接起 来,形成一个高性能计算系统。每个NVSwitch都有 64 个 NVLink 端口,并配有 NVIDIA SHARP™ 引擎,可用于网络内归约和组播加 速。

报告共计:53

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/366623.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

字符串的简单处理

第1题 ISBN号码 查看测评数据信息 每一本正式出版的图书都有一个ISBN号码与之对应,ISBN码包括9位数字、1位识别码和3位分隔符,其规定格式如“x-xxx-xxxxx-x”,其中符号“-”就是分隔符(键盘上的减号),最…

[css] 让文字进行竖着 分散对齐

.demo2 {width: 60px;background-color: aqua;height: 200px;display: grid;place-items: center;}参考: css 让文字进行竖着书写, 附带个小知识,行内块元素添加文字之后底部对不齐的问题

24.云原生之ArgoCD钩子

云原生专栏大纲 文章目录 Argo CD钩子如何定义钩子钩子删除策略 Argo CD钩子 Argo CD 是一个用于部署和管理 Kubernetes 应用程序的工具,它提供了一种声明式的方式来定义和自动化应用程序的部署过程。Argo CD 钩子(Hooks)是一种机制&#x…

朴素贝叶斯原理

朴素贝叶斯的介绍 朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的…

盘点Ubuntu上的那些必装软件-游戏篇

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、原生游戏1.纸牌2.扫雷3.数独4.麻将5.20486.国际象棋7.吃豆人8.围棋 二、Steam游戏1. CSGO&CS22.战争雷霆3.Dota24. 足球经理20185.文明66.地铁:离去7.完…

Linux:进程信号的概念与产生原理

文章目录 信号的概念实践信号关于前台和后台进程的操作 操作系统与外设信号的产生signal系统调用 前面的篇章结束了信号量的话题,那么接下来引入的是信号的话题,信号和信号量之间没有任何关系,只是名字比较像 信号的概念 在生活中存在各种各…

【C语言进阶篇】assert宏 使用详解

文章目录 一、assert简介 二、assert使用方法和规则 2.1 头文件 2.2 原型 2.3 功能 2.4 示例 2.5 assert的打开与关闭 三、注意事项 3.1 运行效率问题 3.2 assert只适用于调试版本 3.3 资源释放与清理 3.4 过度依赖 四、总结 个人主页: 倔强的石头的…

web前端开发--------阴影与转换

1.阴影分为文本阴影和盒子阴影 我们使用text-shadow属性为文本添加阴影效果,使用结构伪类为第一个子元素p添加阴影效果; 水平偏移量为负值时,表示阴影向左偏移; 垂直偏移量为负值时,表示阴影向上偏移。 …

【PaddleSpeech】语音合成-男声

环境安装 系统:Ubuntu > 16.04 源码下载 使用apt安装 build-essential sudo apt install build-essential 克隆 PaddleSpeech 仓库 # github下载 git clone https://github.com/PaddlePaddle/PaddleSpeech.git # 也可以从gitee下载 git clone https://gite…

龙芯--自主架构先驱者

🛑 这是ren_dong的第23篇原创 1、概述 自主可控最高的 MIPS 架构 CPU 龙芯是我国最早研制的高性能通用处理器系列,拥有 MIPS 指令的永久授权,并拓展出了自己的指令集loong ISA。龙芯采用自主 Loong ISA 指令系统,兼容 MIPS 指令&a…

C语言——标准输出函数(printf、putchar和puts)

目录 1. 标准输入输函数出头文件2. printf2.1 函数申明2.2 基本用法2.3 占位符2.4 输出格式2.4.1 限定宽度2.4.2 总是显示正负号2.4.3 限定小数位数2.4.4 输出部分字符串 3. putchar3.1 函数申明3.2 基本用法 4. puts4.1 函数申明4.2 基本用法 1. 标准输入输函数出头文件 #inc…

由反射引出的Java动态代理与静态代理

写在开头 在《深入剖析Java中的反射,由浅入深,层层剥离!》这篇文章中我们讲反射时,曾提到过Java的动态代理中使用了反射技术,那么好,今天我们要就着反射的索引,来学习一下Java中的代理&#xf…

不下载任何插件和依赖,在线导出swagger的api接口文档(word)

一、前言 swagger是一个非常方便用来生成api的工具集,它提供了可视化的restful风格的web界面,方便查看生成的api。 但是,想要将swagger生成的api直接导出为doc文档, 似乎不太方便实现,解析swagger的json串,…

空间计算时代加速到来,需要的不只是苹果

近年来,科技行业一直在期待“寒武纪”时刻。伴随技术革命的深入推进,所有厂商都预感新的时代即将到来,并期待自己成为那个引爆点,轻轻一触,推开一扇新的未来之门。 今年开年,苹果就为科技圈锚定了一个可能…

C#拆分字符串,正则表达式Regex.Split 方法 vs String.Split 方法

目录 一、使用的方法 1.使用Split(String, String)方法 2.String.Split 方法 二、源代码 1.源码 2.生成效果 使用正则表达式可以拆分指定的字符串。同样地,使用字符串对象的Split方法也可以实现此功能。使用字符串对象的Split方法可以根据用户选择的拆分条件&…

PythonWeb框架库之fastapi使用详解

概要 Python是一门广受欢迎的编程语言,用于构建各种类型的Web应用程序。FastAPI是一个现代、高性能的Web框架,它以简单的方式提供了快速构建API的能力。本文将介绍FastAPI的各种功能和用法,并提供丰富的示例代码,帮助大家开始使用…

帮管客CRM 文件上传漏洞

免责声明:文章来源互联网收集整理,请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该…

指针+一维整型数组的基本运用 和 指针+一维整型数组的初步学习

一,调式程序的技巧: 1.明确问题 2.定位问题 3.加打印(打印核心数据0) 二,指针的回顾 1.指针的概念:指针就是地址(内存单元的编号),是一个数据类型(指针类型…

使用 Dockerfile 定制镜像详解

使用 Dockerfile 定制镜像详解 1.DockerfileFROM 指定基础镜像RUN 执行命令构建镜像 2.COPY 复制文件3.ADD 更高级的复制文件4.CMD 容器启动命令5.ENTRYPOINT 入口点6.ENV 设置环境变量7.ARG 构建参数8.VOLUME 定义匿名卷9.EXPOSE 暴露端口10.WORKDIR 指定工作目录11.USER 指定…

【Django】如何设置支持多语种网站,中文/英文网站

首先,需要明确一点:我们要实现的中英对照翻译,这个翻译不是浏览器翻译的,也不是Django帮你翻译。这个需要你自己事先手动翻译好,存放在专门翻译文件中,Django只是事后调用而已。 第一步 新建项目后&#x…