下一代AI芯片的演进趋势

6ebabc3f4f60f617710a52f42c12fd2a.jpeg

下一代AI芯片,拼什么?


AI,这个无尽的财富,无人愿意错过。尽管摩尔定律的极限临近,芯片性能提升愈发艰难。然而,各大厂商仍以瞩目速度推出新一代产品。在最近的台北国际电脑展上,英伟达、AMD和英特尔三大芯片巨头齐聚,展示自家实力,发布了下一代AI芯片。

在AI芯片的竞技场上,英伟达的Hopper GPU、Blackwell和Rubin,AMD的Instinct系列,以及英特尔的Gaudi芯片,都在争夺主导地位。这是一场速度与技术的较量。以英伟达为首的行业巨头,将芯片的更新周期缩短至每年一代,展现了AI领域的“芯”速度竞争。而在技术层面,如何提升芯片的计算速度,降低功耗,实现更节能且更易用的目标,将是各家厂商的实力体现。

尽管各家厂商在AI芯片方面各有侧重,但细看之下,其实存在着不少的共同点。

尽管摩尔定律面临挑战,但AI芯片的创新速度和发布频率却在加速。英伟达Blackwell的强势表现仍在持续,然而在短短3个月后的Computex大会上,英伟达又推出了新一代AI平台——Rubin。英伟达首席执行官黄仁勋宣布,未来每年都会有新的AI芯片问世。这一年度一代的新芯片发布速度,再次刷新了AI芯片更迭的记录。

英伟达的新一代GPU,以美国女天文学家Vera Rubin的名字命名,将配备全新的Vera CPU和先进的X1600 IB网络芯片。这款产品将于2026年上市,敬请期待。

当前,Blackwell和Rubin均在全面开发中,其2023年Computex上首度亮相的GH200 Grace Hopper“超级芯片”正全力投入生产。预计今年稍后,Blackwell将正式上市;Blackwell Ultra则计划于2025年问世,而Rubin Ultra则将在2027年与消费者见面。

紧随英伟达之后,AMD也公布了其年度"Instinct"加速器路线图。每年,AMD将推出一代AI加速器,致力于引领行业发展。AMD总裁Lisa Su强调:“人工智能是我们的首要任务,我们正站在这个行业令人振奋的新时代的起点。”

继去年推出了MI300X,AMD的下一代MI325X加速器将于今年第四季度上市,Instinct MI325X AI加速器可以看作是MI300X系列的强化版,Lisa Su称其速度更快,内存更大。随后,MI350系列将于2025年首次亮相,采用新一代AMD CDNA 4架构,预计与采用AMD CDNA 3的AMD Instinct MI300系列相比,AI推理性能将提高35倍。MI350对标的是英伟达的Blackwell GPU,按照AMD的数据,MI350系列预计将比英伟达B200产品多提供50%的内存和20%的计算TFLOP。

基于AMD CDNA“Next”架构的AMD Instinct MI400系列预计将于2026年上市。

cab3a4110a074b3d0ea1fab02d3b6a17.jpeg

英特尔虽然策略相对保守,但是却正在通过价格来取胜,英特尔推出了Gaudi人工智能加速器的积极定价策略。英特尔表示,一套包含八个英特尔Gaudi 2加速器和一个通用基板的标准数据中心AI套件将以65,000美元的价格提供给系统提供商,这大约是同类竞争平台价格的三分之一。

英特尔表示,一套包含八个英特尔Gaudi 3加速器的套件将以125,000美元的价格出售,这大约是同类竞争平台价格的三分之二。AMD和Nvidia虽然不公开讨论其芯片的定价,但根据定制服务器供应商Thinkmate的说法,配备八个Nvidia H100 AI芯片的同类HGX服务器系统的成本可能超过30万美元。

芯片巨头们以疾风骤雨般的新产品发布速度和定价,揭示了AI芯片市场的竞争激度,令众多AI初创公司望尘莫及。预见未来,三大巨头将独霸大部分AI市场,而众多初创公司只能分得一杯羹。

工艺奔向3纳米

AI芯片迈向3纳米工艺是大势所趋,涵盖数据中心、边缘AI和终端设备。3纳米作为当前最先进的工艺节点,其性能提升、功耗降低和晶体管密度增加,成为推动AI芯片发展的关键因素。对于能源消耗巨大的数据中心而言,3纳米工艺的低功耗特性至关重要,能有效降低运营成本、缓解能源压力,并为绿色数据中心的建设提供有力支持。

英伟达的B200 GPU功耗高达1000W,而由两个B200 GPU和一个Grace CPU组成的GB200解决方案消耗高达2700W的功率。这样的高功耗使得数据中心难以为这些大型计算GPU集群提供足够的电力和冷却。因此,英伟达必须采取措施。

Rubin GPU,一款致力于功耗控制的设备,据天风国际证券分析师郭明錤透露,它有望采用台积电先进的3纳米工艺技术打造。

外媒进一步揭示,Rubin GPU将采用4x光罩设计,并借助台积电CoWoS-L封装技术,展现其独特魅力。然而,Rubin GPU是否能在降低功耗的同时,显著提升性能,或者专注于性能效率,这都是我们期待揭晓的问题。让我们一起关注,看Rubin GPU如何打破常规,创造新的可能。

AMD Instinct系列,曾以5纳米/6纳米双节点的Chiplet模式独领风骚。然而,MI350系列的诞生,标志着其已跃升至3纳米工艺。行业分析师陆行之预测,如果英伟达大量下单台积电,可能会挤压AMD的产能空间,迫使其转向三星寻求合作。

27374dc42ff0d95d5ffc1d939c3cb337.jpeg

来源:videocardz

英特尔用于生成式AI的主打芯片Gaudi 3采用的是台积电的5纳米,对于 Gaudi 3,这部分竞争正在略微缩小。不过,英特尔的重心似乎更侧重于AI PC,从英特尔最新发布的PC端Lunar Lake SoC来看,也已经使用了3纳米

Lunar Lake包含代号为Lion Cove的新 Lion Cove P核设计和新一波Skymont E 核,它取代了 Meteor Lake 的 Low Power Island Cresmont E 核。英特尔已披露其采用 4P+4E(8 核)设计,禁用超线程/SMT。整个计算块,包括P核和E核,都建立在台积电的N3B节点上,而SoC块则使用台积电N6节点制造。

e18dac983ca73b2d52e5d450721d9dd7.jpeg

英特尔历代PC CPU架构

(来源:anandtech)

在今年5月,AI芯片界的翘楚Arm在边缘和终端领域推出了第五代Cortex-X内核及搭载最新高性能图形单元的计算子系统(CSS)。这款Arm Cortex-X925 CPU采用了3纳米工艺节点,实现了单线程性能提升36%和AI性能提升41%的突破。这一创新将显著增强设备端生成式AI如大语言模型(LLM)的响应能力,为智能手机带来前所未有的强大性能。

高带宽内存HBM)是必需品

HBM(高带宽存储器),已成为AI芯片的核心要素。历经五代技术迭代:第一代HBM,第二代HBM2,第三代HBM2E,第四代HBM3,以及第五代HBM3E,现已积极研发第六代HBM。HBM持续突破性能边界,满足AI芯片日益增长的带宽需求。

在当前一代的AI芯片中,各大厂商纷纷采用了第五代HBM-HBM3E技术。以英伟达Blackwell Ultra为例,其HBM3E内存已增至12颗;AMD MI325X则拥有高达288GB的HBM3e内存,相较于MI300X增加了96GB。而英特尔Gaudi 3则封装了八块HBM芯片,其高性价比的背后,很大程度上得益于使用了成本较低的HBM2e技术。

c7a2ede059f7d96b88fcc176975deb00.jpeg

英特尔Gaudi 3的HBM内存,虽多于H100,但相较于H200、B200或AMD的MI300则略显不足(源自IEEE Spectrum)。

下一代AI芯片已全面拥抱第六代HBM-HBM4技术。英伟达的Rubin平台将升级至HBM4,其内置8颗HBM4的Rubin GPU,而更先进的Rubin Ultra将于2027年问世,将搭载12颗HBM4。AMD的MI400也紧随其后,迈向HBM4时代。

在HBM供应商领域,过去AMD、英伟达等主要选择的是SK海力士。然而,现在三星正在积极进军这些厂商市场,与AMD展开合作并测试三星的HBM技术。在6月4日于台北南港展览馆举行的新闻发布会上,黄仁勋回答了关于三星何时能成为Nvidia合作伙伴的问题。他表示:“我们对HBM的需求非常大,因此供应速度至关重要。目前我们正在与三星、SK海力士和美光合作,我们将从这三家公司获得产品。”

HBM市场竞争白热化,SK海力士提前至2026年量产HBM4,三星紧随其后明年开发。两家巨头争锋相对,今年DRAM产能的20%转向HBM。美光也加入战局,HBM大战一触即发。

HBM,作为当前最热门的技术,却成为了AI芯片大规模量产的难题。存储巨头SK Hynix的HBM4产能在2025年前已基本售罄,供需矛盾日益尖锐。据SK海力士预测,AI芯片的繁荣将推动HBM市场在2027年实现82%的复合年增长率。分析师们也普遍认为,明年HBM市场的规模将比今年增长一倍以上。

在KIW 2023上,三星电子DRAM产品与技术执行副总裁Hwang Sang-joon宣布:“我们客户的HBM订单量已比去年增长超过一倍。”设备解决方案部门总裁兼负责人Kyung Kye-hyun进一步强调,三星的目标是占据HBM市场的一半份额。同时,三星内存业务执行副总裁Jaejune Kim向分析师透露,该公司计划在2023年至2024年期间将其HBM产能翻倍。三星正积极拓展其在HBM市场的领先地位,以满足不断增长的客户需求。

互联:重要的拼图

AI芯片间的互联一直是个难题,随着加速器集成数量的增长,高效数据传输成为了瓶颈。由于PCIe技术发展滞后,主流AI芯片厂商纷纷自研互联技术,英伟达的NVLink和AMD的Infinity Fabric成为代表。

NVIDIA即将推出的下一代Rubin平台,将搭载NVLink 6交换机芯片,其传输速度高达3600GB/s,相较于上一代Blackwell所使用的NVLink 5.0有了显著提升。NVLink的诞生,源于对传统PCI Express (PCIe) 总线在处理高性能计算任务时带宽不足的问题的深度思考和解决。下图详细展示了英伟达各代NVLink的性能参数,清晰揭示了其在技术升级中的进步与突破。

f18f811fe616b810d1124510860d5512.jpeg

各代NVLink的性能参数

与英伟达的NVLink相媲美,AMD推出了其创新的Infinity Fabric技术。这项技术与第二代AMD EPYC处理器同步推出,旨在为系统构建者和云架构师提供卓越的服务器性能,同时确保功能、可管理性和保护组织核心资产(数据)的能力不受影响。Infinity Fabric支持多种数据传输方式,包括芯片间、芯片对芯片以及即将推出的节点对节点传输。这一创新技术将助力您解锁无限可能。

英特尔,以太网的坚定支持者,其Gaudi AI芯片用于生成式AI,始终坚守传统的以太网互联技术。Gaudi 2芯片配备了24个100Gb以太网链路,而Gaudi 3则采用了24个200Gbps以太网RDMA NIC,将带宽提升了一倍,达到200Gb/秒,使外部以太网I/O总带宽高达8.4TB/秒。

拼服务

生成式AI如ChatGPT的开发过程极为繁琐,其大模型在多台计算机上运作,拥有数亿至数万亿的参数。为了提升效率,它运用了张量并行、流水线并行和数据并行等多种并行处理方式,在多个GPU上同步执行任务。

因此,如何能够帮助用户更快的开发,提供良好的服务也是关键一役。

在这方面,英伟达推出了一种新型的软件NIMS,即NVIDIA Inference Microservices(推理微服务)。黄仁勋称之为“盒子里的人工智能”,NIMS中包含了英伟达的CUDA、cuDNN、TensorRT、Triton。

NIMS 不仅使部署 AI 变得更容易,只需几分钟而不是几个月,它们还构成了客户可以创建新应用程序和解决新问题的构建块。如果采用,NIMS 将有助于加速创新并缩短价值实现时间。Nvidia 还宣布,NIMS 现在可供开发人员和研究人员免费使用。在生产中部署NIMS需要AI Enterprise许可证,每个GPU的价格为4500美元。

结语

一场全新的AI竞赛已经拉开序幕。在当前的AI芯片市场,英伟达、AMD和英特尔等领军企业正在展开白热化的角逐。他们在速度、技术和工艺等方面不断刷新记录,同时在互联和服务领域积极拓展,致力于打造更快捷、更强大、更智能的AI解决方案。AI芯片之争仍在上演,最终的胜利者会是谁?让我们共同期待。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/800898.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

每日一练@

目录 题目1.关于AOP错误的是?2.关于以下代码的说明,正确的是( )3.以下类型为Final类型的为()4.以下说法哪个是正确的() 题目 选自牛客网 1.关于AOP错误的是? A.AOP将散…

位运算问题

1. 只出现一次的数字 III 题目描述: 算法原理: 因为两个相同的数经过异或就等于0,所以首先将数组中的每个数字异或到一起,这样就得到了两个出现一次的元素的异或值。假设得到的异或值为n,那么我们去求异或值的最低位…

python自动化之validator验证数据【代码示例】

思路: 首先定义验证规则schema,包含name,age和email三个字段; 然后创建验证器对象validator,并将schema作为参数传递给它; 最后定义要验证的数据data,使用validator的validate方法进行验证&a…

【Stable Diffusion】(基础篇三)—— 图生图基础

图生图基础 本系列笔记主要参考B站nenly同学的视频教程,传送门:B站第一套系统的AI绘画课!零基础学会Stable Diffusion,这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili 本文主要讲解如何使用S…

数据结构(5.0)——树的定义和基本术语

树的基本概念 树是n(n>0)个结点的有限集合,n0时,称为空树,这是一种特殊情况。在任意一颗非空树中应该满足: 有且仅有一个特定的称为根的结点。 当n>1时,其余结点可分为m(m>0)个互不相交的有限集合T1、T2、.......&…

C++第七弹 -- C/C++内存管理

目录 前言一. C/C内存分布二. C语言中动态内存管理方式三. C中动态内存管理四. operator new与operator delete函数五. new和delete的实现原理1.内置类型2. 自定义类型 六. 定位new表达式(placement-new)七. 常见面试题总结 前言 在C/C编程中,内存管理是至关重要的…

领夹麦克风品牌排行榜前十名,录短视频用什么麦克风好?

随着自媒体行业的迅猛发展,对高品质音频设备的需求日益增长,尤其是无线领夹麦克风因其便携性和实用性受到了广泛欢迎。这种麦克风不仅适用于新闻采访和节目录制,也成为了网络直播和Vlog创作者的得力助手。它们能够提供清晰的录音效果&#xf…

最新版康泰克完整版- Kontakt v7.10.5 for Win和Mac,支持m芯片和intel,有入库工具

一。世界最受欢迎的采样器的新篇章 Native Instruments Kontakt是采样器领域的标准,您将获得高质量的滤波器,在这里您将找到经典的模拟电路和最现代的滤波器。每一个都可以根据您的口味进行定制,并且由于它,您可以获得前所未有的声…

AIGC笔记--基于Stable Diffusion实现图片的inpainting

1--完整代码 SD_Inpainting 2--简单代码 import PIL import torch import numpy as np from PIL import Image from tqdm import tqdm import torchvision from diffusers import AutoencoderKL, UNet2DConditionModel, DDIMScheduler from transformers import CLIPTextMod…

源码安装zabbix5.0.36完整版

源码安装zabbix5.0.36完整版 环境:CentOS Linux release 7.9,cpu:16,mem:32G软件包如下: zabbix-5.0.36.tar.gz mysql-8.0.28-linux-glibc2.17-x86_64-minimal.tar.xz nginx-1.6.2.tar.gz 1. 配置前准备 systemctl stop firewa…

K8s集群初始化遇到的问题

kubectl describe pod coredns-545d6fc579-s9g5s -n kube-system 找到原因1:CoreDNS Pod 处于 Pending 状态的原因是集群中的节点都带有 node.kubernetes.io/not-ready 污点 journalctl -u kubelet -f 14:57:59.178592 3553 remote_image.go:114] "PullIma…

集群节点状态异常的解决方式

文章目录 集群节点状态异常的解决方式问题概述解决方式1.关闭所有服务2.对所有集群删除Hadoop相关文件2.1 删除Hadoop系统运行时创建的临时数据和文件2.2 删除Hadoop的数据文件 3.重新对Hadoop节点进行初始化和启用4.重启服务,检查节点状态 集群节点状态异常的解决方…

Parallels Desktop 19 for Mac(PD19虚拟机)详细图文安装教程分享

Parallels Desktop 19是一款功能丰富、性能强大且易于使用的虚拟机软件,它可以让您在Mac上同时运行多个操作系统,为您提供更大的灵活性和兼容性。 Parallels Desktop 19 for Mac(PD19虚拟机)下载安装包 Parallels Desktop 19 for Mac(PD19虚拟机)详细图…

护眼台灯的功能作用有哪些?深挖台灯护眼是真的吗

随着现代生活方式的改变,孩子们面临着越来越多的视力挑战。在近视学生中,近10%为高度近视,且占比随年级升高而增长。幼儿园6岁儿童中有1.5%为高度近视,而高中阶段则达到了17.6%。为了守护孩子们的视力健康,在科技飞速发…

查看apk版本号

获取未安装的apk版本号 1. 使用aapt命令 使用cmd cd到aapt工具的位置。位于‌Android SDK的build-tools目录下。 使用aapt命令,指向apk所在绝对路径 aapt dump badging your_apk_file.apk (win7按住shift键,右键apk文件选择“复制为路径”…

自学鸿蒙HarmonyOS的ArkTS语言<十>@BuilderParam装饰器

作用:当子组件多处使用时,给某处的子组件添加特定功能 一、初始化 1、只能被Builder装饰的方法初始化 2、使用所属自定义组件的builder方法初始化 3、使用父组件的builder方法初始化 - 把父组件的builder传过去,参数名和子组件的builderPar…

Android NDK开发之震动服务客户端编写程序(C++)

一、背景 最近有个小伙伴问我可不可以写一个可执行程序(C/C) 来实现Android设备的震动的功能。 作为一个多年的Android开发者,我觉得这是可以实现的。 但是由于过去我一直做App开发,也就把这个实现过程想简单了。 经过了几天的折腾,终于算是…

【python学习】numpy第三方库的定义、功能、使用场景和使用以及遇到的一些问题

引言 python学习学习到第三方库知识,首先学习的就是机器学习以及对应的numpy第三方库 文章目录 引言一、numpy第三方库的定义二、numpy第三方库的功能2.1数组操作2.2 线性代数计算2.3 随机数生成2.4 文件读写 三、numpy第三方库的使用场景3.1需要进行数值计算3.2 需…

【连续四届EI检索|稳定ACM出版、EI检索|线上线下结合】2024年第五届医学人工智能国际学术会议(ISAIMS 2024,8月13-17)

第五届医学人工智能国际学术会议(ISAIMS2024)将于2024年8月13-17日于荷兰阿姆斯特丹自由大学召开,国内分会场将于2024年10月25-27日于中国武汉召开。 会议自2020年至今已经成功举办四届,吸引了来自海内外相关领域学者600余名。本届…

C# Opencv实现本地以图搜图

地址:冯腾飞/本地以图搜图