英特尔AI训练芯片惊艳亮相:速度与性能双超H200,引领AI新浪潮

 英特尔甩出全新AI训练芯片!跑千亿大模型速度超H200,罕见披露AI浮点性能

   59f7b917549b8929f81d19b6b3ccc62f.jpeg

大规模AI计算已经进入系统竞赛。

英特尔在年度Intel Vision大会上重磅推出新一代AI训练芯片Gaudi 3,正面向英伟达旗舰芯片发起挑战。会上,英特尔CEO基辛格挥舞着Gaudi 3,跟随现场伴奏开心地摇晃起身体,随后宣布Gaudi 3的战绩:相比英伟达上一代旗舰H100 GPU,Gaudi 3的训练性能可提高70%,推理性能提高50%,能效提高40%,同时价格低得多。

b3dce951e111d01595a8de7dedc5b798.jpeg

跑动1800亿参数的Falcon模型时,Gaudi 3推理速度惊艳,较英伟达H200快30%!这款芯片采用先进台积电5nm制程技术,搭载128GB HBM2e DRAM内存与第五代Tensor Core架构,内存带宽高达3.7TB/s,配备24个200Gb以太网端口,性能卓越。尽管英特尔暂未公开晶体管总数,但Gaudi 3的出色表现已充分展现其领先实力,令人期待其未来更多精彩表现!

2d5bb18312343267a1ca1d1a1e7ba6dc.jpeg

和英伟达、AMD一样,英特尔在最新AI芯片中通过“芯片拼装”设计来超越reticle极限。Gaudi 3基于统一内存架构,将将64个Tensor Core封装在两个计算Tile中,共享96MB缓存池,借助高速互连技术,两个计算Tile能宛如一个完整芯片一样运行。

相比上一代Gaudi 2,Gaudi 3在BF16精度下可提供4倍的AI计算能力、1.5倍的内存带宽、2倍的网络带宽,支持大规模系统横向扩展,最多可扩展至8192个芯片的参考架构。

bb1f6ca9a1f326c16a3f049ed9fdb7b0.jpeg

基辛格说,Gaudi 3将帮助AI经历三个阶段,从AI Copilot时代迈向AI Agent时代,然后抵达AI功能时代,即用于自动化复杂的、企业范围的结果。他预言当发展到第三阶段,功能自动化带来的效率意味着或将出现“一人拥有 10亿美元资产的公司”。

英特尔计划从第一季度和第二季度分别开始向OEM/ODM合作伙伴提供风冷版和液冷版的Gaudi 3芯片样品,从第三季度开始加大风冷部件的出货量,第四季度加大液冷设计的出货量。英特尔还将在开发者云中提供Gaudi 3的支持。

9c7f219b97d9801ba1acca734495cd4a.jpeg

Gaudi 3应该会是英特尔最后一代对标H100的AI训练芯片。毕竟对于今年刚发布过最新旗舰GPU芯片B200的英伟达来说,H100/H200已经是上一代的事了。英伟达Blackwell GPU将在今年晚些时候上市,可以想见Gaudi 3抢占市场份额的机会多狭窄,面临的竞争压力将有多大。

令人稍有困惑的是,根据英特尔路线图,Gaudi 3后续产品将变成IP融入到英特尔的Falcon Shores平台里,也就是说英特尔GPU Max和专用AI芯片产品线将在2025年融合。

6b50f0ed7f27ffcca6f08e63a190f24b.jpeg

英特尔下一代专用AI芯片的推出时机尚难预测。若英特尔继续依赖现有芯片竞争或转向GPU研发,Gaudi 3恐将沦为“历史尘埃”。在日新月异的科技领域,英特尔的每一步选择都至关重要,决定了未来市场的格局与走向。

7af355a76e7edcbda2787a99e3c22d18.jpeg


01.罕见披露FP8浮点性能,训练130亿参数模型比H100快70%

英特尔Habana团队,致力于研发专用AI芯片,与众不同地避用FLOPS作为AI性能的唯一标准,而强调其在现实场景中的卓越表现。这是因为FLOPS受到多种条件的限制,如测量精度、数据稀疏性或稠密性、利用率等,这些因素往往导致理论与实际性能间存在显著差距。

然而,此次Habana团队罕见地公布了Gaudi 3在FP8精度下的总吞吐量——高达1835TFLOPS,这一数字是上一代产品性能的两倍。这标志着英特尔Habana团队在AI芯片领域的卓越创新能力和坚实技术基础,为实际应用带来了前所未有的性能提升。

2d929ddca7b7cdef822c42f47d03d29f.jpeg

在稠密型FP16/BF16精度下,英特尔Gaudi 3的浮点性能可达到1835TFLOPS,高于英伟达H100/H200的989TFLOPS、AMD MI300X的1307TFLOPS。但如果比FP8精度,H100/H200和MI300X的浮点算力较FP16翻倍到1979TFLOPS2614TFLOPS,性能反超不支持稀疏化的Gaudi 3。

不过换个角度来看,Gaudi 3在FP16/BF16精度下能实现接近竞品FP8精度下的性能,已经足见其性能优势。与英伟达旗舰GPU相比,英特尔新一代AI训练芯片Gaudi 3的性能提升如下:

1、训练Llama 7B、13B以及GPT-3 175B模型,速度比H100快40%~70%。

068cf7b211ac841cc5abb0531314dca0.jpeg

247a197aeb1944629e99cce56bb6239e.jpeg

Gaudi 3在训练小规模模型时,表现卓越,利用由1028节点、8192个Gaudi 3构成的集群,轻松驾驭1750亿参数的GPT-3。在Llama 7B、70B及Falcon 180B模型上,Gaudi 3的推理速度比H100快50%,能效提升40%,尤其在处理长序列时,其性能优势更为显著。Gaudi 3以其出色的训练与推理能力,为AI领域注入了新的活力。

2d63cb17333b3b7f1d868e0582e59147.jpeg

f704909461562d72b5ae15174babbbcb.jpeg

dda5252add1ddcc1500aaa75a9b9ae6b.jpeg

跑Llama 7B、70B和Falcon 180B模型,其推理速度相比H200可提升高达30%,实现更高效的计算性能,助力您的业务飞速发展。

e6138ce909bd3460d3d7052d76342d85.jpeg

f85d4f465d326f96d7843eac46fa6d01.jpeg

图表显示,在Llama 7B、70B运算中,Gaudi 3与H200的较量略显吃力。尽管英特尔的数据难以验证,但历史表明其光明磊落,积极参与MLPerf测试,无畏与英伟达旗舰产品较量,展现出大将风范。这种坦诚赢得了广泛信赖,有助于英特尔Gaudi系列在AI训练市场扩大竞争优势。此外,其双芯设计、台积电5nm工艺及128GB内存的配置,更是令人瞩目。

英特尔Gaudi 3独辟蹊径,将双计算Tile与8个HBM巧妙融合,搭载96MB SRAM、8个矩阵数学引擎及64个Tensor Core,以拼装思维将两块芯片化为一体,展现了创新的设计哲学。此思路与英伟达Blackwell芯片不谋而合,共同引领芯片设计新潮流,彰显技术革新的力量。

f079230e1dc4a808dc85d62a1ccb85ae.jpeg

Gaudi 3采用台积电5nm、128GB HBM2e,内存带宽达3.7TB/s。从这些保守的制程和内存选择,很难看出它对最强AI训练芯片的势在必得。现在市面上最先进的制程已经是3nm,其竞品英伟达H100和AMD MI300X都已经用上更先进的HBM3高带宽内存。英伟达H200采用141GB HBM3e,内存带宽达4.8TB/s;AMD MI300X采用192GB HBM3,内存带宽达5.3TB/s。无论是内存的容量还是带宽,都比Gaudi 3更有竞争力。

f9cd0760af5c06ab660ef6e361353e0f.jpeg

据Habana首席运营官Eitan Medina解释说,坚持采用HBM2e的原因是风险管理,其方法是只使用在流片前已在硅片中得到验证的IP,Gaudi 3流片时根本没有经过验证符合其标准的物理层。相比单芯片性能,英特尔强调的是大量Gaudi 3芯片互连形成的集群能提供更高的性价比和TCO。‍‍‍‍‍‍‍‍‍‍‍

现在AI计算竞赛的焦点在大模型上,单卡内存根本不够用,需要将多个AI芯片连接在一起来支撑大模型训练及推理。性能比拼也不再是看单卡峰值性能,而是比拼大规模扩展后的整体系统性能和TCO,即达到同等算力,谁能节省更多的电力和成本。

因此先进互连技术对数据中心越来越重要。H100/H200采用英伟达专用互连技术NVLink,总带宽达900GB/s;MI300X采用AMD专用互连技术Infinity Fabric,总带宽达896GB/s。对比之下,Gaudi 3采用的是常规的ROCe,集成了24个200Gb以太网端口,总带宽达1.2TB/s。其中有3个端口用于节点外通信,剩下1Tb/s用于服务器内芯片之间通信。

826536267d9d692e6f48f79b0f7b0efa.jpeg

英特尔称,通过将以太网网卡集成到其加速器中,使用传统的主干叶架构扩展以支持512个甚至1024个节点的集群变得更加容易。这种以太网设置的另一种好处是吸引那些不想投资或换用专有互连技术的客户。通过超以太网连联盟,英特尔正驱动面向AI高速互连技术(AI Fabrics)的开放式以太网网络创新,并推出一系列面向AI优化的以太网解决方案,以大规模纵向和横向扩展芯片,支持越来越庞大的AI模型的训练与推理。其产品组合包括英特尔AI网络连接卡(AI NIC)、集成到XPU的AI连接芯粒、基于Gaudi加速器的系统,以及一系列面向英特尔代工的AI互联软硬件参考设计。

除了网络外,软件也是英特尔的重头戏。英特尔认为大多数程序员都在AI框架级别或者更高级别进行编程,使用CUDA进行低级编程已经不那么普遍,也就是说英伟达的软件生态护城河已经不像原来那样坚不可摧。目前英特尔正在不断优化迁移工具和牵头参与行业标准的制定,向市场提供CUDA替代方案。
03.可扩展至8192芯,提供15EFLOPS算力

总结一下英特尔Gaudi 3的主要亮点:

1、AI专用计算引擎:有独特的异构计算引擎,由64个AI定制和可编程TPC以及8个MME组成。每个Gaudi 3 MME能执行64000 次并行操作,实现高计算效率,使其擅长处理复杂的矩阵运算、加速并行AI操作。该芯片支持多种数据类型,包括FP8和BF16。

2、满足大语言模型要求的内存容量:128GB HBMe2、3.7TB/s内存带宽、96MB板载SRAM提供了充足内存,可在更少的Gaudi 3芯片上处理大型生成式AI数据集。

3、面向企业生成式AI的高效系统扩展:Gaudi 3集成了24个200Gb以太网端口,提供灵活且开放标准的网络,支持大型计算集群,可高效地横向和纵向扩展至数千个节点。

4、开放行业软件,提高开发者效率:Gaudi软件集成了PyTorch框架,并提供优化的Hugging Face社区模型,使生成式AI开发人员能够在高抽象级别上进行操作,从而提高易用性和工作效率,并易于跨硬件类型迁移模型。

8b4f56d535c1bef5e7571620cc2e2c26.jpeg

英特尔倾力打造全面覆盖的端到端AI软件栈,涵盖固件、库、驱动程序,直至AI应用所需的模型、框架与工具,一站式满足您的AI需求。

e40bcd5500a9b32e0477cb3057fbc023.jpeg

Gaudi 3 PCIe add-in卡,专为高效低耗而生,完美适配微调、推理及RAG等工作负载。其全高双宽设计,长达10.5英寸,采用被动冷却技术,确保稳定运行。尤为值得一提的是,其TDP仅为600W,节能高效,为您的工作带来前所未有的便捷与效能。

c0494355f76efca951f73cf771220abf.jpeg

Gaudi 3不仅配备PCIe add-in卡,还推出OCP标准的OAM模块,集成8个加速器于通用基板。其PCIe规格与OAM版本一致,功耗更优化。风冷版OAM TDP为900W,液冷版则高达1200W,效能卓越,为高性能计算领域树立新标杆。

0bd1b5ef60fe40efbe2fa584324773fd.jpeg

英特尔精心为Gaudi 3打造参考架构,单个节点搭载8颗核心,FP8性能飙升至惊人的14.7PFLOPS,内存高达1024GB,网络带宽更是达到8.4TB/s。

若扩展至512个节点,算力将爆表至7.5EFLOPS,内存容量跃升至524.3TB,网络带宽则狂升至614TB/s。Gaudi 3,引领算力新纪元,为您呈现前所未有的计算体验!

b13b877ee1cc53e61539be2519f431cf.jpeg

Gaudi 3集群可扩展至1024节点,包含8192芯片,强大至极!其算力高达15EFLOPS,内存容量达1PB,网络带宽更是惊人地达到1.229PB/s。性能卓越,轻松应对各类复杂计算任务。

304debd02a43fbeeeebf3e244605ab2c.jpeg


04.结语:大规模AI计算已经进入系统竞赛

在Intel Vision大会上,“生成式AI”这一主题可以说是贯穿全程,从数据中心的大规模AI训练与推理,到AI PC改变端侧生产力,英特尔正竭力展示自己作为先进芯片技术领导者的竞争力。

如今谈到大模型训练芯片,英伟达当仁不让是首选供应商,但这棵摇钱树早已被其他芯片大厂和创业新秀盯上,英特尔便是其中之一。英特尔正通过推出更具性价比的可扩展系统来打破这种一家独大的局面,这将为市场带来另一种选择。大规模AI计算已经进入系统竞赛,无论是守擂者英伟达,还是英特尔、AMD、Cerebras、Groq等追击者,都明显加大对先进Chiplet封装、先进存储、先进互连技术的重视,通过从超越制程和reticle极限的芯片内部设计优化,到扩展至大型集群系统的技术升级,为整个数据中心的AI计算提供更高性能和能效的加速。

除了Gaudi 3,英特尔还在Intel Vision大会上分享了数据中心至强处理器和AI PC的进展,并现场连线远在英特尔晶圆厂的同事,演示如何在AI PC上用先进AI技术辅助芯片检测。

英特尔宣布面向数据中心、云和边缘的下一代处理器进行品牌焕新,即英特尔至强6。配备能效核的至强6(此前代号为Sierra Forest)将于2024年第二季度推出,配备性能核的至强6(此前代号为Granite Rapids)将紧随其后推出。配备性能核的英特尔至强6包含了对MXFP4数据格式的软件支持,与使用FP16的第四代至强处理器相比,可将下一个token的延迟时间缩短至原来的15%,能运行700亿参数Llama-2模型。英特尔预计将于今年出货4000万台AI PC,以及超过230种的设计,覆盖轻薄PC和游戏掌机设备。新一代英特尔酷睿Ultra客户端处理器家族(代号Lunar Lake)将于今年推出,具备超过100 TOPS平台算力,NPU算力超过46TOPS。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/533830.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

html页面跳转的方法

1、加在head里面 <head> <meta http-equiv"refresh" content"1;urlhttps://ha.huatu.com/zt/hnsylkseo/?"> </head> 2、加在body里面 在body里用js <script language"javascript" type"text/javascript">…

C++感受4-HelloWorld中文版——认识编码

及时了解“编码”对编写代码的影响&#xff0c;是中国程序员越早知道越好的知识点。 一分钟了解什么叫“编码”和“解码”&#xff1b;通过实际演示&#xff0c;充分理解中文Windows下&#xff0c;C源代码编码需要注意的地方&#xff1b;通过 -finput-charsetutf8 等 g 编译配置…

数据可视化-ECharts Html项目实战(11)

在之前的文章中&#xff0c;我们学习了如何在ECharts中特殊图表的双y图以及自定义形状词云图。想了解的朋友可以查看这篇文章。同时&#xff0c;希望我的文章能帮助到你&#xff0c;如果觉得我的文章写的不错&#xff0c;请留下你宝贵的点赞&#xff0c;谢谢。 数据可视化-ECh…

【随笔】Git 高级篇 -- 纠缠不清的分支 rebase | cherry-pick(二十四)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

基于特征的多模态生物信号信息检索与自相似矩阵:专注于自动分割

论文地址&#xff1a;Biosensors | Free Full-Text | Feature-Based Information Retrieval of Multimodal Biosignals with a Self-Similarity Matrix: Focus on Automatic Segmentation (mdpi.com) 论文源码&#xff1a;无 期刊&#xff1a;biosensors 这篇论文提出了一种基…

全国项目管理标准化技术委员会副秘书长肖杨先生受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 全国项目管理标准化技术委员会副秘书长、微薄之力&#xff08;北京&#xff09;管理咨询有限公司董事长肖杨先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾&#xff0c;演讲议题为“数字化时代下&#xff0c;由职能型组织向高度适应性组织转…

GCB Meta分析 | 土壤水分-大气反馈主导全球陆地N2O硝化的排放和反硝化的减少

原名&#xff1a;Soil moisture–atmosphere feedback dominates land N2O nitrification emissions and denitrification reduction 译名&#xff1a;土壤水分-大气反馈主导着陆地N2O硝化的排放和反硝化的减少 期刊&#xff1a;Global Change Biology 通讯作者&#xff1a…

OSCP靶场--Dibble

OSCP靶场–Dibble 考点(前端鉴权参数修改node.js代码注入 suid cp提权 ) 1.nmap扫描 ## ┌──(root㉿kali)-[~/Desktop] └─# nmap 192.168.173.110 -sV -sC -Pn --min-rate 2500 -p- Starting Nmap 7.92 ( https://nmap.org ) at 2024-04-09 06:36 EDT Nmap scan repor…

Golang | Leetcode Golang题解之第21题合并两个有序链表

题目&#xff1a; 题解&#xff1a; func mergeTwoLists(list1, list2 *ListNode) *ListNode {if list1 nil {return list2 // 注&#xff1a;如果都为空则返回空}if list2 nil {return list1}if list1.Val < list2.Val {list1.Next mergeTwoLists(list1.Next, list2)re…

一分钟了解机器人自由度

目录 自由度的定义 自由度的分类 自由度的影响 影响自由度的主要参数 关节类型和数量 机械结构 控制系统 自由度控制的硬件架构原理 传感器 执行器 控制器 通信接口 软件和算法 机器人的自由度是指机器人在空间中可以独立移动的方向和角度的数量&#xff0c;它是衡…

比特币减半后 牛市爆发

作者&#xff1a;Arthur Hayes of Co-Founder of 100x 编译&#xff1a;Qin jin of ccvalue (以下内容仅代表作者个人观点&#xff0c;不应作为投资决策依据&#xff0c;也不应被视为参与投资交易的建议或意见&#xff09;。 Ping PingPing&#xff0c;我的手机发出的声音&…

【Java】Java使用Swing实现一个模拟计算器(有源码)

&#x1f4dd;个人主页&#xff1a;哈__ 期待您的关注 今天翻了翻之前写的代码&#xff0c;发现自己之前还写了一个计算器&#xff0c;今天把我之前写的代码分享出来。 我记得那会儿刚学不会写&#xff0c;写的乱七八糟&#xff0c;但拿来当期末作业还是不错的哈哈。 直接上…

坚持十天做完Python入门编程100题第三天加班

坚持十天做完Python入门编程100题第三天加班 第24题 扫描文件列表第25题 如何将字典转换成JSON并写入json文件&#xff1f;第26题 JSON转换成字典 第24题 扫描文件列表 如何扫描当前目录下的文件列表&#xff1f;解析&#xff1a;可以使用python内置的glob模块&#xff0c;用法…

MySQL高级(索引分类-聚集索引-二级索引)

目录 1、主键索引、唯一索引、常规索引、全文索引 2、 聚集索引、二级索引 3、回表查询 4、通过id查询和通过name查询那个执行效率高&#xff1f; 5、 InnoDB主键索引的 B tree 高度为多高呢&#xff1f; 1、主键索引、唯一索引、常规索引、全文索引 在MySQL数据库&#xff0c…

三维GIS平台标绘功能新玩法,不仅可以绘制点线面,还可以生成单体化

地图标绘是指在地图背景上标绘各种具有空间特征的事、物的分布状态或行动部署。标绘功能能够表达各种信息&#xff0c;描述各种对象&#xff0c;表示各种资源&#xff0c;可用于规划设计、电力、通信和应急等行业。 标绘技术是三维GIS的一个重要技术手段&#xff0c;在几何表达…

HelpLook 比 BookStack 胜在哪里

不可置否&#xff0c;现如今信息管理和知识分享平台已经成为我们工作和学习中必不可少的工具。在众多平台中&#xff0c;HelpLook和BookStack都是备受欢迎的选择。然而&#xff0c;当我们将两者放在一起比较时&#xff0c;会发现HelpLook在多个方面相较于BookStack有着显著的优…

Django之rest_framework(二)

格式后缀 为了使我们的响应不再硬连接到单个内容类型这一事实,我们可以将API格式后缀添加到API之后。使用格式后缀为我们提供了明确引用给定格式的URL,譬如:http://example.com/api/items/4.json 官网:2 - Requests and responses - Django REST framework views:在函数…

STC89C52学习笔记(八)

STC89C52学习笔记&#xff08;八&#xff09; 综述&#xff1a;本文讲述了LED点阵屏、如何进行数据串行输入&#xff0c;并行输出以及LED点阵屏显示一列多列图形。 一、LED点阵屏 1.介绍 LED点阵屏由多个LED组成&#xff0c;以矩阵形式排列&#xff08;类似于矩阵键盘&…

配置及第三方授权申请教程

项目需要配置的地方不多&#xff0c;主要就两个地方需要注意&#xff1a;邮箱授权和第三方授权需要提前申请 1.基本设置 1.1 打开application.yml&#xff0c;修改数据库ip等基本信息 这些基本的配置就不多说了&#xff0c;基本就是改下服务器ip和账号密码什么的 1.2 获取QQ…

软件详细设计说明书(套用案例)

2系统总体设计 2.1整体架构 2.2整体功能架构 2.3整体技术架构 2.4设计目标 2.5.1总体原则 2.5.2实用性和先进性 2.5.3标准化、开放性、兼容性 2.5.4高可靠性、稳定性 2.5.5易用性 2.5.6灵活性和可扩展性 2.5.7经济性和投资保护 3系统功能模块详细设计 3.1个人办公…