英特尔推出中国特供版Gaudi 3芯片,性能暴降92%以应对美国出口管制|TodayAI

英特尔近期发布消息,其将在中国市场推出专为该地区定制的“特供版”Gaudi 3 AI芯片,以符合美国对AI芯片的出口管制。这一版本包括HL-328型号的OAM兼容夹层卡,预计将于6月24日发布;以及HL-388型号的PCIe加速卡,计划在9月24日推出。这些芯片保持了与原版相同的硬件配置,包括96MB的SRAM片上内存和128GB的HBM2e高带宽内存,带宽高达3.7TB/s,并支持PCIe 5.0 x16接口和标准解码。

由于出口管制,特供版的综合运算性能(TPP)被限制在4800以下,意味着其16bit性能不得超过150 TFLOPS,相比原版Gaudi 3在FP16/BF16性能可达1835 TFLOPS,特供版需降低约92%的AI性能。但性能降低也带来了功耗显著下降,特供版的PCIe卡和OAM卡的热设计功耗(TDP)均为450瓦,远低于原版的600瓦和900瓦。

挑战 Nvidia H100 的 Gaudi 3

在最近的Vision 2024活动中,英特尔在凤凰城发布了其最新的AI加速器芯片——Gaudi 3。此芯片号称在运行大型语言模型(如支持ChatGPT的模型)时性能卓越,被视为Nvidia当前广受欢迎的数据中心GPU H100的有力竞争者。尽管H100曾经供应紧张,现状已有所改善。

与Nvidia的H100芯片相比,英特尔宣称Gaudi 3在训练OpenAI的GPT-3 175B LLM和Meta的Llama 2 70亿参数版本时,训练时间可快50%。在推理性能(即运行训练模型以产生输出)方面,Gaudi 3同样声称比H100快50%。

面对H100在市场上的高占有率,英特尔特意瞄准了这一市场。尽管Nvidia已经宣布了更强大的AI加速器芯片H200和Blackwell B200,但这两款芯片尚未上市(H200预计将在2024年第二季度发布)。

与此同时,H100的供应问题曾让众多科技公司和AI研究者头疼,不得不争抢可用于训练AI模型的芯片。这导致像微软、Meta和OpenAI(据传)等科技公司寻求自主设计AI加速器芯片,这些定制硅片通常由英特尔或台积电生产。谷歌自2015年起就在内部使用其张量处理单元(TPU)。

鉴于这些问题,如果英特尔能够为Gaudi 3设定一个理想的价格(虽然英特尔尚未提供价格,但据报道H100的成本约为30,000至40,000美元)并保持充足的生产,Gaudi 3可能成为H100的一个具有吸引力的替代品。AMD也生产竞争力强的AI芯片,如AMD Instinct MI300系列,售价约为10,000至15,000美元。

英特尔表示,新芯片在其前代Gaudi 2的架构基础上进行了改进,特别是增加了两个相同的硅片,通过高带宽连接相连。每个硅片包含48兆字节的中央缓存内存,周围配备了四个矩阵乘法引擎和32个可编程张量处理器核心,总核心数达到64个。

据英特尔声称,Gaudi 3的AI计算性能是Gaudi 2的两倍,使用8位浮点基础设施,这对于训练变换模型至关重要。此外,该芯片还提供了使用BFloat 16数字格式计算的四倍提速。Gaudi 3还配备了128GB较便宜的HBM2e内存容量(这可能有助于价格竞争力),并具有3.7TB的内存带宽。

由于数据中心的高能耗,英特尔强调了Gaudi 3的能效,声称在Llama 7B和70B参数以及Falcon 180B参数模型上,推理能效比Nvidia的H100高出40%。英特尔Habana Labs的首席运营官Eitan Medina将这一优势归因于Gaudi的大矩阵数学引擎,他声称这种引擎与其他架构相比,需要的内存带宽显著较低。

在此之前,大家都关注了Nvidia的Blackwell架构及其B200 GPU的引人注目的发布,Nvidia声称这将是世界上最强大的AI芯片。因此,将英特尔目前能够生产的最佳芯片与Nvidia的最高性能AI芯片进行比较似乎很自然。

就制造技术而言,据IEEE Spectrum报道,Gaudi 3采用了台积电的N5工艺技术,这缩小了英特尔与Nvidia在半导体制造技术方面的差距。即将推出的Nvidia Blackwell芯片将使用定制的N4P工艺,据称在性能和效率上提供适度的改进。

Gaudi 3使用HBM2e内存(如上文提及)与使用更昂贵的HBM3或HBM3e的竞争对手芯片相比,提供了性能与成本效率的平衡。这一选择似乎强调了英特尔不仅在性能上竞争,还在价格上竞争的战略。

尽管Gaudi 3与B200的原始性能比较尚不能确定,直到芯片发布并由第三方进行基准测试后才能得知。

随着科技行业对AI计算的需求日益增加,IEEE Spectrum指出,英特尔Gaudi芯片的下一代,代号为Falcon Shores的产品,仍然备受关注。英特尔是否继续依赖台积电的技术,或利用自己的代工业务和即将推出的纳米片晶体管技术在AI加速器市场获得竞争优势,仍有待观察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/544982.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(二十八)Flask之wtforms库【上手使用篇】

目录: 每篇前言:用户登录验证:用户注册验证:使用示例: 抽象解读使用wtforms编写的类:简单谈一嘴:开始抽象: 每篇前言: 🏆🏆作者介绍:【…

L3 【哈工大_操作系统】操作系统启动

本节要点: 1、理解 OS 启动过程发生了什么,理解 OS 与 硬件 与 应用 之间的关系 2、本节讲解了 setup 模块 和 system 模块实现的功能 1、计算机上电时,操作系统在硬盘(磁盘)上,为了“取指执行”&#xff0…

Vite多环境配置与打包:灵活高效的Vue开发工作流

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

京东商品详情接口可以获取到那些数据?商品属性价格sku主图

京东商品详情接口可以获取到关于商品的丰富数据,包括但不限于以下内容: 商品基本信息:例如商品标题、价格、销量等。商品详情描述:这包括商品的详细描述、规格参数、包装清单等。商品评价信息:比如商品的好评率、评价…

图神经网络

图的性质 聚类系数 C i E i T i C_i \frac{E_i}{T_i} Ci​Ti​Ei​​ E i E_i Ei​表示节点 i i i的邻居实际存在的边的数量, T i T_i Ti​表示节点 i i i的邻居可能(最多)存在的边的数量 理论溯源 聚类系数这一概念首先源于论文“Colle…

OpenCV的查找命中或未命中

返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV4.9更多形态转换 下一篇:OpenCV系列文章目录(持续更新中......) 目标 在本教程中,您将学习如何使用 Hit-or-Miss 转换(也称为 Hit-and-Miss 转…

已解决:前端直传阿里oss报错跨域问题,“No ‘Access-Control-Allow-Origin‘”,这个错误基本就是在阿里的开放平台没做规则配置(附我封装的上传源码)

解决方案(我封装的上传代码在后面“封装上传”部分): 就直接上阿里oss管理后台去增加一个跨域规则:见图片,特详细 配置成这样点确定就好了,就这么简单 案发背景: 标题其实就已经是答案了&…

2024年第十五届蓝桥杯C/C++B组复盘(持续更新)

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录 试题A:握手问题问题描述思路 试题B:小球反弹问题描述思路…

【算法】字符串

个人主页 : zxctscl 如有转载请先通知 题目 1. 14. 最长公共前缀1.1 分析1.2 代码 2. 5. 最长回文子串2.1 分析2.2 代码 3. 67. 二进制求和3.1 分析3.2 代码 4. 43. 字符串相乘4.1 分析4.2 代码 1. 14. 最长公共前缀 1.1 分析 从第一个字符串开始两两比较&#xff…

LlamaIndex 文档 2

文章目录 一、构建 LLM 应用构建LLM 应用的关键步骤 二、使用LLM可用的LLM使用本地LLM Prompts 三、加载数据(提取)Loaders1、使用 SimpleDirectoryReader 加载2、使用 LlamaHub 的 Readers3、直接创建文档 转换 Transformations1、高级转换 API2、较低级…

Unity URP PBR_Cook-Torrance模型

Cook-Torrance模型是一个微表面光照模型,认为物体的表面可以看作是由许多个理想的镜面反射体微小平面组成的。 单点反射镜面反射漫反射占比*漫反射 漫反射 基础色/Π 镜面反射DFG/4(NV)(NL) D代表微平面分布函数,描述的是法线与半角向量normalize(L…

自编译支持CUDA硬解的OPENCV和FFMPEG

1 整体思路 查阅opencv的官方文档,可看到有个cudacodec扩展,用他可方便的进行编解码。唯一麻烦的是需要自行编译opencv。 同时,为了考虑后续方便,顺手编译了FFMPEG,并将其与OPENCV绑定。 在之前的博文“鲲鹏主机昇腾A…

帆软查询按钮,获取组件值。

【查询】按钮增加点击事件,通过_g().parameterEl.getWidgetByName(‘组件名’).getValue(); 获取组件值。 js脚本示例: var bm _g().parameterEl.getWidgetByName(bm).getValue(); if(!bm || bm.length 0 ) {alert ("没有选择部门,查询速度会很…

解决PyCharm安装第三方库时出现“Error updating package list: Connect timed out”问题

在使用PyCharm开发Python项目时,有时会遇到在安装第三方库时出现“Error updating package list: Connect timed out”的错误。这通常是由于网络连接不稳定或PyPI官方源访问速度较慢导致的。为解决此类问题,本文将介绍以下几种策略: 2. 设置P…

【练习】位运算思想

🎥 个人主页:Dikz12🔥个人专栏:算法(Java)📕格言:吾愚多不敏,而愿加学欢迎大家👍点赞✍评论⭐收藏 目录 1.判断字符串是否唯一 题目描述 讲解 代码实现 2.丢失的数字 题目描述…

重学Java 12 JavaBean

一、JavaBean的使用 1.标准javaBean JavaBean是Java语言编写类的一种标准规范,符合JavaBean的类,要求: ①类必须是具体的(非抽象 abstract)和公共的,public class 类名 ②并且具有无参数的构造方法&#x…

C#泛型,利用反射创建和普通创建泛型

泛型,利用反射创建和普通创建 反射 var input Activator.CreateInstance(typeof(Input<>).MakeGenericType(typeof(T))) as dynamic;typeof(T)这个位置可以塞入不同的类型 Activator.CreateInstance 反射动态创建实例&#xff1a; 这种方式使用 Activator.CreateIns…

Android Studio 之 Intent及其参数传递

一、Intent 显式Intent&#xff1a;通过组件名指定启动的目标组件,比如startActivity(new Intent(A.this,B.class)); 每次启动的组件只有一个~隐式Intent:不指定组件名,而指定Intent的Action,Data,或Category,当我们启动组件时, 会去匹配AndroidManifest.xml相关组件的Intent-…

《6G数据面架构研究》

目录 一、数据服务的定义二、6G数据服务驱动力及面临的挑战6G数据服务的业务驱动6G数据服务的技术驱动6G数据服务的网络内在驱动6G数据面面临的挑战 三、6G数据服务典型场景自动化网络运维用户体验提升通信感知数据服务 四、6G数据面架构研究数据面架构视图功能定义说明&#x…

在Windows上安装Go编译器并配置Golang开发环境

文章目录 1、安装Go语言编译程序1.1、下载GoLang编译器1.2、安装GoLang编译器 2、配置Golang IDE运行环境2.1、配置GO编译器2.1.1、GOROOT 概述2.1.2、GOROOT 作用2.1.2、配置 GOROOT 2.2、配置GO依赖管理2.2.1、Module管理依赖2.2.2、GOPATH 管理依赖 2.3、运行GO程序2.3.1、创…