图解第五代英特尔至强可扩展处理器

图片

四年五节点,一年出两代。在年初推出代号Sapphire Rapids(蓝宝石激流,SPR)的第四代英特尔至强可扩展处理器之后,仅隔11个月,代号Emerald Rapids(绿宝石激流,EMR)的第五代英特尔至强可扩展处理器,又向我们走来了。

然而业界并不慌乱,因为这两代Rapids共用Eagle Stream(EGS)平台,主板不用换,原则上只需要更新固件,为第四代英特尔至强可扩展处理器准备的服务器,就可以支持第五代英特尔至强可扩展处理器啦。

图片

五代至强可扩展,我有一Die您上眼

这种一个平台服务两代CPU的事情比较常见,远一些的有22nm的英特尔至强(Xeon)E5 v3和14nm的E5 v4,最大核心数从18个提高到22个(E7可达24个),TDP维持在145/160W(工作站版)。

然后14nm就开始限制更名为至强可扩展(Xeon Scalable)处理器的至强系列CPU的继续扩展:从第一、二代至强可扩展处理器,到第三代中先面市的四至八路版本(代号Cooper Lake-SP),基本没超出单die(晶片)提供最多28个核心的范畴,说是原地踏步也不为过。

图片

第五代英特尔至强可扩展处理器与第四代都采用Intel 7制程,即“四年五个制程节点”计划中的第一个制程节点。我们在英特尔公司的Jones Farm会议中心学习第五代英特尔至强可扩展处理器相关知识的时候,CEO帕特·基辛格(Pat Gelsinger)突然现身,为即将发布的新CPU站台。

大领导犯不上给一款疑似“摸鱼”的产品背书,与SPR相比,EMR有几处明显的改进,集中在XCC(eXtreme Core Count,最多核or极多核)版本上,体现了大英打磨Intel 7制程的成效。

图片

英特尔首席执行官帕特·基辛格手举第五代英特尔至强可扩展处理器,旁边的女士是英特尔公司副总裁、英特尔至强产品和解决方案事业部总经理Lisa Spelman。注意大屏幕两侧分成左右两部分的EMR-XCC

第四代英特尔至强可扩展处理器开始采用业界流行的Chiplet(芯粒)技术,(XCC版本)由4片(tile)对等的die通过10个EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)连为一体,提供最多60个核心、112.5MB末级缓存(Last Level Cache,LLC),即每核心1.875MB的L3 Cache。实际上,只有支持八路(8S)配置的至强铂金8490H达到60个核心,“主流”的最高核心数为56个。

更简洁,更强大

相比之下,第五代英特尔至强可扩展处理器(XCC版本),die变少了,也变强了。

一方面,EMR-XCC把die的数量从SPR-XCC的4个减半为2个,仍然是互为镜像的方式,但只需要3个EMIB,可以大大简化封装环节的工作量。

图片

左侧SPR-XCC的EMIB连接,有点过于抽象

从效果图来看,EMR-XCC的每个die上,核心/缓存复合体与DDR5内存控制器组成7×5的2D-Mesh网格,减去“腰部”两侧各占1格的DDR5控制器,理论上可以提供33个核心,2个die就是66个。第五代英特尔至强可扩展处理器最多提供64个核心,即每个die少启用1个核心,毕竟单die的核心数比上一代多了一倍多,“我全都要”对良率的挑战实在是有点大。

有舍有得,从目前公开的SKU来看,第五代英特尔至强可扩展处理器有3款64核心,与第四代英特尔至强可扩展处理器和至强CPU Max系列(前者的HBM版本)的60核加56核的数量持平。

图片

另一方面,特别体现Intel 7优化功力的,当属EMR-XCC的L3 Cache(LLC)容量,从第四代英特尔至强可扩展处理器的1.875MB,暴涨至5MB,第五代英特尔至强可扩展处理器的最大LLC容量也来到320MB,都有接近三倍的提升。

内存:提频与扩展

内存子系统的升级贯穿第五代英特尔至强可扩展处理器全系,以缓解核心数增长带来的内存带宽压力(内存墙)。支持的DDR5内存最高频率从第四代英特尔至强可扩展处理器的4800MHz提高到5600MHz,幅度超过16%,略胜于核心数的增加;最低档也从4000MHz提高到4400MHz,即10%的幅度。

图片

增加内存通道的数量是提高内存带宽的另一种手段,譬如采用Intel 3制程的下一代至强处理器将把每CPU的内存通道数扩充到12个。无论是当前的主板布局,还是从兼容第四代英特尔至强可扩展处理器的角度,都不允许第五代英特尔至强可扩展处理器这样做,但是呢,要变通,总能找到办法。

我们知道,第四代英特尔至强可扩展处理器支持CXL(Computer Express Link)1.1规范的Type 1和Type 2设备,第五代英特尔至强可扩展处理器则加入了Type 3内存支持,允许单层或两层内存配置:

  • 两层内存支持聚焦容量扩展,第一层(Tier 1)是内存控制器下辖的8个DDR内存通道,第二层(Tier 2)是跨2个CXL Type 3设备提供的4个CXL内存通道,应用场景如提高内存数据库(如Redis)的TPS;

  • 单层内存支持就是把上面两层合并,提供12通道DDR + CXL交错传输,容量和带宽双丰收。

图片

当然,构筑在PCIe 5.0之上的4个CXL内存通道,带宽比“货真价实”的4个DDR内存通道,相差得有一个数量级,更像凑数的。

I/O、互连,加速、节能

第五代英特尔至强可扩展处理器的PCIe 5.0通道数还是80个,这样主板也不用更改。但是XCC版本的die上留给PCIe控制器“浪费”的硅片面积似有减少,更趋近于MCC版本,代价是112个PCIe 5.0的至强W处理器可能不会有了。

图片

EMR-XCC的四个角各有1个UPI和1组加速器,每个die上的UPI和2组加速器之间,是占据3个网格宽度的PCIe 5.0控制器,共6个

用于CPU之间互连的UPI 2.0,速率从第四代英特尔至强可扩展处理器的16GT/s提升到20GT/s,幅度达25%。但是,第五代英特尔至强可扩展处理器只支持双路(2S)互连,不支持四路(4S)或八路(上一代中后缀为H的SKU),带HBM内存的至强Max系列也暂时没有更新——虽然其高内存带宽在大语言模型(LLM)的推理场景很有价值。

从上述迹象来看,第五代英特尔至强可扩展处理器不会完全替代第四代英特尔至强可扩展处理器,两者会有相当程度的并存。

虽然最大核心数和LLC有不同程度的增长,第五代英特尔至强可扩展处理器标称的TDP(Thermal Design Power,热设计功率)仍把持在350W(瓦)这条线,只有一款液冷通用产品(8593Q)超出10%。根据英特尔提供的资料,第五代英特尔至强可扩展处理器在较低利用率(如30~40%)下的能耗得到优化,可以降低用户的供电和制冷成本。

图片

需要注意的是,EMR最重大的提升——LLC容量,只限于XCC版本,核心数不超过32个的MCC(Medium Core Count,中等核数)版本,可能因为仍是单晶片(Single Monolithic Die)架构的缘故,看起来只做了微调,升级体现在核数、频率、TDP的小幅增加,或者DDR5内存频率上一两个台阶(以400MHz为单位)。

在不超过20个核心的领域,还有所谓EE LCC的SKU。LCC即Low Core Count(低核数),EE代表Edge Enhanced(边缘增强)。第四代英特尔至强可扩展处理器已低调推出过EE LCC和EE MCC的SKU,后缀以N或NE结尾,AMX(Advanced Matrix Extensions,高级矩阵扩展)支持并不普遍,标配加速器有DSA和专用的vRAN加速设备各一。

外围I/O配置上,这两代至强可扩展处理器在XCC和MCC上的规律应该还是相同的,譬如:XCC可以有4个UPI(分布在四角),MCC的UPI不超过3个。

图片

第四代英特尔至强可扩展处理器的加速器,得到了继承

我们知道,第四代英特尔至强可扩展处理器引入了4种外挂的加速器,分别是:

  • DSA:数据流加速器(Data Streaming Accelerator),优化流数据移动和转换操作;

  • QAT:QuickAssist技术,用于加速加解密和数据压缩解压缩;

  • DLB:动态负载均衡器(Dynamic Load Balancer),用于网络功能;

  • IAA:存内分析加速器(In-Memory Analytics Accelerator),用于高级数据分析。

这4种外挂加速器,可以理解为集成在CPU上的PCIe加速卡。每个公开的SKU都至少开启1个DSA设备,通用(General Purpose)型SKU最后以 + 号结尾的有DSA、QAT、DLB和IAA设备各一。除最低端的3508U之外,都支持Intel On Demand技术以启用更多加速器,区别在于,XCC版本每种加速器都可以增至4个,MCC版本就只有QAT和DLB能增加到2个,DSA和IAA最多各1个。

图片

在快进到具体SKU解读之前,最后重申一下基本规则,即SKU的第二位数字5代表第五代英特尔至强可扩展处理器,第一位数字代表所处等级:

  • Platinum(铂金)→ 8

  • Gold(金)→ 和 5

  • Silver(银)→ 4

  • Bronze(铜)→ 3

如前所述,第五代英特尔至强可扩展处理器最多支持双路,所以没有后缀为H的4S/8S版本,也没有9开头的HBM衍生版本(Xeon Max),目前公开的32个SKU分为8类,主要靠后缀识别。

只有4位数字,以及 Y 和/或 + 结尾的是通用型,占总数近六成,又细分为性能和主流两类。

(注:表中列出两代CPU的相关型号以便对比,第五代英特尔至强可扩展处理器及其参数突出显示,Long life一栏只显示第五代的情况)

2S性能通用

图片

前一代在这个组的旗舰是(Platinum) 8480+,从SKU编号上看平替它的应该是8580,两者在发布时的建议价格(初始价格)完全相同,本组存在这种情况的还有8562Y+、6542Y、6544Y和6526Y。

8580的核心数比8480+多了4个,LLC容量接近三倍,DDR5内存频率高出800MHz,CPU运行频率基本相当,这种情况在XCC中很有代表性,8570和8568Y+甚至在运行频率上还小有优势。但是8580不带 +,意味着只有1个DSA开启,全面超越的任务由64核的8592+完成,其LLC容量甚至略超8480+的三倍。

从8562Y+向下,进入MCC区间,核心数和LLC容量基本与前代相当,优势主要体现在DDR5内存通道的频率上,6548Y+、6542Y、6526Y和5515+以TDP的小幅上升换取了更高的CPU运行频率。

2S主流通用

图片

扛旗的8558核心数有48个不算少,但LLC容量掉到260MB,DDR5频率也非顶级。

32核的(Gold) 6530突然爆种,LLC容量达到160MB,接近6430的三倍,如果后者不是XCC的血统,真要怀疑60MB前面多写了个1。

本组其他选手都在MCC区间,6538Y+、6530和4510在初始定价上有“平替”前任的意思,还多了个8核的(Silver) 4509Y。

液冷通用(-Q)

图片

8593Q可称真旗舰,基频与全核睿频都高于8592+,TDP也来到385W,反正有液冷加持。

6558Q在主要参数和初始定价上,都像奔着平替6458Q来的。

单路通用(-U)

图片

8558U拉高本组上限,但在8558中算弱的,从CPU频率到内存频率,乃至TDP,都有所下降。

5512U的核心数、LLC容量和DDR5内存频率,都比5412U有所提升,TDP则持平。

(Bronze) 3508U在主要参数和初始定价上,也像奔着平替3408U来的。

5G/网络优化(-N)

图片

8571N的LLC容量是本组核心数相同两款前辈的三倍还多,IAA也拉满,运行频率明显提高,而TDP并没有增长。

6538N与6438N初始定价相同,频率更高。

云优化 IaaS(-P)/ SaaS(-V)

图片

8592V的基频比8592+略高,但UPI少1个,DDR5内存频率和TDP略低。

8558P与8458P初始定价相同,核心数和频率都提高了,最关键是LLC容量有三倍多,很有诱惑力的样子。

媒体专用(-M)的SKU在这一代消失了。

存储与超融合(HCI)优化(-S)

图片

6554S与6454S都是QAT、DSA、DLB全开,初始定价相同,新品睿频更高,三倍的LLC容量,TDP不变。

长使用寿命(IoT)通用(-T)

图片

为边缘应用优化,目前只有4510T一款产品。不过从上面的那些表格来看,有小一半的SKU具备“长寿”能力的样子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/330682.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

uniapp写微信小程序实现电子签名

写电子签名一定要注意的是一切全部按照手机上的适配来,为啥这么说呢,因为你在微信开发者工具中调试的时候认为是好的,正常的非常nice,当你发布版本的时候你会发现问题出来了。我下边的写法你可以直接用很简单。就是要记住canvas的几个属性和用…

CSC8021_computer network_The Application Layer

The Role of the Application layer The Application layer is the interface between the network and its users › It contains network services (e.g. DNS) › It contains user applications (e.g. email, web browsing) Domain Name System (DNS) › The …

51单片机_智能家居终端

实物演示效果: https://www.bilibili.com/video/BV1bh4y1A7ZW/?vd_source6ff7cd03af95cd504b60511ef9373a1d 51单片机是否适合做多功能智能家居控制系统?51单片机的芯片是否具有与WiFi通信的能力?如果有的话,具体有哪些芯片啊&a…

安泰高压放大器设计的意义及其应用价值

高压放大器的设计是电子工程领域中的重要课题。其意义在于提供强大的放大能力,将高电压信号放大到所需的输出水平。高压放大器在多个领域具有广泛应用,包括科学研究、医疗设备、工业驱动和能量传输等。下面安泰电子将带来高压放大器设计的意义和其所带来…

豆瓣酱生产加工污水处理需要哪些工艺设备

酱生产加工工程中,污水处理是一个至关重要的环节。豆瓣酱作为一种传统的食品调料,由于其酱豆和辅料的混合,往往会产生大量的污水。为了实现环境友好型生产,保护我们的大自然,豆瓣酱生产厂家需要采用一些科学先进的工艺…

SpringBoot 2.x 正式停更了。Java 8 由 Solon 接收!

最近有好多个新闻说:SpringBoot 2.x 正式停更了,Java 8 怎么办?当然用 Solon 喽! Solon,同时支持 jdk8, jdk11, jdk17, jdk21。也支持 graalvm native image。既支持 java8,也支持 java21 的: …

基于springboot+vue的网上订餐系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目背景…

Baumer工业相机堡盟工业相机如何联合NEOAPI SDK和OpenCV实现Mono12和Mono16位深度的图像保存(C#)

Baumer工业相机堡盟工业相机如何联合BGAPI SDK和OpenCVSharp实现Mono12和Mono16位深度的图像保存(C#) Baumer工业相机Baumer工业相机保存位深度12/16位图像的技术背景代码案例分享1:引用合适的类文件2:NEOAPI SDK联合OpenCV进行图…

centos7 arm服务器编译升级安装动态库libstdc++.so.6,解决GLIBC和CXXABI版本低的问题

前言 由于centos7内置的libstdc.so.6版本太低,导致安装第三方包的时候,会报“CXXABI_1.3.8”不存在等问题。 自带的打印如下: strings /usr/lib64/libstdc.so.6 | grep GLIBC strings /usr/lib64/libstdc.so.6 | grep CXXABI 如图 升级 注…

数据结构之串

数据结构之串 1、串的定义及基本运算2、串的存储结构3、串的模式匹配 数据结构是程序设计的重要基础,它所讨论的内容和技术对从事软件项目的开发有重要作用。学习数据结构要达到的目标是学会从问题出发,分析和研究计算机加工的数据的特性,以便…

16bit半精度浮点加乘法(用于结果验证)-图形测试小程序(python)

测试: 代码如下: import tkinter as tk import struct from tkinter import Entry, Button, Labeldef float_to_binary_16(value):# 将浮点数转换为16位二进制表示binary_representation struct.pack(!e, value)binary_string .join(f{byte:08b} for…

Ubuntu20.4 Mono C# gtk 编程习练笔记(二)

界面设计习练后,下面写一些程序设计心得。 程序结构 先看一下程序总体结构,先在program.cs中找到main入口,在命名空间下是MainClass类,Main函数进入后首先建立应用程序环境 Application.Init,然后对MainWindow进行实…

css实现动态水波纹效果

效果如下: 外层容器 (shop_wrap): 设置外边距 (padding) 提供一些间距和边距 圆形容器 (TheCircle): 使用相对定位 (position: relative),宽度和高度均为 180px,形成一个圆形按钮圆角半径 (border-radius) 设置为 50%&…

【性能调优】local模式下flink处理离线任务能力分析

文章目录 一. flink的内存管理1.Jobmanager的内存模型2.TaskManager的内存模型2.1. 模型说明2.2. 通讯、数据传输方面2.3. 框架、任务堆外内存2.4. 托管内存 3.任务分析 二. 单个节点的带宽瓶颈1. 带宽相关理论2. 使用speedtest-cli 测试带宽3. 任务分析3. 其他工具使用介绍 本…

生物识别规划人脸识别芯片方案的概述和特点

方案概述 人脸识别方案采用高性能AI芯片,支持RGB和IR摄像头, 支持LCD显示屏。 方案特点 • 普通RGB摄像头和IR摄像头同时参与3D成像RGB摄像头 支持屏幕回显 • 双目摄像头得到特征点视差计算人脸相 对3D深度信息, 同时利用可见光和红外 光谱信…

达梦数据库入门语法:从基础到进阶的指南

目录 博客前言: 达梦数据库语法介绍 一.创建表空间 1.图形化创建 2.语法创建 ​编辑​编辑 3.修改表空间参数 图形化修改 ​编辑​编辑 语法修改 4.设置加密算法、密码 二.创建用户 1.图形化 2.sql执行 ​编辑 3.授予权限 授予用户 DBA 权限 授予用户…

运算符和表达式

表达式 表达式是由运算符、运算量和标点符号组成的有效序列,其目的是用来说明一个计算过程,表达式可以独立成句,一般形式为: 表达式; 运算符 运算符可以按照功能分为:算术运算符、赋值运算符、关系运算…

【 文本到上下文 #4】NLP 与 ML

一、说明 欢迎回到我们的 NLP 博客系列!当我们进入第四部分时,焦点转移到机器学习 (ML) 和自然语言处理 (NLP) 之间的动态相互作用上。在本章中,我们将深入探讨 ML 和 NLP 的迷人协同作用&#…

PLSQL 把多个字段转为json格式

PLSQL 把多个字段转为json格式 sql Select cc.bm, cc.xm, json_arrayagg(cc.hb) jgFrom (Select aa.bm, aa.xm, json_object(aa.ksbh, aa.wjmc) hbFrom (Select 001 bm, 老六 xm, 0001 ksbh, 文具盒 wjmcFrom dual tUnion AllSelect 001 bm, 老六 xm, 0002 ksbh, 毛笔 wjmcFr…

LabVIEW精确测量产品中按键力和行程

项目背景 传统的按键测试方法涉及手工操作,导致不一致和效率低下。在汽车行业中,带有实体按键的控制面板非常常见,确保一致的按键质量至关重要。制造商经常在这些组件的大规模、准确测试中遇到困难。显然,需要一个更自动化、精确…