HuaWei、NVIDIA 数据中心 AI 算力对比

HuaWei Ascend 910B


Ascend 910B 是 HuaWei 于 2023 年推出的高性能 AI 处理器芯片,其对标产品为 Nvidia A100/A800,其算力表现如下:


  1. 峰值算力:Ascend 910B 的半精度(FP16)算力达到 256 TFLOPS(每秒 256 万亿次浮点运算)。
  2. 整数精度算力:Ascend 910B 的整数精度(INT8)算力达到 512 Tera-OPS。
  3. 单精度算力:Ascend 910B 的单精度(FP32)算力达到 128 TFLOPS。
  4. 能效比:Ascend 910B 的每瓦特性能达到 5.2 TFLOPS/W,相较于英伟达 A100 的每瓦特性能 4.7 TFLOPS/W,Ascend 910B 在能效上更优。
  5. 内存带宽:Ascend 910B 的内存带宽为 768 GB/s。
  6. 互连带宽:Ascend 910B 的芯片间互连带宽为 600GB/s,卡间互连带宽为 PCIe 4.0 x16,理论带宽 31.5GB/s。
  7. 功耗:Ascend 910B 的最大功耗为 350W。
  8. AI 算力对比:科大讯飞与华为联合优化后,在他们的场景中 Ascend 910B 已经达到 NVIDIA A100 的性能。

NVIDIA A100

数据精度A100 80GB PCIeA100 80GB SXM
FP649.7 TFLOPS9.7 TFLOPS
FP64 Tensor Core19.5 TFLOPS19.5 TFLOPS
FP3219.5 TFLOPS19.5 TFLOPS
Tensor Float 32 (TF32)156 TFLOPS312 TFLOPS
BFLOAT16 Tensor Core312 TFLOPS624 TFLOPS
FP16 Tensor Core312 TFLOPS624 TFLOPS
INT8 Tensor Core624 TOPS1248 TOPS
GPU Memory80GB HBM2e80GB HBM2e
GPU Memory Bandwidth1935 GB/s2039 GB/s
TDP 功耗300W400W
插槽类型PCIe 4.0SXM

NVIDIA H100

NVIDIA H100 Tensor Core GPU

数据精度H100 SXMH100 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory80GB94GB
GPU Memory Bandwidth3.35TB/s3.9TB/s
TDP 功耗700 W400 W
插槽类型SXMPCIe 5.0

基于 PCIe 的 NVIDIA H100 NVL(带有 NVLink 桥接)利用 Transformer Engine、NVLink 和 188GB HBM3 内存,在任何数据中心提供最佳性能和轻松扩展,使大型语言模型成为主流

NVIDIA H200

NVIDIA H200 Tensor Core GPU

数据精度H200 SXMH200 NVL
FP6434 TFLOPS30 TFLOPS
FP64 Tensor Core67 TFLOPS60 TFLOPS
FP3267 TFLOPS60 TFLOPS
TF32 Tensor Core989 TFLOPS835 TFLOPS
BFLOAT16 Tensor Core1979 TFLOPS1671 TFLOPS
FP16 Tensor Core1979 TFLOPS1671 TFLOPS
FP8 Tensor Core3958 TFLOPS3341 TFLOPS
INT8 Tensor Core3958 TOPS3341 TOPS
GPU Memory141GB141GB
GPU Memory Bandwidth4.8TB/s4.8TB/s
TDP 功耗700 W600 W
插槽类型SXMPCIe 5.0

基于 NVIDIA Hoppe 架构,NVIDIA H200 是首款提供 141GB(吉字节)HBM3e 内存、内存带宽达 4.8TB/s(太字节每秒)的 GPU

NVIDIA GB200 & GB200 NVL72

数据精度GB200 NVL72GB200
Configuration36 Grace CPU : 72 Blackwell GPUs1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core1440 PFLOPS40 PFLOPS
FP8/FP6 Tensor Core720 PFLOPS20 PFLOPS
INT8 Tensor Core720 POPS20 POPS
FP16/BF16 Tensor Core360 PFLOPS10 PFLOPS
TF32 Tensor Core180 PFLOPS5 PFLOPS
FP326480 TFLOPS180 TFLOPS
FP643240 TFLOPS90 TFLOPS
FP64 Tensor Core3240 TFLOPS90 TFLOPS
GPU MemoryUp to 13.5 TB HBM3eUp to 384 GB HBM3e
GPU Bandwidth576 TB/s16 TB/s
NVLink Bandwidth130TB/s3.6TB/s
CPU Core Count2592 Arm Neoverse V2 cores72 Arm Neoverse V2 cores
CPU MemoryUp to 17 TB LPDDR5XUp to 480GB LPDDR5X
CPU BandwidthUp to 18.4 TB/sUp to 512 GB/s

GB200 NVL72 架构组成:

  • 将 36 个 Grace Blackwell 超级芯片组合在一起,包含 72 个 Blackwell GPU 和 36 个 Grace CPU,通过第五代 NVLink 技术相互连接
  • 每个 Grace Blackwell 超级芯片包含两个高性能的 NVIDIA Blackwell Tensor Core GPU 和一个 NVIDIA Grace CPU,使用 NVIDIA NVLink-C2C 连接

码字不易,若觉得本文对你有用,欢迎点赞 👍、分享 🚀 ,相关技术热点时时看🔥🔥🔥​​​…


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/943770.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

01.HTTPS的实现原理-HTTPS的概念

01.HTTPS的实现原理-HTTPS的概念 简介1. HTTPS的概念和安全性2. HTTPS的实现原理3. HTTPS和HTTP的区别4. OSI七层协议模型5. SSL和TLS的区别 简介 该系列文章主要讲述了HTTPS协议与HTTP协议的区别,以及HTTPS如何实现安全传输。内容分为三部分:HTTPS的实…

windows10下使用沙盒多开uiautoanimation可行性验证

文章目录 ⭐前言⭐sandboxie下载使用⭐pyinstaller打包python的uiautoanimation成exe⭐结论⭐结束 ⭐前言 大家好,我是yma16,本文分享windows下使用沙盒多开uiautoanimation可行性验证。 背景 实现多开应用程序从而进行自动化控制,批量处理大…

视频汇聚融合云平台Liveweb一站式解决视频资源管理痛点

随着5G技术的广泛应用,各领域都在通信技术加持下通过海量终端设备收集了大量视频、图像等物联网数据,并通过人工智能、大数据、视频监控等技术方式来让我们的世界更安全、更高效。然而,随着数字化建设和生产经营管理活动的长期开展&#xff0…

RabbitMQ工作模式(详解 工作模式:简单队列、工作队列、公平分发以及消息应答和消息持久化)

文章目录 十.RabbitMQ10.1 简单队列实现10.2 Work 模式(工作队列)10.3 公平分发10.4 RabbitMQ 消息应答与消息持久化消息应答概念配置 消息持久化概念配置 十.RabbitMQ 10.1 简单队列实现 简单队列通常指的是一个基本的消息队列,它可以用于…

No Python at ‘C:\Users\MI\AppData\Local\Programs\Python\Python39\python.exe‘

目录 一、检查环境配置 1.1 安装键盘“winR”键并输入cmd 1.2 输入“python” 二、解决问题 2.1 检查本地的python配置路径 2.2 打开PyCharm的Settings 2.3 找到Python Interpreter 2.4 删除当前python版本 2.5 新添版本 PyCharm运行时出现的错误: No Py…

EMQX5.X版本性能配置调优参数

EMQX 主配置文件为 emqx.conf,根据安装方式其所在位置有所不同: 安装方式配置文件所在位置DEB 或 RPM 包安装/etc/emqx/emqx.confDocker 容器/opt/emqx/etc/emqx.conf解压缩包安装./etc/emqx.conf EMQ X 消息服务器默认占用的 TCP 端口包括: 端口 说明…

项目报 OutOfMemoryError 、GC overhead limit exceeded 问题排查以及解决思路实战

项目报 OutOfMemoryError、GC overhead limit exceeded 问题排查以及解决思路实战 前言: 问题现象描述: 1,生产环境有个定时任务,没有初始化告警数据【告警数据量为1000多个】 2,其他定时任务执行正常 3,查…

xinput1_3.dll放在哪里?当xinput1_3.dll丢失时的应对策略:详细解决方法汇总

在计算机系统的运行过程中,我们偶尔会遇到一些令人困扰的问题,其中xinput1_3.dll文件丢失就是较为常见的一种情况。这个看似不起眼的动态链接库文件,实则在许多软件和游戏的正常运行中发挥着至关重要的作用。一旦它丢失,可能会导致…

【Compose multiplatform教程12】【组件】Box组件

查看全部组件文章浏览阅读493次,点赞17次,收藏11次。alignment。https://blog.csdn.net/b275518834/article/details/144751353 Box 功能说明:简单的布局组件,可容纳其他组件,并依据alignment属性精确指定内部组件的对…

MySql:复合查询

✨✨作者主页:嶔某✨✨ ✨✨所属专栏:MySql✨ 准备工作,创建一个雇员信息表(来自oracle 9i的经典测试表) EMP员工表DEPT部门表SALGRADE工资等级表 多表查询 显示雇员名,雇员工资以及所在部门的名字 因为…

从零创建一个 Django 项目

1. 准备环境 在开始之前,确保你的开发环境满足以下要求: 安装了 Python (推荐 3.8 或更高版本)。安装 pip 包管理工具。如果要使用 MySQL 或 PostgreSQL,确保对应的数据库已安装。 创建虚拟环境 在项目目录中创建并激活虚拟环境&#xff…

基于PREEvision的UML设计

众所周知,PREEvision是一款强大的电子电气架构协同开发及管理软件,可以很好地帮助架构工程师完成架构开发工作,其功能包括需求管理、定义功能逻辑、系统软件开发、网络设计、线束设计及整体工程的产品线管理和变形管理等。随着工程师们越来越…

Azure Function 解决跨域问题

这边前端call本地部署的azure function出现了跨域问题,搜索一下解决方案 直接修改local.setting.json,在其中添加CORS配置为通配符”*”,就行了 local.settings.json {"IsEncrypted": false,"Values": {"PYTHON_E…

Ubuntu离线安装Docker容器

前言 使用安装的工具snap安装在沙箱中,并且该沙箱之外的权限有限。docker无法从其隔离的沙箱环境访问外部文件系统。 目录 前言准备环境卸载已安装的Docker环境快照安装的Dockerapt删除Docker 安装docker-compose下载执行文件将文件移到 /usr/local/bin赋予执行权限…

CMake 构建项目并整理头文件和库文件

本文将介绍如何使用 CMake 构建项目、编译生成库文件,并将头文件和库文件整理到统一的目录中以便在其他项目中使用。 1. 项目结构 假设我们正在构建一个名为 rttr 的开源库,初始的项目结构如下: D:\WorkCode\Demo\rttr-master\|- src\ …

JAVA HTTP压缩数据

/*** 压缩数据包** param code* param data* param resp* throws IOException*/protected void writeZipResult(int code, Object data, HttpServletResponse resp) throws IOException {resp.setHeader("Content-Encoding", "gzip");// write到客户端resp…

公路边坡安全监测中智能化+定制化+全面守护的应用方案

面对公路边坡的安全挑战,我们如何精准施策,有效应对风险?特别是在强降雨等极端天气下,如何防范滑坡、崩塌、路面塌陷等灾害,确保行车安全?国信华源公路边坡安全监测解决方案,以智能化、定制化为…

uniapp 微信小程序 数据空白展示组件

效果图 html <template><view class"nodata"><view class""><image class"nodataimg":src"$publicfun.locaAndHttp()?localUrl:$publicfun.httpUrlImg(httUrl)"mode"aspectFit"></image>&l…

41.欠采样技术下变频不能用与跨两个nyquist的情况下

当接收到的信号位于同一nyquist区间时&#xff0c;信号被成功的折叠到了第一Nyquist区间中。 当接收信号位于两个或多个采样区间时&#xff0c;最后多个区间的信号都会被折叠到第一Nyquist区间中造成信号的重叠。

AI新书推荐:深度学习和大模型原理与实践(清华社)

本书简介 在这个信息爆炸、技术革新日新月异的时代&#xff0c;深度学习作为人工智能领域的重要分支&#xff0c;正引领着新一轮的技术革命。《深度学习和大模型原理与实践》一书&#xff0c;旨在为读者提供深度学习及其大模型技术的全面知识和实践应用的指南。 本书特色在于…