如何搭建10万个H100 GPU的集群:电力、并行化、网络拓扑与成本优化

引言

在现代人工智能的发展中,构建大规模GPU集群是提升计算能力的关键手段。今天我们探讨如何搭建一个包含10万个H100 GPU的集群。这个项目不仅涉及巨大的资本支出,还面临电力供应、并行化处理、网络拓扑结构以及可靠性和恢复等多方面的挑战。通过深入分析这些问题,本文将为大家揭示构建如此庞大集群的复杂性和关键技术。

电力挑战

搭建一个10万卡的H100 GPU集群,每年的耗电量大约为1.59太瓦时,按照美国电力标准费率计算,每年用电成本达到1.24亿美元。这样的电力消耗不仅要求稳定的电力供应,还需要有效的电力管理策略。

关键部件的功耗
  • GPU功耗:每张H100的功耗为700W。
  • 服务器整体功耗:包括CPU、网卡、供电单元等,约为575W。
  • 其他设备:存储服务器、网络交换机、CPU节点、光纤收发器等,约占总IT功耗的10%。

由于单栋数据中心无法承受150兆瓦的设备功率,10万GPU集群通常需要分布在整个园区中,而非单座大楼。

网络拓扑结构

为了实现高效的数据传输和计算性能,网络拓扑设计至关重要。以下是主要的网络拓扑结构及其特点:

多层交换机架构
  • 小型集群:使用多模收发器,通过一层或两层交换机以400G的速度将每个GPU连接在一起。
  • 大型集群:需要增加更多层的交换机,并使用长距离收发器。通常每栋大楼包含一个或多个pod,通过较为廉价的铜缆或多模收发器连接形成“计算岛”。
并行化挑战

在训练大规模模型时,需要采用数据并行、张量并行和流水线并行等多种并行化方式:

  1. 数据并行:每个GPU拥有模型权重的全部副本,分别保存一部分数据,前向计算过程中每个GPU独自工作,梯度更新时再将所有GPU计算出的梯度相加更新。
  2. 张量并行:神经网络中每层的权重和计算分布在多个GPU上,设备间需要多次归约,适用于高带宽、低延迟的网络环境。
  3. 流水线并行:将前向计算看成流水线,每个GPU负责其中的一环,完成计算后将结果传递给下一个GPU。

为了最大限度地提高模型的FLOP利用率,三种并行模式通常结合使用,形成3D并行。

可靠性与恢复

由于大规模集群的复杂性,可靠性和故障恢复至关重要。常见的可靠性问题包括GPU HBM ECC错误、GPU驱动器卡死、光纤收发器故障、网卡过热等。

  • 热备用节点和冷备用组件:保持较短的平均故障恢复时间,通过现场保留热备用节点和冷备用组件,发生故障时迅速切换。
  • 检查点存储:频繁将检查点存储到CPU内存或NAND SSD,以防出现HBM ECC等错误。
  • 内存重建:通过后端结构从其他GPU进行RDMA复制,最大限度减少数据丢失和恢复时间。

成本优化

在构建和维护10万个H100 GPU集群时,成本优化是一个关键考量因素。以下是几个主要的成本优化策略:

  1. 使用Cedar Fever-7网络模块:代替ConnectX-7网络卡,减少OSFP插槽和收发器数量,从而降低初始作业失败的概率。
  2. 采用Spectrum-X以太网:相比InfiniBand,Spectrum-X以太网提供更高的端口容量和更具成本效益的解决方案。
  3. 部署基于博通Tomahawk 5的交换机:与Nvidia Spectrum-X和InfiniBand相比,具有更低的成本,同时提供相似的网络性能。

总结

搭建一个10万个H100 GPU的集群,需要在电力供应、网络拓扑、并行化处理、可靠性和成本优化等多方面进行综合考虑。通过合理设计和优化,可以在保持高性能的同时,显著降低成本和提高系统的可靠性。

构建如此庞大的集群是一项复杂且昂贵的工程,但它对于推动人工智能技术的发展和应用具有重要意义。希望本文能够为相关从业者提供有价值的参考,帮助大家更好地理解和应对构建大型GPU集群的挑战。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/772964.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

天命奇御下载

解压码/安装码 615634 天翼:https://cloud.189.cn/t/qAjmAnIB3eIv 链接: https://pan.baidu.com/s/1rArV_Q_pB-9U4kEDtWf_gQ 提取码: igaq 天命奇御/官方中文/整合V.2.3DLC伏虎迷蹤/完美学习版下载地址: 点击下载 原始地址:https://www.aiwanba.net/post…

在RT-Thread-Studio中添加arm_math库

1.在CMSIS\Lib\GCC中找到对应的库,如本文使用的libarm_cortexM4lf_math.a。将库拷贝到工程,并做如下图设置。搜索路径为库文件在项目中的实际位置。 2.将CMSIS\DSP\Include下的文件复制到工程目录中,并添加包含路径 3.添加宏定义&#xff0c…

APP自动更换包名和签名系统源码

APP自动更换包名和签名系统源码 系统通过对apk反编译,随机包名,随机签名,混淆代码等方式,回编译生成新的apk安装包通过系统智能自动处理,间隔5分钟(可以自定义时间)生成一个新包,通…

算法思想总结:优先级队列

一、最后一块石头的重量 . - 力扣(LeetCode) 我们每次都要快速找到前两个最大的石头进行抵消,这个时候用优先级队列(建大堆),不断取堆顶元素是最好的!每次删除堆顶元素后,可以自动调整&#xf…

IP地址:网络还是设备的标识符?

在数字化时代,IP地址已成为我们连接互联网、进行信息交流的基石。然而,关于IP地址的分配和来源,很多人可能并不清楚。它究竟是根据网络来分配,还是基于设备来赋予?下面跟着虎观代理小二一起来解析IP地址的奥秘&#xf…

高效使用 Guzzle:POST 请求与请求体参数的最佳实践

介绍 在现代爬虫技术中,高效发送 HTTP 请求并处理响应数据是关键步骤之一。Guzzle 是一个强大的 PHP HTTP 客户端,广泛应用于发送同步和异步请求。本文将介绍如何使用 Guzzle 发送 POST 请求,特别是如何传递请求体参数,并结合代理…

Windows系统安装分布式搜索和分析引擎Elasticsearch与远程访问详细教程

文章目录 前言系统环境1. Windows 安装Elasticsearch2. 本地访问Elasticsearch3. Windows 安装 Cpolar4. 创建Elasticsearch公网访问地址5. 远程访问Elasticsearch6. 设置固定二级子域名 前言 本文主要介绍如何在Windows系统安装分布式搜索和分析引擎Elasticsearch&#xff0c…

HandlerMethodArgumentResolver :深入spring mvc参数解析机制

❃博主首页 &#xff1a; <码到三十五> ☠博主专栏 &#xff1a; <mysql高手> <elasticsearch高手> <源码解读> <java核心> <面试攻关> ♝博主的话 &#xff1a; 搬的每块砖&#xff0c;皆为峰峦之基&#xff1b;公众号搜索(码到三十…

[k8s生产系列]:k8s集群故障恢复,etcd数据不一致,kubernetes集群异常

文章目录 摘要1 背景说明2 故障排查2.1 查询docker与kubelet状态2.2 查看kubelet服务日志2.3 重启docker与kubelet服务2.3.1 首先kubelet启动起来了&#xff0c;但是报错master节点找不到2.3.2 查询kubernetes集群服务&#xff0c;发现etcd与kube-apiserver均启动异常 2.4 etcd…

2024年中国网络安全市场全景图 -百度下载

是自2018年开始&#xff0c;数说安全发布的第七版全景图。 企业数智化转型加速已经促使网络安全成为全社会关注的焦点&#xff0c;在网络安全边界不断扩大&#xff0c;新理念、新产品、新技术不断融合发展的进程中&#xff0c;数说安全始终秉承科学的方法论&#xff0c;以遵循…

Rhino 犀牛三维建模工具下载安装,Rhino 适用于机械设计广泛领域

Rhinoceros&#xff0c;这款软件小巧而强大&#xff0c;无论是机械设计、科学工业还是三维动画等多元化领域&#xff0c;它都能展现出其惊人的建模能力。 Rhinoceros所包含的NURBS建模功能&#xff0c;堪称业界翘楚。NURBS&#xff0c;即非均匀有理B样条&#xff0c;是计算机图…

怎样在Python中使用oobabooga的API密钥,通过端口5000获取模型列表的授权

题意&#xff1a; oobabooga-textgen-web-ui how to get authorization to view model list from port 5000 via the oobas api-key in python 怎样在Python中使用oobabooga的API密钥&#xff0c;通过端口5000获取模型列表的授权 问题背景&#xff1a; I wish to extract an…

抬头显示器HUD原理及特性

HUD基本原理 抬头数字显示仪(Head Up Display)&#xff0c;又叫平视显示系统&#xff0c;它的作用&#xff0c;就是把时速、导 航等重要的行车信息&#xff0c;投影到驾驶员前风挡玻璃上&#xff0c;让驾驶员尽量做到不低头、不转头 就能看行车信息。 HUD成像为离轴三反的过程&…

代码随想录算法训练营第2天|LeetCode977,209,59

977.有序数组平方 题目链接&#xff1a; 977. 有序数组的平方 - 力扣&#xff08;LeetCode&#xff09; 文章讲解&#xff1a;代码随想录 视频讲解&#xff1a; 双指针法经典题目 | LeetCode&#xff1a;977.有序数组的平方_哔哩哔哩_bilibili 第一想法 暴力算法肯定是先将元素…

关于软件本地化,您应该了解什么?

软件本地化是调整软件应用程序以满足目标市场的语言、文化和技术要求的过程。它不仅仅涉及翻译用户界面&#xff1b;它包含一系列活动&#xff0c;以确保软件在目标语言环境中可用且相关。以下是您应该了解的有关软件本地化的一些关键方面&#xff1a; 了解范围 软件本地化是…

【软件测试】之黑盒测试用例的设计

&#x1f3c0;&#x1f3c0;&#x1f3c0;来都来了&#xff0c;不妨点个关注&#xff01; &#x1f3a7;&#x1f3a7;&#x1f3a7;博客主页&#xff1a;欢迎各位大佬! 文章目录 1.测试用例的概念2.测试用例的好处3. 黑盒测试用例的设计3.1 黑盒测试的概念3.2 基于需求进行测…

暗潮短视频:成都柏煜文化传媒有限公司

暗潮短视频&#xff1a;涌动的新媒体力量 在数字化时代的浪潮中&#xff0c;短视频以其独特的魅力和无限的潜力&#xff0c;迅速成为新媒体领域的一股强大力量。而在这片繁荣的短视频领域中&#xff0c;成都柏煜文化传媒有限公司“暗潮短视频”以其独特的定位和深邃的内容&…

论文浅尝 | 从最少到最多的提示可在大型语言模型中实现复杂的推理

笔记整理&#xff1a;王泽元&#xff0c;浙江大学博士 链接&#xff1a;https://openreview.net/forum?idWZH7099tgfM 1. 动机 尽管深度学习已经取得了巨大的成功&#xff0c;但它与人类智慧仍然存在一些明显差距。这些差距包括以下几个方面&#xff1a;1&#xff09;学习新任…

损失函数篇

损失函数 1、边界框损失函数/回归损失函数bbox_loss 2、分类损失函数cls_loss 3、置信度损失函数obj_loss YOLOv8损失函数 1、概述 通过YOLOv8-训练流程-正负样本分配的介绍&#xff0c;我们可以知道&#xff0c;经过预处理与筛选的过程得到最终的训练数据&#xff1a; a…

11 UDP的可靠传输协议QUIC

1.如何做到可靠性传输 2.UDP与TCP,我们如何选择 3.UDP如何可靠,KCP协议在哪些方面有优势 4.KCP协议精讲(重点讲解 5.OUIC时代是否已经到来 UDP如何做到可靠传输 ACK机制重传机制 重传策略序号机制(后发的包可能先到) 3 2 1-> 2 3 1重排机制 2 3 1-> 3 2 1窗口机制 流…