大模型加持AI技术赛道革新发展,“大模型热”愈演愈烈。2024年2月15日,OpenAI首个视频生成模型Sora发布,完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟全尺寸的高清视频。2024年5月14日,OpenAI发布GPT-4o,可以综合利用语音、文本和视觉信息进行推理,并生成文本、音频和图像的任意组合输出。国内厂商也持续更新迭代技术底座及模型能力,Kimi的爆火推动国内大模型竞争,电信星辰TeleChat开源、智谱GLM-4、讯飞星火3.5陆续升级发布。AI发展已经带动GPU行业高速发展,整个数据科学/AI计算几乎全部在GPU上完成。
本文智算中心GPU选型从计算能力、应用场景、能耗消耗、市场生态四个方面分析,为智算中心建设提供不同视角。
01计算能力
AI应用场景受GPU算力、GPU显存、显存带宽、GPU互联带宽等主要因素影响。大模型通常使用混合精度进行计算,其中主要参数为FP16和FP32,同时部分计算过程通过减少精度采用INT8加速计算过程;GPU显存制约加载模型及数据量的大小,显存越大可加载的模型数据量越多,显存带宽则制约显存的读写速率;GPU互联不同GPU类型采用不同的互联技术,例如一台8卡NV H100节点内采用NVLink互联,带宽900GB/s, 华为昇腾910B采用HCCS互联,带宽达392GB/s,带宽越高GPU之间模型计算效率越高。
02应用场景
不同类型GPU卡提供不同的算力以及显存、带宽,所适用的AI应用场景也不一样。目前国内主要大模型玩家仍然在卷大模型,参数量和数据集越来越大,所需算力越高,场景化大模型将快速迭代,伴随着AI应用规模落地,推理算力增长空间将高于训练。
对于渲染类的应用场景,部分卡由于提供RT core渲染计算能力,所以能更好的的支持图形、视频等渲染场景,现在比较流行的文生图、图生图、文生视频的AI软件Midjourney/Stable Diffusion都比较适合运行在这种类型卡上。
GPU类型 | 适用场景 |
A100/A800 | 训练、微调和推理场景 |
H100/H800 | 训练、微调和推理场景 |
RTX4090 | 微调和推理、渲染场景 |
L40S | 训练、微调和推理、渲染场景 |
H20 | 训练、微调和推理场景 |
L20 | 微调和推理场景 |
昇腾910B | 训练、微调和推理场景 |
天垓150 | 训练、微调和推理场景 |
智铠100 | 微调和推理场景 |
曦云C500 | 训练、微调和推理场景 |
MTT S4000 | 微调和推理场景 |
云燧T21 | 训练、微调和推理场景 |
MLU370-X8 | 微调和推理场景 |
03能耗消耗
相对于传统的CPU数据中心,智算数据中心需要提供更多的电力来支撑GPU的AI计算,而GPU是耗电大户,也是智算中心运营是否能取得更好收益的关键因素。通常国内发达地区数据中心机房的租赁费用在800-1100元/KW/月,而西部地区租赁费用相对较低,500-800元/KW/月。选择合适的GPU卡,以及更低价的电费将影响智算中心整体收益。
GPU类型 | 单卡能耗(W) |
A100/A800 | 400 |
H100/H800 | 700 |
RTX4090 | 450 |
L40S | 350 |
H20 | 400 |
L20 | 275 |
昇腾910B | 350 |
天垓150 | 350 |
智铠100 | 150 |
曦云C500 | 350 |
MTT S4000 | 450 |
云燧T21 | 400 |
MLU370-X8 | 250 |
04市场生态
基于业界主流、开源、开放的软件生态建设智算中心,是智算中心能够满足前沿AI计算需求、提升AI创新和生产效率、丰富行业AI应用、促进AI产业快速发展的主要前提。
提及生态,GPU生态的奠基者CUDA是无法绕过的。如今整个科学计算、AI的软件生态大多构建在CUDA的基础之上。CUDA的两大生态护城河:软件库覆盖率、AI框架支持度。CUDA是软件生态的标杆,从软件库的覆盖面、AI框架和算子库的支持程度两方面来讲,都是目前最完善的。CUDA所包含的生态组分众多,包含编程语言和API、开发库、分析和调试工具、数据中心和集群管理工具,以及GPU硬件等多个大类。CUDA软件栈为深度学习的应用开发和计算加速提供了丰富的底层支撑,如张量和卷积计算加速、芯片互联通信加速、数据预处理加速、模型低精度推理加速等。CUDA生态由英伟达主导,国产GPU厂家则各自采用不同架构,通过兼容CUDA或自有生态来满足前沿AI计算需求。例如采用GPGPU架构的天数智芯、沐曦等厂家,采用NPU架构的华为昇腾系列。
选择合适的GPU型号是智算中心成功建设和运营的关键因素,本文从计算能力、应用场景、能耗消耗、市场生态四个方面介绍了不同类型GPU卡的相关特点,为智算中心建设提供参考。
相关阅读:
九州未来受邀参加“浪潮网络2024新品发布暨合作伙伴大会”,分享智算中心建设和运营成果及经验。