AI 驱动的数据中心变革与前景

图片

文章主要探讨了AI计算时代数据中心的转型,涉及计算技术的多样性、规格尺寸和加速器的发展、大型语言模型(LLM)的发展、功耗和冷却趋势、基准测试的重要性以及数据中心的发展等方面。为大家提供深入了解AI基础设施发展的视角。

 计算技术的多样性与应用场景

1. CPU:作为数据中心的传统“主力军”,在推理任务中表现出色,特别是配备充足内存的CPU在处理繁重图像处理任务时具有优势,但在快速计算能力方面不及GPU。

2. GPU:最初设计用于图形处理,随着张量核心的引入,在各种AI应用中广泛使用。

3. FPGA:以流水线指令闻名,适合诸如语音转文本转换等任务。

4. DSA:专注于高效执行矩阵乘法,针对特定工作负载进行高度优化,但难以轻易应用于其他IT任务。

由此可见:

  • 在处理能力和可编程性方面,CPU具有显著灵活性;
  • GPU通过CUDA技术发展提供高性能和可编程性;
  • FPGA高度定制化;
  • DSA针对特定工作负载优化,需要软件调整以实现最佳性能。


 规格尺寸和加速器 

  • 多种规格尺寸的发展:

从M.2和PCI CEM到定制芯片设计,包括Cerebras开创的大型单片晶圆级解决方案,以及Nvidia的Grace Hopper这样的高速缓存一致性CPU/GPU正在崛起,每种设计都针对特定工作负载进行优化。

  • 推理和训练的应用趋势:

在推理任务中,主要看到M.2嵌入式规格尺寸和PCI CEM的广泛应用;在训练方面,逐渐转向使用越来越定制化的GPU。

 大型语言模型(LLM) 

  • 模型规模与算力需求:

随着LLM模型规模的扩大,对算力的需求显著增加,计算需求呈现出大约10倍的增长轨迹,训练作业的最大关键绩效指标取决于训练时间,因此引入不同类型的加速器成为关键。

  • 数据集的组合:

随着视觉元素的加入,文本、视觉和视频等不同数据集的组合在LLM中变得普遍。

 功耗和冷却 

  • 功耗增长趋势:

当前最高功率的GPU大约为700瓦,PCI CEM约为400瓦,未来几代的功耗预计将显著增长,这将对冷却设施产生重大影响。

  • 冷却设施的发展:

冷却基础设施变得至关重要,液体冷却与空气冷却的结合成为主要趋势,液体冷却不会完全取代空气冷却平台,许多数据中心仍然偏好并部署空气冷却基础设施。

 基准测试的重要性

  • MLCommons的发展:

MLCommons起源于基于MLPerf的基准测试,并演进扩展了其范围,涵盖存储、高性能计算以及跨这些领域的多样化基准测试开发。

  • 基准测试与模型的关系:

基准测试往往滞后于LLM快速增长的行业步伐,但像MLCommons和MLPF这样的基准测试覆盖了训练、推理和存储等多个方面,为评估特定加速器提供了一个框架,有助于从芯片的角度评估其性能以及与期望的关键绩效指标(KPI)的对齐情况。

  • 推理和训练领域的基准测试:

在推理方面,关注从数据中心延伸到边缘环境,通过评估不同的模型类别来确定最佳的持续时间和KPI;在训练领域,为模型和基准测试实践在训练和推理领域的一致分类提供了支持。

 数据中心的发展

  • 机架功率趋势:

随着LLM的增长,数据中心的机架功率从历史上的每机架10至20千瓦线性增长至每机架75至100千瓦甚至更高,这可能导致新的绿色数据中心的增加,改造现有的旧数据中心以满足这些需求将是一项挑战。

  • 数据中心层面的视角转变:

从节点级别开始,各种功率、基准测试、规格尺寸和精度的加速器正在涌现,使得数据中心需要从节点级别上升到机架级别,再到数据中心级别进行考虑,冷却变得具有挑战性,液体冷却迅速得到采用,未来液体冷却可能在AI计算场景中占据主导地位。

 AI基础设施的发展 

  • 从节点级别到集群级别的部署:

AI基础设施的发展趋势已不再局限于部署仅配备2到8个GPU的节点来完成任务,将更多地转向集群级别的部署。

  • 2.关键因素:

-网络设计和连接方式:为了使GPU、FPGA或专用加速器等计算单元高效运行,必须认真考虑网络设计,包括如何连接存储、数据的位置以及如何迅速地将数据传输到计算单元中并解决问题。

-机架和数据中心级别的电力预算:到2025年,应该考虑或部署每个机架功率在70到100千瓦的数据中心,需要从机架级别和数据中心级别的电力预算出发,深入思考未来几年内这一特定领域的所有增长趋势。

-与数据中心人员的沟通:所有生成式AI应用程序的部署规模已远超过之前的预测,需要与数据中心人员进行深入的沟通,了解他们的需求,并基于这些需求进行构建,而不是简单地将GPU组装成一个节点。

 行业应用

  • 科技巨头的数据中心转型:

以谷歌、亚马逊、微软等科技利用AI技术优化数据中心的运营和管理,提高能效和计算效率。

  • 金融行业的数据中心应用:

金融机构借助AI驱动的数据中心进行风险评估、欺诈检测和交易处理等业务,以及面临的挑战和解决方案。

  • 医疗行业的数据中心创新:

医疗领域数据中心应用于医学影像分析、疾病预测和个性化医疗等,以及利用AI技术推动医疗行业的发展。

 技术创新

  • 量子计算在数据中心的潜力:

量子计算与传统计算技术相结合,为数据中心带来更高的计算能力和解决复杂问题的能力。

  • 边缘计算与数据中心的协同发展:

边缘计算在数据中心架构中起着重要的作用,边缘计算与数据中心协同工作以提高数据处理的实时性和效率。

  • AI芯片的发展:

当前人工智能芯片市场的竞争强烈,未来芯片技术会向更高的算力、更低的能耗和更好的兼容性而发展。

 展望未来

  • AI 与数据中心的深度融合:

随着AI技术的不断发展,数据中心将更加智能化,能够自动优化资源配置、预测故障并进行自我修复,提高运营效率和可靠性。

  • 新型计算架构的出现:

未来可能会出现一些新型的计算架构,如类脑计算等,这些架构将为数据中心带来更高的性能和更低的能耗。

  • 数据中心的绿色可持续发展:

在全球对环境保护日益重视的背景下,数据中心将朝着绿色可持续的方向发展,采用更多的可再生能源、优化冷却技术以提高能源利用率。

  • 边缘数据中心的崛起:

随着物联网、5G等技术的普及,边缘数据中心将发挥越来越重要的作用,能够更快地处理和分析数据,减少延迟,满足实时性要求较高的应用场景。

  • 数据中心的全球化布局:

为了满足不同地区用户的需求,数据中心将进一步全球化布局,同时也需要应对不同地区的政策、法规和文化差异。

数据中心的未来发展充满着机遇与挑战。技术的不断创新、计算需求的持续增长、对能源效率和可持续性的重视,以及政策法规的影响等因素,都将塑造数据中心的未来格局。

#数据中心#绿色节能#AI#人工智能#高性能计算#HPC#液冷#水冷#AI基础设施#LLM#大语言模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/772903.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

​浅谈 Linux 中的 core dump 分析方法

在 Linux 系统开发领域中,core dump(核心转储)是一个不可或缺的工具,它为我们提供了在程序崩溃时分析程序状态的重要线索。当程序因为某种原因(如段错误、非法指令等)异常终止时,Linux 系统会尝…

spring boot + vue3+element plus 项目搭建

一、vue 项目搭建 1、创建 vue 项目 vue create vue-element说明:创建过程中可以选择路由,也可也可以不选择,可以通过 npm install 安装 vue 项目目录结构 说明:api 为自己创建的文件夹,router 选择路由模块会自动创建 router下的index.js文件(配置路由的文件) im…

泰国内部安全行动司令部数据泄露

BreachForums 论坛的一名成员宣布发生一起重大数据泄露事件,涉及泰国内部安全行动司令部 (ISOC),该机构被称为泰国皇家武装部队的政治部门。 目前,我们无法准确确认此次泄露的真实性,因为该组织尚未在其网站上发布有关该事件的任…

微信开发者工具报错 Error: module ‘xxx.js‘ is not defined, require args is ‘xxx.js‘

背景 报错如下 检查 代码逻辑和写法都是ok的重新打开项目又是可以的 解决方案 先确保微信开发者工具和uniapp的将js编译成es5都开着(这个是默认开的) 然后把微信开发者工具关了重开 一般做这一步就会好了,但是只是临时解决 &#xff08…

如何使用 3D 建模库在 C# 中将 3DS 转换为 USDZ?

USDZ/USD是一种 3D 文件格式,被广泛用于跨平台共享 3D 资产。另一方面,3DS是另一种以块形式存储数据的 3D 文件格式。在某些情况下,您需要将3DS 文件转换为 USDZ/USD文件格式。因此,本篇博文介绍了一个功能丰富的3D 建模库&#x…

记录一下简单导入导出excel二级表头

数据库导入导出表头 之前的工具类GenerateExcelToFile新增两个导出这种二级表头方法 package com.njry.utils;import cn.hutool.core.util.IdUtil; import com.njry.config.FileProperties; import com.njry.exception.BadRequestException; import org.apache.poi.hssf.user…

《Winodws API每日一练》8.2 static控件

在 Windows 编程中,"Static" 控件是一种常见的用户界面元素,用于显示静态文本或图像,而无法进行用户交互。它通常用于显示标签、标题、说明文本或静态图像等信息。Static 控件是一种静态的、只读的显示元素,不接受用户的…

JAVA 快递100wms工具类

快递wms工具类 import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import com.google.gson.Gson; import com.kuaidi100.sdk.api.QueryTrack; import com.kuaidi100.sdk.api.Subscribe; import com.kuaidi100.sdk.contant.ApiInfoConstant; import c…

11.SQL注入-盲注基于(base on boolian)

SQL注入-盲注基于boolian案例利用 首先总结一下sql语句中的函数意思 #查看当前所在的数据库 mysql> select database(); ------------ | database() | ------------ | pikachu | ------------ 1 row in set (0.00 sec)#函数substr里1是从第几位开始取字符,2…

mybatis-使用自动生成(根据数据库反向生成pojo、映射文件,映射接口)

1.在pom.xml中导入依赖和插件 <dependencies> <!-- 导入自动生成依赖--><dependency><groupId>org.mybatis.generator</groupId><artifactId>mybatis-generator-maven-plugin</artifactId><version>1.4.0</version>&…

【PCIe】P2P DMA

PCIe P2P (peer-to-peer communication)是PCIe的一种特性&#xff0c;它使两个PCIe设备之间可以直接传输数据&#xff0c;而不需要使用主机RAM作为临时存储。如下图3的走向 比如EP1要发送和数据给EP2,操作流程如下&#xff1a; 1. 打开EP1的dma控制器&#xff1b;--client侧 …

go开源webssh终端源码main.go分析

1.地址: https://github.com/Jrohy/webssh.git 2.添加中文注释地址: https://github.com/tonyimax/webssh_cn.git main.go分析 主包名&#xff1a;main package main //主包名 依赖包加载 //导入依赖包 import ("embed" //可执行文件…

密码学复习

目录 基础 欧拉函数 欧拉函数φ(n)定义 计算方法的技巧 当a=a_1*a_2*……*a_n时 欧拉定理 剩余系 一些超简单密码 维吉尼亚 密钥fox 凯撒(直接偏移) 凯特巴氏(颠倒字母表) 摩斯密码(字母对应电荷线) 希尔(hill)密码 一些攻击 RSA 求uf+vg=1 快速幂模m^…

苹果获得OpenAI董事会观察员职位、Runway最新估值40亿美元

ChatGPT狂飙160天&#xff0c;世界已经不是之前的样子。 更多资源欢迎关注 据知情人士透露&#xff0c;苹果应用商店&#xff08;App Store&#xff09;负责人、前营销主管Phil Schiller被选中担任这一职位。这位知情人士说&#xff0c;作为董事会观察员&#xff0c;他不会以正…

二次搭建无人车平台遇到的问题(mid360+joy游戏手柄操纵无人车)

joy节点启动 报错&#xff1a; ROS path [0]/opt/ros/noetic/share/ros ROS path [1]/home/jetson/yahboomcar_ws/src/yahboomcar_autodrive ROS path [2]/home/jetson/yahboomcar_ws/src/yahboomcar_bringup ROS path [3]/home/jetson/yahboomcar_ws/src/yahboomcar_ctrl ROS…

【2024版】Microsoft Azure 管理员培训课程招生简章(8月有开班)

课程介绍 本课程专为希望深入了解和精通Microsoft Azure管理的IT专业人员设计。在为期三天的培训中&#xff0c;学员将全面学习如何管理Azure订阅&#xff0c;保护标识&#xff0c;配置虚拟网络&#xff0c;以及实现存储解决方案和虚拟机。此外&#xff0c;课程还涵盖了实现We…

传感器标定(一)摄像头内参标定

一、使用ROS进行手动标定安装 1、安装 image-view &usb_cam ⽤于驱动相机 sudo apt-get install ros-melodic-image-view sudo apt-get install ros-melodic-usb-cam2、查看系统视频设备 v4l2- ctl -d /dev/video0 --all 查询所有相机具体的参数包括width和height ls /…

Excel数据截取及合并多行多列数据

公式一&#xff1a;RIGHT(A2,LEN(A2)-FINDB(")",A2)) 公式二&#xff1a;PHONETIC(C2:D19) 详情可以看附件。

JMeter--定时执行的方法

原文网址&#xff1a;JMeter--定时执行的方法_IT利刃出鞘的博客-CSDN博客 简介 本文介绍JMeter如何使用定时器定时执行测试任务。 Java技术星球&#xff1a;way2j.com 方法 第一步&#xff1a;新建定时器 右键测试任务> Add > Timer> Constant Timer 如下图所示…

【python数据处理】— “2020-01-01 05:20:15“日期格式数据

文章目录 一、数据说明及目标二、实现方式1.提取date2.提取hour3.提取weekday4.提取month 一、数据说明及目标 数据说明 数据表有一列名为"datetime"表示时间数据&#xff0c;该列的数据格式是"2020-01-01 05:20:15"。 import pandas as pd datapd.read_e…