算力与能源正在成为世界的硬通货,看超级计算机安腾如何突围

特斯拉创始人马斯克公开表态称未来两年人工智能行业将由“缺硅”变为“缺电”。据媒体报道,OpenAI的ChatGPT每天消耗超过50万千瓦时的电力,用于处理约2亿个用户请求,相当于美国家庭每天用电量的1.7万多倍。除了这类生成式AI耗能外,还有同样涉及到海量数据、特别是涉及到大规模并行计算的业务也正在成为“电能吞金兽”。全球前十名的超级计算机每小时耗电量高达2万度,堪比一座小型城镇的能源消耗。可见,随着技术革新步伐加快,全球算力竞争将对能源消耗提出更为严峻的考验,算力与能源将成为未来世界的核心硬通货。

以超级计算机为例,其作为解决复杂问题和大规模计算任务的利器,其能耗问题日益凸显,成为制约其长远发展的关键瓶颈。一味追求极致算力而忽视能源效率,不仅削弱了超算的实际价值,也使其发展陷入困境。正如美国加州大学计算机工程博士刘少山所指出,超级计算机是一个精密复杂的系统工程,任何短板都可能导致算力受限。

目前,各国在竞逐超算领导地位的同时,也在积极寻求在节能前提下提升性能的技术路径。

美国能源部于2013年和2018年先后启动“百亿亿次超级计算机”项目,明确要求E级机的功耗上限为20兆瓦,强调需要在不增加能源消耗的基础上提升性能,这表明如果单纯依赖扩大系统规模提升性能,那么E级机的技术选择将面临严格约束。2022年,麻省理工学院林肯实验室超级计算中心(LLSC)的研究人员进一步指出,超算系统的电源效率有巨大提升空间,如通过简单硬件调整如限制单个GPU功率,即可将AI模型训练的能源成本降低20%,仅带来适度的计算时间增长。

面对如何构建“既快又省”的超级计算机这一课题,大名鼎鼎的专用超级计算机安腾提供了一种新的解题思路。

安腾超级计算机丨图片来源:网络

安腾系列超级计算机由D. E. Shaw研究所研发,在能耗控制方面表现极为出色。

以第二代安腾超级计算机(Anton2)为例,其在一个单个机架内提供约2 TFLOPS(每秒万亿次浮点运算)的计算能力,能耗仅为25千瓦,与一辆中型电动汽车的充电功率相当,这一表现在当时同类设备中居于高位。

为什么超算安腾可以做到算得快还省电呢?

原因在于,有别于全面采用CPU、GPU等通用芯片架构的传统超算,安腾采用的是以ASIC专用芯片为主的专用超算的架构。专用超算在应用场景上受到严格的限制,只能处理某个特定领域的算法,例如安腾就是一台完全聚焦在生物计算领域最常用的分子动力学模拟计算的专用计算机,并且开发成本极其昂贵,但是以此为代价,换来的是在该特定领域的极强的加速性能和极低的能耗。

为降低全面计算资源损耗,超算安腾的软硬件采取了全面定制设计,核心组件为大量专用芯片(ASIC),并通过独特的高速三维环形网络实现互连。据称,在硬件上,整个超算安腾的ASIC芯片由288个核心瓦片和24个边缘瓦片构成,整体提供了5.6 Tbps的片外带宽。由于较大的Serdes物理PHYs在芯片的两个边缘都与这些瓦片相连,瓦片直接相邻,从而减少了未使用的芯片面积,简化了物理设计。

第三代安腾超级计算机的晶片管芯布局

同时,超算安腾的芯片保留了低电阻率的顶部金属层(TM0、TM1等)用于电源分配,从而确保其电源分配网络是完全连续的。为了改善瞬时电流尖峰,安腾将去耦电容、而不是备用单元装入所有可用空间,以良率来换取电源管理。并且,该芯片使用全局时钟网,以最小的偏移实现高时钟速度,这样的网状结构节省了功耗,网络只占芯片TDP(热设计功耗)的5%。

此外,超算安腾的芯片可以分区域、分精度计算不同任务,突破了制约分子模拟速度的瓶颈,这样可以在处理小任务时分配较少的节点用于运算,从而避免多节点时的能源浪费问题。

在通信层面,超算安腾各个节点之间通讯采用特殊设计的高速三维环形网络相互连接,形成了超高速低延迟网络。超算安腾共具有 512 个计算节点,它们在空间上的排布使得相当于将被模拟的系统分为 8 × 8 × 8 的盒子,每个盒子只负责 1/512 的原子,每个节点和盒子一一对应,并且只需要和邻近的 6 个节点通信。这些库中通信基于类 MPI 的「共享内存式并行」,把需要共享的数据放到公共空间各自读取;而这里每个节点之间都有点对点的专用信道,不存在访问资源的冲突问题。对于分子动力学而言,主要的通信内容是处在盒子边界的原子的位置,只有进行准确的通信,我们才能够准确计算这些原子与其他原子之间的作用力。由于低时延(约 50 ns)、高带宽的一对一信道的建设,大大减少了计算节点间通信需要的时间。这样,超算安腾可在512个节点并行处理下,能够对达100万个原子的大体系,每天进行10-100微秒量级的分子动力学模拟。相较于其他每天只能模拟几纳秒到几十纳秒不等的通用架构超算系统,512节点的超算安腾完成分子模拟的速度几乎快了100-10000倍。

图片来源:众妙斋

2020年3月27日,D. E. Shaw研究所公布了新冠病毒3CL蛋白酶的长达100微秒的MD模拟动画及数据,3CL蛋白酶被认为在病毒增殖和组装中发挥了重要作用,并且是新冠药物开发的热门靶点之一。超算安腾完成的3CL蛋白酶MD模拟结果,为科学家和制药学家透彻理解新冠病毒增殖与组装的机理,从而开发针对性的3CL蛋白酶抑制剂提供了极其宝贵的研究基础。随后的两年里,D. E. Shaw研究所更是陆续围绕新冠病毒公布了超过1000微秒的MD模拟结果,对新冠病毒的病理研究和药物研发起到了非常重大的作用。

在计算效率和能耗方面,哪怕是现如今全世界最强的通用超算中心的算效,针对复杂程度达到百万体系的蛋白质给出100微秒的模拟结果,几乎需要花费数年时间才能算完,期间耗费的电量将达到兆瓦级别,换算成电费将达到数亿元。作为对比,超算安腾则只需要十几天就可以算完,并且至多也只需要几万元的电费,几乎是前者的千万分之一,这就是采用的专用超算架构、经过一系列软硬件功能特化的超算安腾在自己擅长的分子动力学领域能够实现的计算效率和能耗的绝对优势。

我们可以看到,超算安腾凭借其对分子动力学模拟的专注,以及自主研发的软硬件设计,实现了相较于通用计算机高达百倍的计算能效提升,并在此过程中显著降低了能耗。这一成果无疑为国内企业在面对未来计算需求与能源挑战时提供了深刻启示:在特定的高价值应用场景大力发展专用超算路线,有望在大幅提高计算性能的同时有效降低能耗,实现绿色、可持续的科技创新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/715979.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】使用 iptables 验证访问HDFS 所使用到的端口

目录 ​编辑 一、实操背景 二、iptables 简介 三、模拟操作 一、实操背景 背景: 在客户有外网的服务器需要访问内网大数据集群HDFS,使用iptable模拟测试需要开放的端口。 二、iptables 简介 具体介绍看文章: 【Linux】Iptables 详解与实战…

Elasticsearch出现Connection reset by peer

Elasticsearch出现Connection reset by peer分析 1.异常: 2024-06-13 13:17:10.539 WARN [http-nio-30411-exec-9]com.longdaotech.config.ESConfig -onFailure node:[hosthttp://192.168.239.253:9200] 2024/6/13 13:17:10 2024-06-13 13:17:10.541 WARN [http-n…

aop注解快速实现数据脱敏返回

说明: 公司之前数据接口数据管理不严格,很多接口的敏感数据都没有脱敏处理,直接返回给前端了,然后被甲方的第三方安全漏洞扫出来,老板要求紧急处理,常用的话在单个字段上加上脱敏注解会更加的灵活&#xf…

Win11升级24H2出现绿屏怎么办?这些方法帮你解决!

在Win11电脑操作中,用户为了体验24H2版本推出的新功能,所以要把系统版本升级为24H2版本。但升级过程中电脑却出现了绿屏问题,不清楚要怎么操作才能解决绿屏的问题?接下来小编给大家分享几种简单有效的解决方法,让大家能…

轨迹优化 | 图解欧氏距离场与梯度场算法(附ROS C++/Python实现)

目录 0 专栏介绍1 什么是距离场?2 欧氏距离场计算原理3 双线性插值与欧式梯度场4 仿真实现4.1 ROS C实现4.2 Python实现 0 专栏介绍 🔥课程设计、毕业设计、创新竞赛、学术研究必备!本专栏涉及更高阶的运动规划算法实战:曲线生成…

基于Java和SSM框架的多人命题系统

你好呀,我是计算机学长猫哥!如果你对多人命题系统感兴趣或者有相关开发需求,文末可以找到我的联系方式。 开发语言:Java 数据库:MySQL 技术:Java SSM框架 工具:Eclipse、MySQL Workbench、…

大众点评_token,mtgsig

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 本文章未经许可禁止转载&#xff0…

springboot“漫画之家”系统 LW+PPT+源码

3 系统分析 链接:https://pan.baidu.com/s/1ihILTui-XEFdC15mcOB0vA?pwdewry 提取码:ewry 3.1系统可行性分析 3.1.1经济可行性 由于本系统是作为毕业设计系统,且系统本身存在一些技术层面的缺陷,并不能直接用于商业用途&#xf…

用PHP来调用API给自己定制一个“每日新闻”

头条新闻汇聚了互联网上的时事动态,提供最新新闻动态、网络热门话题和视频更新等,覆盖社会、政治、体育、经济、娱乐、科技等多个领域,并不断刷新内容。企业应用这一接口后,可以快速吸引更多的用户访问自己的平台。即使是非新闻类…

直播预告丨华为数字化转型解决方案,助力钢铁行业飞越“寒冬”!

我国钢铁行业整体盈利处于近年来较低水平。2024年一季度,钢铁企业累计营业收入为1.49万亿元,同比下降4.55%;利润总额为87.08亿元,同比下降47.91%;平均利润率为0.58%,同比下降0.49%。 行业发展正面临着诸多…

【NOI-题解】1389 - 数据分析1750 - 有0的数1457 - 子数整除1121 - “倒”数1962. 数值计算

文章目录 一、前言二、问题问题:1389 - 数据分析问题:1750 - 有0的数问题:1457 - 子数整除问题:1121 - “倒”数问题:1962. 数值计算 三、感谢 一、前言 本章节主要对循环中带余除法部分题目进行讲解,包括…

【图解IO与Netty系列】Netty源码解析——服务端启动

Netty源码解析——服务端启动 Netty案例复习Netty原理复习Netty服务端启动源码解析bind(int)initAndRegister()channelFactory.newChannel()init(channel)config().group().register(channel)startThread()run()register0(ChannelPromise promise)doBind0(...) 今天我们一起来学…

数据价值管理-数据使用标准

前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。第一讲介绍了业务架构设计的基本逻辑和思路。 前面我们讲完了数据资产建设标准…

线性卷积(相关)和圆周卷积(相关)以及FFT之间的关系(AEC举例)

时域自适应滤波算法中的线性卷积和线性相关运算量较大,导致计算复杂度升高,我们更愿意把这两个信号变换到频域,通过频域相乘的方式来取代时域复杂度相当高的卷积或相关运算。 预备知识:线性卷积(相关)和圆…

Origin中增加一列并更新绘图

一、在book当中增加数据列 二、回到绘图中,双击图层 三、修改增加图像的格式 四、根据需要删除图例中多余的部分

Stable Diffusion 有什么推荐的Checkpoint 模型、Lora?

引言 -2k字给讲清楚我最常用的SD模型库、关键词和参数! 2022年末我接触sd的时候,还在为可以用Ai绘画而沾沾自喜,现在玩的风生水起,真的感觉没有白接触。除了chatgpt的出现,Ai绘画无意识这两年来的黑科技,如…

接口postman

前后端 前端:是肉眼所能见到的界面 后端:处理数据,数据逻辑 接口:提供前后端交互的通道 接口测试:校验接口返回的响应数据是否与预期的一致 接口测试可以绕过前端,直接对服务器进行测试 请求方式 pos…

论文阅读——ApeGNN- Node-Wise Adaptive Aggregation in GNNs for Recommendation

ApeGNN: Node-Wise Adaptive Aggregation in GNNs for Recommendation ApeGNN:GNN 中的节点自适应聚合以进行推荐 Abstract 近年来,图神经网络(GNN)在推荐方面取得了长足的进步。基于 GNN 的推荐系统的核心机制是迭代聚合用户-…

安装AutoCAD异常

问题: 安装Autodesk产品时,显示以下消息,且安装未完成。 正在等待操作系统重新启动。 请重新启动计算机以安装 AutoCAD 2024。 操作系统: Windows 10Windows 11 原因: Windows注册表项已损坏。Microsoft Visual C …