如何有效减少 AI 模型的数据中心能源消耗?

在让人工智能变得更好的竞赛中,麻省理工学院(MIT)林肯实验室正在开发降低功耗、高效训练和透明能源使用的方法。

在 Google 上搜索航班时,您可能已经注意到,现在每个航班的碳排放量估算值都显示在其成本旁边。这是一种告知客户其对环境影响的方式,并让他们将这些信息纳入决策中。

尽管计算机行业的碳排放量超过了整个航空业的碳排放量,但这种透明度尚不存在。这种能源需求不断升级的是人工智能模型。像ChatGPT这样巨大的流行模型预示着大规模人工智能的趋势,预测到2030年,数据中心将消耗全球21%的电力供应。

麻省理工学院(MIT)林肯实验室超级计算中心(LLSC)正在开发技术,以帮助数据中心控制能源使用。他们的技术范围从简单但有效的更改,如调整硬件的功率上限,到采用可以在早期停止人工智能训练的新工具。至关重要的是,他们发现这些技术对模型性能的影响最小。

从更广泛的角度来看,他们的工作是动员绿色计算研究并促进透明文化。“能源感知计算并不是一个真正的研究领域,因为每个人都在保留他们的数据,”领导能源感知研究工作的LLSC高级职员Vijay Gadepally说。“必须有人开始,我们希望其他人也能效仿。

抑制功率和冷却

与许多数据中心一样,LLSC 在其硬件上运行的 AI 作业数量显著增加。注意到能源使用量的增加,LLSC的计算机科学家对更有效地运行作业的方法感到好奇。绿色计算是该中心的一项原则,该中心完全由无碳能源提供动力。

训练 AI 模型(从庞大数据集中学习模式的过程)需要使用图形处理单元 (GPU),这些硬件是耗电的硬件。例如,训练 GPT-3(ChatGPT 的前身)的 GPU 估计消耗了 1,300 兆瓦时的电力,大致相当于1,450 个美国普通家庭一个月使用的电力。

虽然大多数人寻求 GPU 是因为其计算能力,但制造商提供了限制 GPU 允许消耗的功率的方法。“我们研究了封顶功率的影响,发现我们可以将能耗降低约12%至15%,具体取决于模型,”LLSC的研究员Siddharth Samsi说。

限制功率的影响是增加任务时间——GPU 完成任务所需的时间将延长约 3%,Gadepally 表示,考虑到模型通常需要几天甚至几个月的训练,这种增加“几乎不明显”。在他们的一项实验中,他们训练了流行的 BERT 语言模型,将 GPU 功率限制在 150 瓦,训练时间增加了两个小时(从 80 小时增加到 82 小时),但节省了相当于一个美国家庭一周的能源。

然后,该团队构建了软件,将这种功率封顶功能插入到广泛使用的调度器系统 Slurm 中。该软件允许数据中心所有者在其系统中或逐个作业设置限制。

“我们今天就可以部署这种干预措施,我们已经在所有系统中这样做了,”Gadepally说。

附带的好处也出现了,自从实施功率限制以来,LLSC 超级计算机上的 GPU 一直在以更稳定的温度运行 30 华氏度左右,从而减少了冷却系统的压力。运行硬件冷却器还可以提高可靠性和使用寿命。他们现在可以考虑推迟购买新硬件——减少中心的“隐含碳”,即通过制造设备产生的排放——直到使用新硬件所获得的效率抵消了这方面的碳足迹。他们还在寻找减少冷却需求的方法,通过战略性地将作业安排在夜间和冬季运行。

Gadepally说:“数据中心今天可以使用这些易于实施的方法来提高效率,而无需修改代码或基础设施。

全面了解数据中心的运营以寻找削减成本的机会可能会耗费大量时间。为了让其他人更容易完成这一过程,该团队与Northeastern大学的Devesh Tiwari教授和Baolin Li合作,最近开发并发布了一个用于分析高性能计算系统碳足迹的综合框架。系统从业者可以使用此分析框架来更好地了解其当前系统的可持续性,并考虑对下一代系统进行更改。

调整模型的训练和使用方式

除了对数据中心运营进行调整外,该团队还在设计提高 AI 模型开发效率的方法。

在训练模型时,AI 开发人员通常专注于提高准确性,并以以前的模型为基础进行构建。为了实现所需的输出,他们必须弄清楚要使用哪些参数,而要做到这一点可能需要测试数千种配置。这个过程被称为超参数优化,是LLSC研究人员发现的减少能源浪费的成熟领域。

“我们开发了一个模型,基本上着眼于给定配置的学习速度,”Gadepally说。鉴于这个比率,他们的模型预测了可能的表现。表现不佳的模型会提前停止。“我们可以在早期给你一个非常准确的估计,最好的模型将在100个模型中的前10个模型中,”他说。

在他们的研究中,这种提前停止导致了巨大的节省:用于模型训练的能源减少了80%。他们将这种技术应用于为计算机视觉、自然语言处理和材料设计应用程序开发的模型。

“在我看来,这种技术在推进人工智能模型训练方式方面具有最大的潜力,”Gadepally说。

训练只是 AI 模型排放的一部分。随着时间的推移,排放的最大贡献者是模型推理,或实时运行模型的过程,例如用户与 ChatGPT 聊天时。为了快速响应,这些模型使用冗余硬件,一直运行,等待用户提出问题。

提高推理效率的一种方法是使用最合适的硬件。此外,该团队还与Northeastern大学合作,创建了一个优化器,将模型与碳效率最高的硬件组合相匹配,例如用于推理计算密集型部分的高功率GPU和用于要求较低的方面的低功耗中央处理器(CPU)。这项工作最近在国际ACM高性能并行和分布式计算研讨会上获得了最佳论文奖。

使用此优化器可以减少 10-20% 的能源使用,同时仍能满足相同的“服务质量目标”(模型的响应速度)。

此工具对云客户特别有用,这些客户从数据中心租用系统,并且必须从数千个选项中选择硬件。“大多数客户高估了他们的需求;他们之所以选择功能过强的硬件,只是因为他们不知道更好,“Gadepally 说。

绿色计算意识的增强

实施这些干预措施所节省的能源也降低了开发人工智能的相关成本,通常以一比一的比例降低。事实上,成本通常被用作能源消耗的代名词。既然节省了这些成本,为什么不让更多的数据中心投资于绿色技术呢?

“我认为这有点激励失调的问题,”萨姆西说。“在构建更大更好的模型方面,有如此激烈的竞争,几乎所有次要考虑因素都被搁置一旁。

他们指出,虽然一些数据中心购买了可再生能源信用额度,但这些可再生能源不足以满足不断增长的能源需求。为数据中心供电的大部分电力来自化石燃料,而用于冷却的水正在导致流域压力。

他们还承认,如果没有能够向人工智能开发人员展示其消费的工具,就很难实现透明度。他们希望能够向每个LLSC用户展示每项工作,他们消耗了多少能源,以及该能源量与其他能源量的比较情况,类似于家庭能源报告。

这项工作的一部分需要与硬件制造商更紧密地合作,以便更容易、更准确地从硬件中获取这些数据。如果制造商能够标准化数据的读取方式,那么节能和报告工具就可以应用于不同的硬件平台。LLSC 研究人员和英特尔之间正在开展合作,以解决这一问题。

即使对于意识到人工智能强烈能源需求的人工智能开发人员来说,他们也无法独自做太多事情来遏制这种能源使用。LLSC团队希望帮助其他数据中心应用这些干预措施,并为用户提供能源感知选项。他们的第一个合作伙伴关系是与美国空军合作,美国空军是这项研究的赞助商,该研究运营着数千个数据中心,应用这些技术可以显着降低其能耗和成本。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/184109.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI:87-基于深度学习的街景图像地理位置识别

🚀 本文选自专栏:人工智能领域200例教程专栏 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的代码,详细讲解供大家学习,希望可以帮到大家。欢迎订阅支持,正在不断更新中,…

GWAS结果批量整理:升级版算法TidyGWAS

TidyGWAS GWAS分析关键结果之一是显著性SNP位点的P值,通常多年份多地点多模型的GWAS分析将会产生很多结果文件,如何对这些数据进行整理? 汇总这些结果,并将显著性的位点或区域找出来,更加清晰的展示关键信息。 今天介…

揭秘!SpireCV如何实现低延时推流、视频保存!

引言 视频推流是指将实时的音视频数据通过网络传输到服务器或其他终端设备的过程。 在无人机上则是通过搭载摄像头或录像设备,通过无线网络将实时拍摄到的视频数据传输到地面站或其他终端设备,使操作人员能够实时监视无人机所处位置的环境,…

Find My鼠标|苹果Find My技术与鼠标结合,智能防丢,全球定位

随着折叠屏、多屏幕、OLED 等新兴技术在个人计算机上的应用,产品更新换代大大加速,进一步推动了个人计算机需求的增长。根据 IDC 统计,2021 年全球 PC 市场出货量达到 3.49 亿台,同比增长 14.80%,随着个人计算机市场发…

qt实现播放视屏的时候,加载外挂字幕(.srt文件解析)

之前用qt写了一个在windows下播放视频的软件,具体介绍参见qt编写的视频播放器,windows下使用,精致小巧_GreenHandBruce的博客-CSDN博客 后来发现有些视频没有内嵌字幕,需要外挂字幕,这时候,我就想着把加载…

「首届广州百家新锐企业」名单出炉!数说故事遴选入围

11月20日,由中共广州市委统战部、市工商联、市工信局、市国资委、市科技局联合主办的首届广州百家新锐企业融通创新交流会在广州成功举办。 为推动广州市中小民营企业的创新发展,践行新发展理念,厚植广州产业根基,现场发布首届广…

云计算时代来临,传统运维怎样做才能不被“杀死”?

据Forrester Research的数据显示,2021年全球公有云基础设施市场将增长35%,达到1200亿美元,云计算将继续在疫情复苏的过程中“占据中心位置”。 全球用于云计算的IT支出占比将持续增长,企业对于云计算开发人才需求紧迫&#xff0c…

面向自然语言处理任务的预训练模型综述

源自:计算机应用 作者:刘睿珩, 叶霞, 岳增营 “人工智能技术与咨询” 发布 摘 要 近年来,深度学习技术得到了快速发展。在自然语言处理(NLP)任务中,随着文本表征技术…

c语言新龟兔赛跑

以下是一个使用C语言编写的新的龟兔赛跑游戏&#xff1a; #include <stdio.h>#include <stdlib.h>#include <time.h>int main() { int distance, turtle_speed, rabbit_speed, turtle_time, rabbit_time, rabbit_lead; srand(time(NULL)); // 随机数种…

2024-NeuDS-数据库题目集

一.判断题 1.在数据库中产生数据不一致的根本原因是冗余。T 解析&#xff1a;数据冗余是数据库中产生数据不一致的根本原因&#xff0c;因为当同一数据存储在多个位置时&#xff0c;如果其中一个位置的数据被修改&#xff0c;其他位置的数据就不一致了。因此&#xff0c;在数据…

Azure Machine Learning - 创建Azure AI搜索服务

目录 准备工作查找 Azure AI 搜索产品/服务选择订阅设置资源组为服务命名选择区域选择层创建服务配置身份验证扩展服务何时添加第二个服务将多个服务添加到订阅 Azure AI 搜索是用于将全文搜索体验添加到自定义应用的 Azure 资源&#xff0c;本文介绍如何创建Azure AI搜索服务 …

Python,FastAPI,mLB网关,无法访问/docs

根源就是js和ccs文件访问路由的问题&#xff0c;首先你要有本地的文件&#xff0c;详情看https://qq742971636.blog.csdn.net/article/details/134587010。 其次&#xff0c;你需要这么写&#xff1a; /unicontorlblip就是我配置的mLB网关路由。 app FastAPI(titleoutpaint…

做外贸的你崩溃过吗

某日&#xff0c;孔先生问我&#xff0c; 前几天的那个单子怎么样了&#xff1f;看你一会找工厂拍照片&#xff0c;一会找办公室录制视频&#xff0c;半夜还在拿着手机和客户打电话&#xff0c;现在怎么也不提这个进展了&#xff0c;我回答道&#xff1a;黄了。 此时孔先生一股…

短剧付费变现小程序源码系统+开通会员+在线充值 附带完整的搭建教程

大家好啊&#xff0c;今天小编来给大家分享一款短剧付费变现小程序源码系统。近年来&#xff0c;随着互联网技术的飞速发展&#xff0c;短剧成为了一个备受瞩目的领域。短剧以其简洁、紧凑的故事情节和制作周期短、传播速度快的特点&#xff0c;成为了越来越多人的选择。然而&a…

全国测绘资质管理信息系统测绘资质申报流程

讲解一期关于测绘资质申请如何操作&#xff0c;在哪操作的问题&#xff0c;想要知道的按以下流程操作即可 &#xff08;注&#xff1a;以下操作为资质系统操作&#xff0c;想要能把资质申请下来&#xff0c;还需满足以下要求&#xff0c;后面会和系统操作一起统一讲解&#xf…

项目管理体系文件代码评审规范

代码评审的目的&#xff1a; 1、在项目早期就能够发现代码中的BUG 2、帮助初级开发人员学习高级开发人员的经验&#xff0c;达到知识共享 3、避免开发人员犯一些很常见&#xff0c;很普通的错误 4、保证项目组人员的良好沟通 5、项目或产品的代码更容易维护 软件开发全文档获取…

党建信息管理系统源码 支持在线交党费 附带完整的搭建教程

传统的党建管理模式通常采用手工方式&#xff0c;不仅效率低下&#xff0c;而且容易出错。随着组织规模的扩大和党员数量的增加&#xff0c;这种管理方式已经无法满足现实需求。此外&#xff0c;传统的党建管理模式缺乏在线交党费功能&#xff0c;给党员带来不便。因此&#xf…

斐波那契数列数列系列问题详解

斐波那契数列数列是我们学习递归的入门问题&#xff0c;是一种非常经典的题型&#xff0c;也衍生出了一些更复杂的题型&#xff0c;这一节就让我们彻底理解斐波那契数列系列问题。 一、概念介绍 1、什么是斐波那契数列&#xff1f; 斐波那契数列&#xff08;Fibonacci sequenc…

芯片设计—低功耗isolation cell

&#xff08;一&#xff09;低功耗isolation cell的目的 低功耗架构设计需要前后端拉通规划&#xff0c;前端设计有PMU功耗管理单元&#xff0c;比如A模块电压常开&#xff0c;B模块电压可关断&#xff0c;那么请思考&#xff0c;当B模块关断电压后&#xff0c;B模块输出到A模…