云计算如何创芯:“逆向工作法”的性感之处

在整个云计算领域,能让芯片规模化的用起来,是决定造芯是否成功的天花板。在拉斯维加斯的亚马逊云科技2023 re:Invent则是完美诠释了这一论调。
亚马逊云科技2023 re:Invent开幕前两个小时,有一场小型的欢迎晚宴,《星期日泰晤士报》南非站记者Arthur Goldstuck谈到:“我们可能会目睹最重要的一场re:Invent,这次亚马逊云科技的技术发布,在未来五年都会是极具意义的。

参与者们好奇,在生成式AI几乎席卷一切的背景下,一个处于领导者地位的云厂商,将会向外界讲出怎样的人工智能故事?

如果站在未来看当下,生成式AI可能是一场大型马拉松,但亚马逊云科技现在就已经在勾勒出它的地图。在亚马逊云科技CEO Adam Selipsky长达两个半小时的演讲中,一张“生成式AI技术堆栈图”图贯穿了整场。

亚马逊云科技“生成式AI技术堆栈图”(Generative AI Stack)

从上图可见,亚马逊云科技搭建了三层AI堆栈:最底层是用于训练和推理的「基础设施层」,这里包括一些亚马逊云科技的自研芯片;中间层是微调大模型或基础模型需求的「工具层」;最上层是「生成式AI应用层」,这里包括此次新推出的生成式AI助理Amazon Q。

概括而言,亚马逊云科技正在构建一种范式,去尽可能匹配这个时代下的更多客户的更多需求,正如Adam Selipsky所说——“我们在用一种跟传统完全不同的方式探讨生成式AI概念”。

不过,正所谓见微知著,我们决定将「芯片」,作为观察今年亚马逊云科技re:Invent新发布的切入点。

摄于2023 re:Invent一角

01

十年自研,逆向造芯

很多人了解亚马逊云科技,知道它是全球领先云厂商,构建底层软件的能力非同一般。但大家可能不那么了解的是,亚马逊云科技还是一个在芯片及硬件层有深厚技术底蕴的公司。

早在十年前的2013年起,亚马逊云科技就开始自研芯片,至今已形成了一个芯片全家桶,包括四个系列:

  • 构成云服务技术底层核心的虚拟化芯片Amazon Nitro
  • 通用处理器芯片Amazon Graviton
  • 用于机器学习的“训练”芯片Amazon Trainium和用于机器学习的“推理”芯片Amazon Inferentia

而且实际上,近年来亚马逊云科技一直在年中举办“亚马逊云科技硅芯片创新日”,与产业交流相关创新。就在今年6月的2023年芯片创新日,Amazon EC2副总裁Dave Brown回忆起2012年,当时亚马逊云科技是如何进入芯片设计的故事。一晃,已是十年。

他描述了一群领导者,包括 Peter DeSantis 和 James Hamilton,如何设想“增加一个硬件设备来增强亚马逊云科技的安全性和性能”——这个简单的想法,开启了一个全新的时代,带来了多种定制的芯片产品。

而在此次re:Invent,就有两款亚马逊云科技自研芯片有了重大升级,分别是:

  • Amazon Graviton4
  • Amazon Trainium2

Amazon Graviton4 和Amazon Trainium (原型) (Business Wire提供)

Amazon Graviton系列芯片,无疑是芯片发展史上浓墨重彩的发明。提起ARM架构的云端芯片,大家似乎不陌生。但如果把时钟拨回到6年前,虽然当时业界已经通过iPhone,认可了ARM架构是移动端CPU的好选择。但是,开发并规模化商用ARM架构的服务器CPU,还是前无古人的创举。

而亚马逊云科技就是那个开创者,Amazon Graviton第一代诞生于2018年,“现在接近10%的服务器总销售额是ARM,其中很大一部分来自亚马逊云科技。在CPU方面,这家公司做得很好。”Bernstein Research高级分析师Stacy Rasgon在一次接受采访中如是说。

本次大会,Amazon Graviton已经更新到第四代,但依然没有放慢高速增长的步伐。据悉,与前一代相比,Amazon Graviton4性能提升30%,独立核心增加50%,对于高并发等应用所需要的内存带宽,更提升75%,并且,还进一步通过高速物理硬件接口的完全加密提升了安全性。

熟悉造芯的朋友们都知道,设计和成功流片一颗新架构的芯片只是造芯的基本功,而能让芯片规模化的用起来,才是决定造芯是否成功的天花板。

在管理理念上,亚马逊内部有一招很特别的法门,叫做“working backwards逆向工作法”。亚马逊云科技的成功造芯,或许正与此有关。

关于“逆向工作法”,曾经贝索斯在2008年致亚马逊公司股东的信中所做解释大意如下:如果我们能很好了解顾客需求,并深信这种需求是有长期价值。那么,我们的一贯做法是——耐心探索,直至找到解决方案……从顾客需求出发的“逆向工作法”(Working backwards)与“技能导向法”(skills-forward)形成鲜明对比。

简单来说,逆向工作法,就是先研究需求,再根据需求创造相应工具;而技能导向法,则是手里拿着一个锤子,看什么都像钉子。

亚马逊云科技的造芯过程,某种程度就遵循了逆向工作法。以亚马逊云科技最早的硬件系统Amazon Nitro为例。它的出现,就是为了解决Xen架构的虚拟化系统的资源消耗问题——服务器中大概只有七成的资源能够提供给用户。而Amazon Nitro针对虚拟化损耗,提出定制化硬件的思路,最终提供了裸机的性能。

而在与用户应用关系度更紧密的CPU层面,亚马逊云科技提供了针对不同负载优化的计算实例类型,来推动芯片的落地应用,从计算密集型、内存密集型,再到存储、IO敏感、吞吐敏感、网络延迟敏感等,一应俱全。

针对最新的Amazon Graviton4,亚马逊云科技就提供了Amazon EC2 R8g内存优化性实例,可以提升客户运行高性能数据库、内存缓存、大数据分析等工作负载的效率。R8g实例相比当前一代R7g实例提供更大的实例大小,虚拟处理器(vCPU)以及内存均提升了3倍。这让用户可以处理更大量的数据、更大规模的工作负载、更快的获得运行结果,并降低总拥有成本。基于Amazon Graviton4的R8g实例现已提供预览版,并将在未来几个月推出正式可用版。

对于Amazon Graviton的设计方式,同样是从逆向工作法开始的,Amazon Graviton自发布以来,它的设计出发点就是用户的实际工作负载,而不是测试软件的benchmark。通过一个“六边形性能分析”可以看到,Amazon Graviton4相比上一代是如何在数据应用中提升性能。这些性能的提升不仅仅存在于re:Invent上,更在客户每次用实际工作负载来测试Amazon Graviton芯片中。

Amazon Graviton4的六边形性能分析,以及在Amazon Graviton3和Amazon Graviton4上运行的MySQL示例

据统计,目前由Amazon Graviton支持的Amazon EC2实例种类达150多个,已经构建的Amazon Graviton处理器数量超过200万个,并拥有超过5万客户,包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP,在使用Amazon Graviton服务之后,成本降低了35%,且分析速度更快,同时减少了45%的碳排放量。

不过我猜,Arthur Goldstuck和很多人在内,在re:Invent期间更关注的一颗芯,会是Amazon Trainium系列,因为这是面向模型“训练”的芯片,而这部分,算力的瓶颈问题众人皆知。

此次大会发布的Amazon Trainium2,是一款专为基础模型和大模型而生的产品,为拥有数千亿甚至数万亿个参数的基础模型训练做了优化,相比第一代Amazon Trainium(发布于2020年12月),性能提升4倍,内存提升3倍,能效(每瓦性能)提升2倍,几乎全线超过摩尔定律所定义的范畴。

同样,亚马逊云科技也有相同的实例推动新系列的落地。Amazon EC2 Trn2实例就采用了Amazon Trainium2,一个单独实例中包含16个Amazon Trainium芯片,Trn2实例可帮助在下一代EC2 UltraCluster中扩展到10万个Amazon Trainium2,通过搭配Amazon Elastic Fabric Adapter (EFA) 网络互连,提供65 ExaFlops超算级性能。基于此,客户只用几周就能训练出有3000亿个参数的大模型,这约是OpenAI的大模型GPT-3大小的1.75倍。

在这场发布的间隙,在采访中被问道“造芯对于客户带去什么价值”时,亚马逊云科技全球汽车及制造行业专业服务团队负责人Jon Allen表示:

“客户想要更快的、更便宜的东西,这是基本原则。”无疑,这也是非常“逆向工作法”的一个回答。他以汽车业务举例,“真正训练一辆自动驾驶汽车,起码得开车跑900万英里,如果用传统方式做数据训练,很多OEMs客户可能根本负担不起”。

02

生成式AI大时代,有自研,但不影响联盟

虽然亚马逊云科技一直持续自研芯片,但是封闭并非这家公司的基因。而在生成式AI时代起决定性作用的另外一家巨头,英伟达创始人兼CEO黄仁勋穿着标志性皮衣,甚至作为此次re:Invent的首位上场的合作伙伴,与Adam Selipsky进行了一场对话,在对话中黄仁勋提到

“生成式AI正改变各种云端负载,为多元内容创作在底层注入加速计算动能。我们的共同目标是,为每个客户提供具有成本效益的先进生成式AI,为此英伟达与亚马逊云科技在整个计算堆栈展开合作,横跨AI基础设施、加速库(acceleration libraries)、基础模型、以及生成式AI服务。”

在真正的创新者面前,重要的不是是否有竞争,而是双方是否有能满足客户需求的能力,显然,亚马逊云科技和英伟达都在对方身上看到了这一点。

“GPU和GPU之间用NV link连接方式让我们的GPU可以直接存取CPU的记忆体,CPU可以直接使用GPU的记忆体,这是非常快地进行的。在更大的网络中,通过Grace Harper链接在一起。Amazon Nitro可以将GH变成一颗巨大的虚拟化的GPU。这么多的实例,我们可以跟亚马逊云科技EFA兼容起来用,这也是非常快速的速度来运用的,所有单元都可以变成超级的集群。”黄仁勋说道。

约13年前,亚马逊云科技是第一家把英伟达GPU芯片带到云上的云厂商,而接下来,双方还将扩大合作,主要包括四个方面

  • 亚马逊云科技成为第一家在云端配备英伟达GH200 Grace Hopper超级芯片的云厂商。英伟达GH200 NVL32多节点平台为运用英伟达NVLink与NVSwitch技术连接32个Grace Hopper Superchips组成的实例。此平台将在Amazon Elastic Compute Cloud(Amazon EC2)实例上可用,与亚马逊云科技的网络相连,由虚拟化(Amazon Nitro System)及超大规模集群(Amazon EC2 UltraClusters)提供支持,让共同客户能扩展至数千个GH200超级芯片。
  • 在亚马逊云科技平台上将推出英伟达DGX Cloud NVIDIA AI“训练即服务(AI-training-as-a-service)”。此服务将是首个配置GH200 NVL32的DGX Cloud,为开发者提供单一实例中最多的共享内存。在亚马逊云科技上运行的DGX Cloud将加速训练含有超过1兆参数的尖端生成式AI与大型语言模型。
  • 英伟达与亚马逊云科技合作推动Project Ceiba,构建全球最快的GPU驱动的AI超级计算机,这是一个配备GH200 NVL32与Amazon EFA互连技术的大规模系统,该系统部署在亚马逊云科技上,为英伟达研发团队提供服务。该超级计算机将前所未有地配置16384颗英伟达H200超级芯片,能处理65 exaflops(衡量超级计算机性能的单位,每秒浮点运算可达一百亿亿次)速度等级的AI运算,英伟达使用该超级计算机推动其全新生成式AI的创新。
  • 亚马逊云科技将推出三款Amazon EC2实例:P5e实例配置英伟达H200 Tensor Core GPUs,针对大规模与尖端生成式AI及HPC高性能运算工作负载;分别配置英伟达L4 GPUs与英伟达L40S GPUs的G6与G6e实例,可运行包括AI微调、推理、绘图以及影片工作负载等广泛应用。G6e实例特别适用于开发3D工作流程、数字孪生、以及其他使用英伟达Omniverse的应用,用来连接与构建各种生成式AI的3D应用。

提到大模型,总有人认为这是巨头的游戏。但是Jon Allen不这么看,“对中小企业和创业公司来说,我们的AI芯片带给他们与宝马等汽车巨头相同的计算能力。十年前的硅谷,只有十几人的小公司根本无法负担高昂的算力(与大玩家竞争)。现在不一样了,AI芯片确实创造了新机会。“

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/207922.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

带你手搓阻塞队列——自定义实现

🌈🌈🌈今天给大家分享的是——阻塞队列的自定义实现,通过自定义实现一个阻塞队列,可以帮助我们更清晰、更透彻的理解阻塞队列的底层原理。 清风的CSDN博客 🛩️🛩️🛩️希望我的文章…

喜报 | 通付盾WAAP解决方案入选国家工业信息安全发展研究中心“2023年数字化转型自主创新解决方案优选案例”

为提升自主创新产品质量和技术创新能力,助力重点行业自主可控基础设施建设,加速重点行业数字化转型工作进程,促进重点行业产业链数字化升级,推动重点行业数字化、网络化、智能化发展。国家工业信息安全发展研究中心联合中国交通建…

SQL手工注入漏洞测试(MySQL数据库-字符型)-墨者

———靶场专栏——— 声明:文章由作者weoptions学习或练习过程中的步骤及思路,非正式答案,仅供学习和参考。 靶场背景: 来源: 墨者学院 简介: 安全工程师"墨者"最近在练习SQL手工注入漏洞&#…

SpringBoot——Quartz 定时任务

优质博文&#xff1a;IT-BLOG-CN 一、Scheduled 定时任务 【1】添加Scheduled相关依赖&#xff0c;它是Spring自带的一个jar包因此引入Spring的依赖&#xff1a; <dependency><groupId>org.springframework</groupId><artifactId>spring-context-su…

对于Web标准以及W3C的理解、对viewport的理解、xhtml和html有什么区别?

1、对于Web标准以及W3C的理解 Web标准 Web标准简单来说可以分为结构、表现、行为。 其中结构是由HTML各种标签组成&#xff0c;简单来说就是body里面写入标签是为了页面的结构。 表现指的是CSS层叠样式表&#xff0c;通过CSS可以让我们的页面结构标签更具美感。 行为指的是…

2023年12月02日新闻简报(国内国际)

新闻简报 每天三分钟&#xff0c;朝闻天下事。今天是&#xff1a;2023年12月02日&#xff0c;星期六&#xff0c;农历十月廿十&#xff0c;祝工作愉快&#xff0c;身体健康&#xff0c;生活喜乐&#xff1a;&#xff1a; 国内新闻 1、商务部&#xff1a;对原产于澳大利亚的进…

【C指针】深入理解指针(最终篇)数组指针指针运算题解析(一)

&#x1f308;write in front :&#x1f50d;个人主页 &#xff1a; 啊森要自信的主页 ✏️真正相信奇迹的家伙&#xff0c;本身和奇迹一样了不起啊&#xff01; 欢迎大家关注&#x1f50d;点赞&#x1f44d;收藏⭐️留言&#x1f4dd;>希望看完我的文章对你有小小的帮助&am…

电商营销场景的RocketMQ实战01-RocketMQ原理

架构图 Broker主从架构与集群模式 RocketMQ原理深入剖析 Broker主从架构原理 HAConnection与HAClient Broker基于raft协议的主从架构 Consumer运行原理 基础知识 001_RocketMQ架构设计与运行流程分析 RocketMQ这一块&#xff0c;非常关键的一个重要的技术&#xff0c;面试的时候…

【Vue3+Ts项目】硅谷甄选 — 搭建后台管理系统模板

一、 项目初始化 一个项目要有统一的规范&#xff0c;需要使用eslintstylelintprettier来对我们的代码质量做检测和修复&#xff0c;需要使用husky来做commit拦截&#xff0c;需要使用commitlint来统一提交规范&#xff08;即统一提交信息&#xff09;&#xff0c;需要使用pre…

Day04:每日一题:2661. 找出叠涂元素

2661. 找出叠涂元素 给你一个下标从 0 开始的整数数组 arr 和一个 m x n 的整数 矩阵 mat 。 arr 和 mat 都包含范围 [1&#xff0c;m * n] 内的 所有 整数。从下标 0 开始遍历 arr 中的每个下标 i &#xff0c;并将包含整数 arr[i] 的 mat 单元格涂色。请你找出 arr 中在 mat…

ubuntu系统下搭建本地物联网mqtt服务器的步骤

那么假如我们需要做一些终端设备&#xff0c;例如温湿度传感器、光照等物联网采集设备要接入呢&#xff1f;怎么样才能将数据报送到服务器呢&#xff1f; 以下内容基于我们ubuntu系统下的emqx成功启动的基础上。我们可以用浏览器键入控制板的地址&#xff0c;如果启动成功&…

【数电笔记】基本和复合逻辑运算

说明&#xff1a; 笔记配套视频来源&#xff1a;B站 基本逻辑运算 1. 与运算 &#xff08;and gate&#xff09; 2. 或运算 &#xff08;or gate&#xff09; 3. 非运算 &#xff08;not gate &#xff09; 复合逻辑运算 1. 与非运算&#xff08;nand&#xff09; 2. 或非运…

机器人仿真系统调研

仿真是机器人学习和研究过程中最重要的工具之一&#xff0c;是指通过计算机对实际的物理系统进行模拟的技术。机器人仿真基于交互式计算机图形技术和机器人学理论&#xff0c;生成机器人的几何图形&#xff0c;并对其进行三维显示&#xff0c;用来描述机器人及工作环境的动态变…

九章量子计算机:探索量子世界的革命性工具

九章量子计算机:探索量子世界的革命性工具 一、引言 九章量子计算机的推出,是近年来科技界最为引人瞩目的成就之一。这款基于量子力学的计算机,以其独特的计算方式和潜在的应用前景,引发了全球范围内的关注和讨论。本文将深入探讨九章量子计算机的原理、技术特点、应用前景…

计算机硬件(二)

1.内存和内存条的用途 假设运行内存16个g,能开多少软件 后台和前台能同时运行多少APP RAM越大越好 464 6128 8128 10256 例子: 8gx216g 两根内存条 16g运行内存 2.内存频率的用途 DDR5 DDR4 DDR3 后面的数字越大,越好,可以理解为传输的速度&#xff0c;内存搭配主…

小米智能摄像头mp4多碎片手工恢复案例

小米智能摄像头mp4多碎片手工恢复案例 智能摄像头目前在市场上极为常见&#xff0c;仅需要一张存储卡即可实现视频、音频的采集&#xff0c;同时可以通过手机APP进行远程控制&#xff0c;相比传统安防品牌成本更低、更容易部署。在智能摄像头品牌中小米算是绝对的大厂&#xf…

ES-深入理解倒排索引

倒排索引 idproductdesc1新版 小米 至尊-纪念版手机1小米 NFC 手机3NFC手机4小米 耳机5华为 耳机6扫地机器人7华为 Mata………………term_indexterm dictionaryposting list------------------------------------小米1……100W华为6,7,9NFC76,90耳机5352红米643,98机器人645,9…

数字电源为什么一般用DSP控制,而不能用普通的单片机?

数字电源为什么一般用DSP控制&#xff0c;而不能用普通的单片机&#xff1f; 首先你要清楚&#xff0c;数字电源需要一个芯片具备什么功能&#xff1f; 1 能发PWM波 &#xff0c;并且具备保护关断功能&#xff1b; 电源对PWM发波 要求很高&#xff0c;精度要ns级甚至ps级的&…

C++中异常的栈展开概念

C中的异常栈展开是指&#xff0c;当某个函数中有异常产生&#xff08;这里不考虑是主动抛出的还是被动产生的&#xff09;&#xff0c;在异常被捕获之前的函数调用链上&#xff0c;函数不会正常执行返回&#xff0c;即异常产生之后的程序逻辑不会被执行。 &#xff08;注意&…

RTDETR阅读笔记

RTDETR阅读笔记 摘要 DETR的高计算成本限制了它们的实际应用&#xff0c;并阻碍了它们充分利用无需后处理&#xff08;例如非最大抑制NMS&#xff09;的优势。文中首先分析了NMS对实施目标检测的精度和速度的负面影响。&#xff08;RTDETR是第一个实时端到端的目标检测器。具…