Nvidia 如何成为 AI 训练的超级强国

图片

周三,英伟达公布了第一季度的财务业绩,再次超出了分析师的预期。在截至 4 月 28 日的季度中,该公司的利润同比飙升 262%,股价一度创下 1000 美元以上的新高。

目前,英伟达的市值超过 2.3 万亿美元,是全球第三大最有价值的公司,甚至超过了 Alphabet 和亚马逊等大型科技公司。

短短几年间,该公司实现了如此令人印象深刻的财务飞跃,主要因素是 Nvidia 的数据中心芯片,该芯片帮助该公司在第一季度的收入增长了四倍以上。

这一激增也说明了科技界的最新趋势:科技公司正在大力投资训练人工智能。

尽管 Nvidia 的主要竞争对手英特尔和 AMD,以及谷歌和 Meta 都推出了替代芯片,但它们都无法提供相同的性能。Nvidia 在数据中心芯片市场几乎处于垄断地位。

然而,随着竞争加剧和芯片短缺,保持同样的市场主导地位将会很困难,甚至不可能。

一切如何开始

Nvidia 的想法诞生于加州丹尼餐厅,来自台湾的美国移民黄仁勋 (Jensen Huang) 15 岁时在那里工作。

在创立 Nvidia 之前,黄仁勋做过各种卑微的工作,包括洗碗、清洁厕所等。

在一次公司活动中接受 Stripe 联合创始人采访时,他半开玩笑地说道:“我绝对是世界上最好的厕所清洁工。”

黄仁勋已经执掌英伟达超过 31 年,是科技界任职时间最长的首席执行官,他并不避讳自己的工作经验,并将其归功于自己强烈的职业道德。

1993 年,黄仁勋在 Denny's 餐厅与 Chris Malachowsky 和 Curtis Priem 会面,讨论如何开发一款能够在个人电脑上实现逼真的 3D 图形的芯片。从此,三位联合创始人开始了他们的创业之旅。

该公司的第一款芯片 NV1 于 1995 年发布。这是一款多媒体加速器,结合了 2D 和 3D 图形功能以及音频支持。然而,这款芯片试图实现的功能太多,未能赢得很多付费客户。当时,该公司几乎破产,不得不解雇近一半的员工。

黄仁勋在接受 Acquired 播客采访时表示:“创立 Nvidia 比我想象的要难一百万倍,比我们任何人想象的都要难。”他坦言,如果知道未来会发生什么,他不会再创办公司。

他说:“如果我们在那个时候意识到痛苦和煎熬,意识到自己会感到多么脆弱,意识到自己将要面对的挑战、尴尬和羞愧,以及所有出错的事情,我想就不会有人再去创办公司了。”

在 NV1 失败并濒临破产之后,该公司于 1997 年推出了 RIVA 系列 GPUS,即 128,这是该公司第一款成功的重大产品。Riva 128 的速度是其他任何图形处理器的四倍。

1999 年,该公司推出了 GeForce 256,这是第一款著名的显卡,同时也推出了业界一直使用至今的“图形处理单元”一词。

转向数据中心

尽管 Nvidia 的 GeForce 仍然广泛应用于最新的游戏 PC,但游戏 GPU 仅占公司总收入的 1/10 左右,其中最大份额来自数据中心。

Nvidia 在为游戏玩家打造 GPU 方面的专业知识无疑有助于其成为 AI 训练的强大力量。

与每次只能执行数十亿次计算的中央处理器不同,GPU 可以同时执行许多较小的任务。这个过程称为并行处理。

这是 GPU 适合编写 AI 软件的关键因素之一。

不过,这种“幸运的巧合”只是成功的一小部分,英伟达之所以能称霸AI训练市场,并取得如此大的优势,真正的原因是该公司早在17年前就开始为此做准备。

当没有人谈论人工智能时,Nvidia 就开始改进其芯片,使其更适合人工智能训练。2014 年,它推出了 Tesla K80,这是第一款用于数据中心人工智能训练的 GPU。

制造硬件只是成功的一部分。2006 年,该公司推出了 CUDA,这是一个利用 GPU 加速器功能的并行计算平台和编程模型。CUDA 允许开发人员利用 Nvidia GPU 的并行处理功能来加速图形以外的应用程序,例如科学模拟和 AI。

黄仁勋在 Stripe 活动台上接受采访时表示,如果没有该软件,Nvidia 不会取得如此成功。

这可能是现代计算领域最重要的发明之一,我们发明了加速计算的概念,这个概念非常简单,但意义却十分深刻。程序的一小部分代码占据了 99% 的运行时间,对于非常重要的应用程序来说,这一点确实如此。这一小段代码可以得到加速。

近乎垄断的市场

凭借多年制造 AI 训练硬件的经验,Nvidia 获得了专业知识,因此当 AI 热潮开始时,它正好拥有企业所需要的东西。

据德国 IoT Analytics 称,Nvidia 目前在数据中心 GPU市场占有 92% 的份额。

Nvidia芯片的巨大需求也造成了芯片短缺。

去年,Futurum Group 分析师丹尼尔·纽曼 (Daniel Newman)向《纽约时报》表示,企业要等待 18 个月才能获得 Nvidia 最新的 Hopper 架构芯片(称为 H100),而不是从竞争对手那里购买。

尽管芯片短缺问题已经缓解,但 Nvidia 的芯片需求仍然旺盛。所有主要参与者,包括 Open AI、谷歌、Meta 和亚马逊,都在使用 Nvidia 的产品训练他们的 AI。

今年,该公司推出了基于 Blackwell 架构的芯片。在发布第一季度财报后,黄仁勋表示,公司已准备好迎接下一波增长。

Blackwell 架构芯片的功能将是最新款 Hopper 芯片的两倍,售价约为 30,000-40,000 美元。

尽管与 PC 中的 GPU 相比,数万美元的价格似乎有点高,但对于客户来说,还是值得的。

他向《纽约时报》解释道: “如果芯片能够减少在五十亿数据中心上训练大型语言模型的时间,那么节省的费用将超过所有芯片的成本。”

供暖竞赛

虽然 Nvidia 已准备好进入下一阶段的增长,但 AI 训练市场的竞争正在升温。在如此快速发展的领域,没有人愿意依赖一家供应商并等待数月才能获得用于 AI 训练的硬件。

今年 4 月,谷歌和 Meta 还宣布推出用于训练 AI 的全新自研芯片。虽然它们落后于 Nvidia,但它们的芯片有一个优势——它们的硬件可以专门针对其 AI 模型进行量身定制。随着时间的推移,这些富有的科技巨头肯定会有所进步。

包括 Meta、谷歌和微软在内的一些大型科技公司正在为 Open AI 发布的名为 Triton 的软件的开发做出贡献。Triton 旨在让代码在各种 AI 芯片上运行软件,它将成为 CUDA 的竞争对手。

英特尔和 AMD 是 Nvidia 的主要竞争对手,它们正在努力追赶。上个月,英特尔发布了最新的 Gaudi 芯片,该公司表示,与 Nvidia H100 相比,这款芯片的推理能力平均提高了 50%,能效平均提高了 40%,而成本却只是后者的一小部分。

初创公司也推出了一些前景看好的芯片。Cerebras Systems 最近推出了 CS-3,该公司称其速度和性能是 Nvidia H100 的两倍,但成本相同。

未来,来自中国制造商的竞争也将加剧。华为正在推出用于人工智能训练的 Ascend AI 芯片,目前这些芯片的性能不如西方公司。但随着数十亿美元的半导体行业投资,情况可能会好转。

目前,Nvidia 相对于竞争对手拥有一个关键优势:多年的专业知识和技术。但这是否足以保持领先地位还有待观察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/647866.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从0开始学统计-什么是相关?

1.什么是统计学相关? 在统计学中,“相关”(Correlation)是指两个变量之间的线性关系程度。相关关系可以表明两个变量在某种程度上共同变化的趋势,但不意味着因果关系。相关的主要衡量方法是相关系数(Correlation Coe…

【Linux-INPUT输入的子系统】

Linux-INPUT输入的子系统 ■ input 子系统简介■ input 驱动编写流程■ ■ input 子系统简介 input 子系统就是管理输入的子系统, input 子系统分为 input 驱动层、 input 核心层、 input 事件处理层,最终给用户空间提供可访问的设备节点 ■ input 驱…

shell脚本实战--批量修改文件名

字符串截取 先来了解一下shell字符串相关操作的变量 # 从开头删除匹配最短 ## 从开头删除匹配最长 % 从结尾削除匹配最短 %% 从结尾删除匹配最长#指定字符内容截取 a*c 匹配开头为a,中间任意个字符,结尾为c的字符串 a*C 匹配…

web学习笔记(五十八)

目录 1. v-model 双向数据绑定 2. 事件修饰符 3. 路径别名 4. setup语法糖 4.1 语法糖的概念 4.2 setup语法糖 5. 配置代理服务器 1. v-model 双向数据绑定 v-model 双向数据绑定只能使用在表单标签; v-model双向数据绑定原理:采用 Object.de…

C++的哈希 哈希表 哈希桶

目录 Unordered系列关联式容器 什么是哈希 哈希表 闭散列 载荷因子α 扩容 查找 删除 字符串哈希算法 最终代码 开散列 插入 查找 删除 最终代码 完整代码 Unordered系列关联式容器 C98中,STL提供了底层为红黑树结构的一系列关联式容器&#xff0…

模仿高效网络进行目标检测——知识蒸馏

摘要 链接:https://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Mimicking_Very_Efficient_CVPR_2017_paper.pdf 当前的基于卷积神经网络(CNN)的目标检测器需要从预训练的ImageNet分类模型中初始化,这通常非常耗时。在本…

高效的大型语言模型适应方法:提升基础性的解决方案

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

人工智能在鼻咽癌领域的最新应用|【医学AI·论文速递·05-27】

小罗碎碎念 2024-05-27|文献速递 接下来打算把人工智能在主流癌种治疗中的应用,每天和大家做一期推送,方便大家了解各自领域最新的一个进展。 因为小罗的课题是鼻咽癌相关的,所以这一期推文就先从人工智能在鼻咽癌中最新的应用开…

50-Qt控件详解:Input Display

#ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> //1.Combo Box控件 #include<QComboBox> //2.QFontComboBox控件 #include<QFontComboBox> #include<QLabel>//3.Line Edit控件 #include<QLineEdit> #include <QPushButton…

面向浏览器端免费开源的三维可视化编辑器,包含BIM轻量化,CAD解析预览等特色功能。

ES 3DEditor &#x1f30d;Github地址 https://github.com/mlt131220/ES-3DEditor &#x1f30d;在线体验 https://editor.mhbdng.cn/#/ 基于vue3与ThreeJs&#xff0c;具体查看Doc 主要功能&#xff1a; 模型导入展示&#xff0c;支持OBJ、FBX、GLTF、GLB、RVT、IFC、SEA、3…

5.23 Linux中超时检测方式+模拟面试

1.IO多路复用的原理&#xff1f; IO多路复用使得一个或少量线程资源处理多个连接的IO事件的技术。对于要处理的多个阻塞的IO操作&#xff0c;建立集合并存储它们的文件描述符&#xff0c;利用单个阻塞函数去监控集合中文件描述符事件到达的情况&#xff0c;&#xff08;如果到…

k8s部署presto

&#xff08;作者&#xff1a;陈玓玏&#xff09; 一、前提条件 已部署k8s&#xff1b;已部署hadoop和hive&#xff0c;可参考以下链接&#xff1a; https://blog.csdn.net/weixin_39750084/article/details/136750613?spm1001.2014.3001.5502 https://blog.csdn.net/wei…

【Linux-时间管理和内核定时器】

Linux-时间管理和内核定时器 ■ 设置系统节拍率■ 高节拍率和低节拍率的优缺点&#xff1a;■ jiffies 系统节拍数■ get_jiffies_64 这个函数可以获取 jiffies_64 的值■ 处理绕回■ 使用 jiffies 判断超时 ■ jiffies 和 ms、 us、 ns 之间的转换函数在这里插入代码片■ 内核…

Python语言基础学习(下)

目录 一、顺序语句 二、条件语句 (1) if (2) if - else (3) if - elif - else 缩进和代码块 空语句 pass 三、循环语句 while 循环 for 循环 continue break 四、函数 创建函数 调用函数 函数返回 函数变量 函数递归 关键字参数 五、列表和元组 创建列表 …

CNCAP2024主动安全解析

一、新增场景 车辆自动紧急制动系统&#xff08;AEB C2C&#xff09;在 2021 版基础上新增了叉路口场景、高速公路追尾场景和 AEB 误作用场景&#xff1b;VRU 自动紧急制动&#xff08;AEB VRU&#xff09;试验在 2021 版基础上新增了交叉路口场景&#xff0c;同时对已有场景进…

你真的了解HTTPS协议吗

前言 在 HTTP 协议中有可能存在信息窃听或身份伪装等安全问题。使用 HTTPS 通信机制可以有效地防止这些问题。本文即将带大家来了解这些。 任何事物都有两面性&#xff0c;为了满足HTTP协议的快&#xff0c;但导致了它有如下的不足&#xff1a; 通信采用明文&#xff08;不加…

IDEA 2024.1安装与破解

一、下载 官网地址&#xff1a;https://www.jetbrains.com/idea/download/other.html 二、安装 傻瓜式安装即可 三、破解 3.1 破解程序 网站&#xff1a;https://3.jetbra.in/ 3.2 获取激活码 点击*号部分即可复制成功

深入解析RPC技术:原理、实现与应用

RPC&#xff08;Remote Procedure Call&#xff0c;远程过程调用&#xff09;是一种计算机通信协议&#xff0c;允许一个程序&#xff08;客户端&#xff09;在本地调用另一个程序&#xff08;服务器&#xff09;中的函数或方法&#xff0c;并获取返回结果&#xff0c;就像调用…

Dubbo生态之sentinel限流

1. 限流算法 我们知道&#xff0c;在分布式架构中&#xff0c;当服务请求量过大时&#xff0c;容易对服务器造成不可预知的压力&#xff0c;因此&#xff0c;我们在客户端请求的时候&#xff0c;进行限流&#xff0c;起到一个保护的作用 常见的限流算法有: 计数器限流&#x…

猫头虎 解析:为什么AIGC在国内适合做TOB,在国外适合做TOC?

猫头虎 解析&#xff1a;为什么AIGC在国内适合做TOB&#xff0c;在国外适合做TOC&#xff1f; 博主 猫头虎 的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面…