一张顶20张H100,速度10倍于B200:史上最快AI芯片,华人制造

在谈到 AI、大模型、算力等关键词时,如果要提及硬件产品,很多人应该会不假思索的说出英伟达。的确,在全球都缺算力的环境下,英伟达的地位是独特又难以撼动的。然而就在近日,有一家公司带着自己的 AI 芯片来叫板了。昨天凌晨,科技圈迎来了一个重要新闻。成立时间不到两年的美国芯片初创公司 Etched 推出了自己的第一块 AI 芯片 Sohu,它运行大模型的速度比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。

61718eb08621c8a80baf7e0c683f267b.jpeg

“Sohu”什么来头?

Sohu 是世界第一款专用于 Transformer 计算的芯片,历时两年打造。作为一块 ASIC(专用集成电路),Sohu 芯片最大的亮点在于直接把 Transformer 架构蚀刻到芯片中,乌伯蒂称 Sohu 采用台积电的 4 纳米工艺制造,推理性能大大优于 GPU 和其他通用人工智能芯片,同时能耗更低,而如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。在 Llama 70B 吞吐量中,Sohu 每秒可处理超过 50万个 tokens,让用户可以构建 GPU 无法实现的产品。Sohu 能够实现实时语音代理、毫秒级处理数千字文本、更强大的代码树搜索、并行比较数百个响应、多播推测解码以及实时生成新内容等功能,为未来万亿级参数模型的运行提供了可能。

速度超H100 20 倍,FLOPS 利用率超 90%

作为世界上首款 transformer ASIC(应用型专用集成电路)芯片,一台集成了8 块 Sohu 的服务器可以匹敌 160 块 H100 GPU。也即,Sohu 的运行速度是 H100 的 20 多倍。具体来讲,通过专门化,Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。此外,对于 Llama、Stable Diffusion 3,Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型,未来还会适配模型调整。由于 Sohu 仅能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块。也因此,Sohu 实现了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 约为 30%。

软件如何工作

在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。而 Sohu 只运行 transformer,因此只需要为 transformer 编写软件。大多数运行开源或内部模型的公司都使用特定于 transformer 的推理库,比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。这些框架非常僵化,虽然你可以进行模型超参数调优,但实际上不支持更改底层模型代码。但这没关系,因为所有 transformer 模型都非常相似(甚至是文本 / 图像 / 视频模型),所以超参数调优就是你真正需要的。虽然 95% 的 AI 公司是这样,但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率,并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。Etched 让我们不需要再进行逆向工程,他们的软件(从驱动程序、内核到服务堆栈)都将是开源的。如果你想实现自定义 transformer 层,则内核向导可以自由地这样做。

创业团队:哈佛辍学生领衔

打造 Sohu 芯片的 Etched 位于加州库比蒂诺,公司成立仅两年,目前团队只有 35 人,创始人是一对哈佛辍学生 Gavin Uberti(前 OctoML 和前 Xnor.ai 员工)和 Chris Zhu,他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起,一直致力于打造专用于 AI 大模型的芯片。两人在2022年就声称Transformer将改变世界。领英资料也显示公司创立时间在2022年10月,比ChatGPT问世还早一个月。

9c7250fae2276763c6f48e3d18fd6a42.jpeg

在 Sohu 芯片发布的同时,Etched 也宣布已完成了 1.2 亿美元的 A 轮融资,由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元,本轮融资的重要投资者包括 Peter Thiel、GitHub 首席执行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。Uberti 声称到目前为止,已有匿名客户预订了「数千万美元」的硬件,预计在今年三季度,Sohu 将推向市场。未来真的如 Uberti 所说,只有在 Sohu 这样的芯片上,视频生成、音频生成、具身智能等技术才能真正落地吗?

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0627_shemei


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/749565.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

海南聚广众达电子商务咨询有限公司抖音开店靠谱吗?

在当今数字化时代,电商行业迅猛发展,抖音作为短视频平台的佼佼者,其电商功能也日益凸显出其巨大的商业价值。海南聚广众达电子商务咨询有限公司,凭借其专业的电商服务能力和对抖音平台的深入理解,成为众多品牌进军抖音…

C++实现一个简单的Qt信号槽机制

昨天写这个文章《深入探讨C的高级反射机制(2):写个能用的反射库》的时候就在想,是不是也能在这套反射逻辑的基础上,实现一个类似Qt的信号槽机制? Qt信号槽机制简介 所谓的Qt的信号槽(Signals …

多维度mysql性能优化手段实践

数据库优化维度有四个:硬件升级、系统配置、表结构设计、SQL语句及索引。 优化选择: 优化成本:硬件升级>系统配置>表结构设计>SQL语句及索引。 优化效果:硬件升级<系统配置<表结构设计<SQL语句及索引。 系统配置优化 保证从内存中读取数据 MySQL会在内…

Open3d 点云投影到 xoy yoz 平面最简单的方式(附python 代码)

最简单的方式&#xff0c;就是直接把原有的点云的数据的 z or x 赋值为0, 然后生成一个新的点云。 filename_model1 r"1.pcd"down 10point_cloud o3d.io.read_point_cloud(filename_model1) point_cloud point_cloud.uniform_down_sample(int(down)) print(降采样…

Java对象集合按照指定元素顺序排序

需求背景 最近在对一个集合列表的数据进行排序&#xff0c;需求是要集合数据按照一个排序状态值进行排序&#xff0c;而这个状态值&#xff0c;不是按照从小到大这样的顺序排序的&#xff0c;而是要按照特定的顺序&#xff0c;比如按照1, 0, 2的顺序排的&#xff0c;所以需要自…

Attention步骤

一个典型的Attention思想包括三部分&#xff1a;Qquery、Kkey、Vvalue。 Q是query&#xff0c;是输入的信息&#xff1b;key和value成组出现&#xff0c;通常是原始文本等已有的信息&#xff1b;通过计算Q与K之间的相关性a&#xff0c;得出不同的K对输出的重要程度&#xff1b;…

智慧公厕系统在办公楼卫生管理中的作用,高效、便捷、智能

在现代化的办公楼中&#xff0c;卫生管理是营造舒适、高效工作环境的重要环节。而智慧公厕系统的引入&#xff0c;正以其高效、便捷、智能的特点&#xff0c;为办公楼的卫生管理带来了革命性的变革。 一、智慧公厕系统首先展现出了令人瞩目的高效性。 传统的公厕管理往往依赖人…

【zabbix】zabbix四大监控方式

zabbix四大监控方式 zabbix四大监控方式1、 Agent2、 SNMP3、IPMI4、JMX 设置 zabbix-snmp 监控 zabbix监控tomcat的jvm内存1.介绍Zabbix Java Gateway 主要功能使用场景 2.Zabbix Java Gateway 配置步骤**3.在被控端的tomcat上开启jvm监控**4.在zabbix-server上添加监控4.1.添…

Codeforces Round 954 (Div. 3) (A~F)(不会数学)

A - X Axis 暴力枚举一下所有可能 void solve() {int a , b , c;cin >> a >> b >> c;int ans 100;for(int i 0 ; i < 10 ; i ){ans min(ans , abs(i - a) abs(i - b) abs(i - c));} cout << ans << endl; } B - Matrix Stabiliz…

Python魔法参数:深入解析*args和**kwargs的强大用途

目录 引言 基础概念解析 *args:处理位置参数 **kwargs:处理关键字参数 *args和**kwargs的实际应用场景 1. 函数装饰器中使用*args和**kwargs 2. 类构造函数中使用*args和**kwargs 3. API调用中使用**kwargs 与其他参数类型的结合使用 结合默认参数 位置参数与关键…

第5讲:建立自己的C函数库,js调用自己写的C/C++函数,并包含依赖C/C++第三方静态库。

在javascript中&#xff0c;Array有很多内置的功能&#xff0c;比如Array.map&#xff0c;Array.filter&#xff0c;Array.find等等&#xff0c;能用内置的功能就用内置的功能&#xff0c;最好不要自己实现一套&#xff0c;因为底层调用的可能压根就不是js语言本身&#xff0c;…

从零开始了解GPT-4o模型:它是如何工作的?

人工智能&#xff08;AI&#xff09;技术正以惊人的速度发展&#xff0c;其中最引人注目的是OpenAI发布的GPT-4o模型。作为GPT系列的新成员&#xff0c;GPT-4o在多模态输入处理和响应速度上取得了重大进展。本文将深入探讨GPT-4o的工作原理&#xff0c;帮助您全面了解这一尖端A…

【教程】DPW 325T FPGA板卡程序下载与固化全攻略

到底什么是固化&#xff1f;&#xff1f;&#xff1f; 在开发板领域&#xff0c;"固化"通常指的是将软件或操作系统的镜像文件烧录&#xff08;Flash&#xff09;到开发板的存储介质上&#xff0c;使其成为开发板启动时加载的系统。这个过程可以确保开发板在启动时能…

Java日志 - JUL

一、JUL学习总结 &#xff08;1&#xff09;总结 JDK自带的日志系统中已经为我们创建了一个顶层的RootLogger&#xff0c;可以针对这个顶层的RootLogger设置多个Handler&#xff08;如ConsoleHandler, FileHandler等&#xff09;&#xff0c;如果想在控制台输出debug级别以上的…

生命在于学习——Python人工智能原理(2.6.1)

六 Python的文件系统 6.1 打开文件 在Python中&#xff0c;可以使用内置的open函数来打开文件&#xff0c;open函数的基本语法如下&#xff1a; file open(file_name, moder, buffering-1, encodingNone, errorsNone, newlineNone, closefdTrue, openerNone)参数说明&#…

IIS在Windows上的搭建

&#x1f4d1;打牌 &#xff1a; da pai ge的个人主页 &#x1f324;️个人专栏 &#xff1a; da pai ge的博客专栏 ☁️宝剑锋从磨砺出&#xff0c;梅花香自苦寒来 目录 一 概念&#xff1a; 二网络…

Mozilla Firefox正在尝试集成ChatGPT等帮助用户总结或改写网页内容

Mozilla基金会开启了一项新计划&#xff1a;在接下来几个月里尝试在Firefox浏览器里集成 ChatGPT 等 AI 服务&#xff0c;帮助用户在网页上总结内容或者改写内容等。Firefox浏览器集成的 AI 服务包括但不限于 ChatGPT、Google Gemini、HuggingChat 等&#xff0c;当然这并不是把…

vue3import的插件全局引入

webpack 的引入 npm install -D unplugin-auto-import const AutoImport require(unplugin-auto-import/webpack).default;configureWebpack: {devtool: source-map,module: {rules: [{test: /\.mjs$/,include: /node_modules/,type: javascript/auto}],}, plugins: [Aut…

超详细的Pycharm使用虚拟环境搭建Django项目并创建新的虚拟环境教程

一、什么是虚拟环境&#xff1f; 通过软件虚拟出来的开发环境&#xff0c;不是真实存在的&#xff0c;一般在多套环境开发时会用到。 二、为什么要使用虚拟环境&#xff1f; 虚拟环境为不同的项目创建不同的开发环境&#xff0c;开发环境内所有使用的工具包互不影响。比如项…

安全工具 | BurpSuite安装使用(保姆级教程!)

Burp Suite下载,破解,代理web,代理模拟器 (一)为Burp Sutie下载运行执行脚本环境(Java) 1.Java官网下载地址&#xff1a;https://www.oracle.com/java/technologies/ 下载Java SE 17.0.8(LTS) 备注&#xff1a;1.2023版Burp Suite 完美的运行脚本的环境是Java17 2.Java8不支持…