中国国产AI芯片的崛起

一、CUDA的垄断

        当讨论半导体行业面临的挑战时,你首先想到的是什么?光刻机?3纳米或者5纳米技术?我们无法生产的完美方形芯片?是的,但也不完全是。

        人们经常把半导体芯片归类为硬件产业,但实际上,半导体芯片是一个硬件和软件高度融合的产业,而且软件往往发挥更重要的作用。

        芯片的硬件是指运行指令的物理平台,包括处理器、内存、存储设备等。“晶体管数量”和“7 纳米工艺”等与芯片相关的术语就是硬件参数的示例。

        另一方面,软件包括固件、驱动程序、操作系统、应用程序、运算符、编译器、开发工具、模型优化、部署工具和应用程序生态系统等。软件指导硬件如何响应用户指令、处理数据和任务,同时通过特定算法和策略优化硬件资源的使用。“x86 指令集”、“深度学习运算符”和“CUDA 平台”等术语通常与芯片软件有关。

        没有硬件,软件就无法运行。然而,没有软件,硬件只是一堆毫无意义的硅片。

        2012年,随着深度学习与GPU的结合在ImageNet大赛上大放异彩,人工智能一夜之间风靡全球,科技界开始将目光聚焦人工智能领域,深耕CUDA人工智能计算平台的英伟达股价一路飙升,成为新时代的主导力量。

        然而,软件将成为人工智能时代的核心技术壁垒。

        为了打破 Nvidia 的垄断,前芯片老大英特尔和老对手 AMD 分别推出了 OneAPI 和 ROCm,与 CUDA 展开竞争。Linux 基金会联合英特尔、谷歌、高通、Arm、三星等公司成立了 UXL 基金会(俗称“反 CUDA 联盟”),致力于开发一套新的开源软件套件,让 AI 开发者可以在任何成员公司的芯片上进行编程,试图取代 CUDA 成为首选的 AI 开发平台。

        相反,Nvidia 一直在巩固其 CUDA 护城河。

        早在 2021 年,Nvidia 就公开表示禁止使用转换层在其他硬件平台上运行基于 CUDA 的软件,并于 2024 年 3 月将此升级为彻底禁止,直接在 CUDA 的最终用户许可协议中添加条款。

        对于中国用户来说,这项禁令的打击更大。

        2022年,英伟达被要求停止向中国市场供应高端GPU芯片,有效封锁了中国的GPU芯片采购渠道。

        如今其他芯片上运行CUDA软件也被禁止,中国AI企业该怎么办?

二、中国国产AI芯片的崛起

        其实早在禁令颁布之前,中国芯片企业就已做好了准备。2015年,中国人工智能产业蓬勃发展,出现了“人工智能四龙”引领产业发展。

        在这波因对卷积神经网络(CNN)的兴趣而引发的人工智能浪潮中,中国企业认识到了国产人工智能芯片的重要性。

        这一时期,中国涌现出近百家AI芯片企业,既有寒武纪、必任科技、厚墨等创业公司,也有华为、阿里巴巴、百度等科技巨头,以及传统芯片厂商、挖矿设备厂商。

        大家都纷纷加入这股潮流,整个行业蓬勃发展,似乎都有一个共同的目标:打造自主可控的国产AI芯片生态。

        在此推动下,中国AI芯片企业很早就意识到了软件、工具和生态对于芯片的重要性,因此在不断升级迭代硬件产品的同时,投入了大量的时间和精力去解决软件相关的问题。

        CUDA 是一个封闭的软件平台,因此从头开始构建原始软件堆栈是突破 CUDA 生态系统障碍的关键。

三、中国AI芯片软件平台概况

        中国的AI芯片创业公司在云端、边缘端领域蓬勃发展,各有千秋。例如,必韧科技开发了BIRENSUPA软件平台,包括硬件抽象层、编程模型、BRCC编译器、深度学习和通用计算加速库、工具链、支持主流深度学习框架、自研推理加速引擎以及适用于各种场景的应用SDK,是国内为数不多的综合性AI软件开发平台之一。

        此外,专注于云端及车规级AI芯片的寒武纪推出了基础软件平台;专注于集成式智能驾驶芯片的厚墨科技也推出了厚墨大道软件平台;专注于全GPU的摩尔线程推出了MUSA SDK及AI软件平台;专注于通用GPU(GPGPU)的天数芯推出了天数芯软件栈。

        与中国早期白手起家的芯片研究人员不同,当代中国AI芯片玩家大多拥有丰富的行业经验,并了解类似CUDA的软件工具对于AI开发人员的关键重要性。

        因此,在2015年至2022年期间,这些玩家努力构建自己的硬件和软件生态系统。他们设法在国际层面上赶上了一些,尽管他们仍然远远落后于像Nvidia这样的全球巨头,但Nvidia并没有闲着,而是利用其在深度学习方面的专业性巩固了自己的地位。

        然而谁也没有想到,新的变革契机这么快就到来了,2022年11月,ChatGPT横空出世,再一次打破了行业的平衡。

四、大型模型是天赐的机会吗?

        2022年11月,随着ChatGPT在全球引起轰动,大型语言模型(LLM)突然成为全球追捧的前沿技术,热度远超CNN。

        对于一些中国AI芯片制造商来说,这被视为赶上竞争潮流的天赐良机。

        更加有利的是,LLM的技术基础是Transformer网络,其最初有BERT、T5、GPT三条不同的路径。

        然而,自从ChatGPT的惊艳亮相后,GPT已经成为了绝对的主流,引领全球AI产业走向统一的认识。

        在AI技术发展史上,如此程度的团结几乎是闻所未闻的。

        CUDA的先发优势因此而突然缩小。

        正是因为这种快速的融合,中国AI芯片厂商才得以快速上手对大型模型进行调优和适配,更重​​要的是,此时他们已经可以与其他国际厂商在同一起跑线上。

        目前,在Nvidia严禁在其他AI芯片硬件平台上运行CUDA,加之美国芯片禁令进一步加重、全球算力紧缺的背景下,中国大模型软件公司难以获得最前沿的GPU芯片,因此如何将现有的大模型迁移到新的计算平台上成为首要解决的痛点。

        鉴于大模型训练对计算集群的迫切需求,国内AI芯片企业正致力于加强集群能力。以采用GPGPU架构的璧人为例,客户反馈璧人的SUPA在软件团队的支持下,短时间内完成了实际应用迁移,在主流开源大模型上的表现也呈现出良好的效果。

        如果AI芯片厂商能够提供简单易用、低成本的迁移工具,有完善的模型适配能力以及成熟的集群部署经验,那么大模型的快速落地就变得可行。

        包括必韧在内的多家中国公司已完成对国内大部分开源大模型的适配,积累了丰富的千卡集群部署经验,中国大模型合作伙伴自研模型适配时间已大幅缩短。除了帮助用户快速从CUDA迁移到SUPA生态之外,大型模型公司还可以利用Biren的架构特性和SUPA的能力来扩展CUDA生态,进一步提升性能。

        通过自下而上的开发,Biren 可以最大限度地发挥其硬件优势,确保无论硬件到终端应用程序如何变化,其软件堆栈始终能够进行优化、迭代和调整。

        当前,除了芯片层面,大机型软件、算力、云计算等层面的国产化也在积极推进。

        AI芯片公司作为整个AI生态的基础构建者,寻求与大型模型、框架、集群公司进行深度合作,以最大化整体性能。

        例如,必韧科技不仅与PaddlePaddle等框架开发商合作,不仅满足企业用户符合国际标准的开发需求,还专门定制了与国内环境兼容的解决方案,为中国AI企业提供更为顺畅的融入之路。

        同时,必韧还与Infinigence等中国算力优化公司达成合作,进一步高效推动AI计算的本土化发展。

        为破解生态瓶颈,璧人通过搭建算力平台、开源相关工具和库、开放上层模型等方式推进软件平台建设,与框架、大模型合作伙伴进行联合适配优化,建立生态合作,并通过与高校、科研机构、终端客户等开展产学研合作等多种方式推进落地。

        软件无疑是最难突破的一道坎,也是目前各大AI芯片公司的共识重点。通过产学研的共同努力,一定可以取得突破。例如浙江大学的AI教学平台Mo,就利用比人软硬件资源作为教学实践的基础,为学生提供实践机会,为国产软件生态的长远发展播下种子。

五、结论

        毫无疑问,算力已成为人工智能时代的战场,算力的严重短缺制约着各国人工智能技术的发展。

        据报道,OpenAI首席执行官Sam Altman曾表示,“计算能力将成为未来的货币”,暗示人工智能的发展将演变为公司、组织甚至国家之间的大规模权力斗争。

        目前,Nvidia的GPU硬件凭借CUDA软件方面的优势,受到市场热捧,长期处于供不应求的状态。而大模型取代深度神经网络成为新一代AI技术的兴起,恰恰给了中国AI芯片玩家一个难得的追赶机会。

        回顾过去二十年,英伟达之所以能主宰AI时代,得益于其在AI领域的先发优势,借助深度学习的浪潮,凭借CUDA平台取得对英特尔的战略优势。

        如今,一条崭新的道路即将再次出现,但这一次,中国企业已经做好准备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/767098.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言----文件操作

1.为什么使用文件? 如果没有⽂件,我们写的程序的数据是存储在电脑的内存中,如果程序退出,内存回收,数据就丢失了,等再次运⾏程序,是看不到上次程序的数据的,如果要将数据进⾏持久化…

递归(二)—— 初识暴力递归

如何理解暴力递归? 字面意思就是——“暴力的递归”,就是——“别纠结细节,开整(递归)!” 暴力递归就是尝试。即:只要满足递归条件就不断的递归下去,直到达到base case&#xff0c…

力扣习题--哈沙德数

一、前言 本系列主要讲解和分析力扣习题,所以的习题均来自于力扣官网题库 - 力扣 (LeetCode) 全球极客挚爱的技术成长平台 二、哈沙德数 1. 哈沙德数 如果一个整数能够被其各个数位上的数字之和整除,则称之为 哈沙德数(Harshad number&…

LeetCode刷题之HOT100之除自身以外数组的乘积

2024 7/3 今天天气依旧很好,想起来做一题。 1、题目描述 2、算法分析 给定一个数组,要返回初自身以外数组的乘积。咋做呢?是的,我只能想到暴力解法,这不符合时间复杂度O(n)的要求,所以我只能看一下题解了…

零一万物: Yi Model API的使用

一、获取API Key 通过官方网址注册账号并且认证: 零一万物大模型开放平台 创建API Key 二、安装及调用 安装OpenAI SDK ​ 零一万物API 接口兼容 OpenAI 的 Python SDK,只需要简单配置即可使用。 安装 OpenAI SDK。请确保使用的 Python 版本至少为 3.7.1&a…

检索生成(RAG) vs 长文本大模型:实际应用中如何选择?

编者按:大模型的上下文理解能力直接影响到 LLMs 在复杂任务和长对话中的表现。本期内容聚焦于两种主流技术:长上下文(Large Context Windows)和检索增强生成(RAG)。这两种技术各有何优势?在实际应用中,我们又该如何权衡选择&#…

数据质量管理-可访问性管理

前情提要 根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标; 定性指标&am…

【Windows】draw.io(免费的开源跨平台绘图软件)软件介绍

软件介绍 draw.io 是一款免费且易于使用的在线流程图绘图软件,后来更名为 diagrams.net。它最初作为一个基于 Web 的应用程序提供,支持用户创建各种类型的图表、流程图、网络图、组织结构图、UML 图等。它是完全免费的、强大的、专业的、易于使用的和高…

C++使用Poco库封装一个HTTP客户端类--Query参数

0x00 概述 我们使用Poco库的 Poco::Net::HTMLForm 类可以轻松实现表单数据的提交。 0x01 ApiPost提交表单数据 0x02 HttpClient类 #ifndef HTTPCLIENT_H #define HTTPCLIENT_H#include <string> #include <map> #include <Poco/URI.h> #include <Poco/N…

引领视觉基础模型新纪元! | 微软宣布开源Florence-2

01 模型介绍 &#x1f389;重大突破&#xff01;微软宣布开源Florence-2视觉基础模型&#xff0c;引领AI新纪元&#xff01;&#x1f680; Florence-2这一创新力作&#xff0c;以统一的提示为基础&#xff0c;跨越式地解决了计算机视觉与视觉语言领域的多样任务难题。从字幕生…

Hyper-V虚拟机固定IP地址(手把手教设置)

链接虚拟机修改网络配置文件 输入指令 sudo vi /etc/sysconfig/network-scripts/ifcfg-eth0 然后 输入 按 i 键 再按回车 (enter) 进入编辑模式 修改配置(这几项)其中 IPADDR 就是你想给虚拟机固定的 IP 地址 多台的话只需要修改这个IP 就行其他不变 BOOTPROTO=static…

半导体划片研磨废水的处理效果

半导体划片研磨废水处理是一个复杂而关键的过程&#xff0c;因为这类废水中含有大量颗粒物、有机物、重金属等有害物质&#xff0c;具有浓度高、毒性大、难以处理等特点。以下是对半导体划片研磨废水处理过程的详细阐述&#xff0c;结合相关数字和信息进行归纳&#xff1a; 一、…

【Java集合类】ArrayList

方法 subList(int fromIndex, int toIndex) 可以看一下subList源码片段 public List<E> subList(int fromIndex, int toIndex) {subListRangeCheck(fromIndex, toIndex, size);return new SubList<>(this, fromIndex, toIndex);} private static class SubList…

nginx的vim nginx.conf配置文件内容详解及实验,nginx的优化和防盗链

一、nginx网络服务器&#xff1a; 1. nginx是开源的&#xff0c;是一款高性能&#xff0c;轻量级的web服务软件&#xff1b;稳定性高&#xff0c;而且版本迭代比较快&#xff1b;修复bug速度比较快&#xff0c;安全性高&#xff1b;消耗资源低&#xff0c;http的请求并发连接&…

My sql 安装,环境搭建

以下以MySQL 8.0.36为例。 一、下载软件 1.下载地址官网&#xff1a;https://www.mysql.com 2. 打开官网&#xff0c;点击DOWNLOADS 然后&#xff0c;点击 MySQL Community(GPL) Downloads 3. 点击 MySQL Community Server 4.点击Archives选择合适版本 5.选择后下载第二个…

bWAPP靶场安装

bWAPP安装 下载 git地址&#xff1a;https://github.com/raesene/bWAPP 百度网盘地址&#xff1a;链接&#xff1a;https://pan.baidu.com/s/1Y-LvHxyW7SozGFtHoc9PKA 提取码&#xff1a;4tt8 –来自百度网盘超级会员V5的分享 phpstudy中打开根目录&#xff0c;并将下载的文…

【C++知识点总结全系列 (06)】:STL六大组件详细总结与分析- 配置器、容器、迭代器、适配器、算法和仿函数

STL六大组件目录 前言1、配置器(1)What(2)Why(3)HowA.调用new和delete实现内存分配与销毁B.STL Allocator (4)allocator类A.WhatB.HowC.allocator的算法 2、容器(1)What(2)Which&#xff08;有哪些容器&#xff09;(3)序列容器&#xff08;顺序容器&#xff09;A.WhichB.array&…

Unity编辑器工具---版本控制与自动化打包工具

Unity - 特殊文件夹【作用与是否会被打包到build中】 Unity编辑器工具—版本控制与自动化打包工具&#xff1a; 面板显示&#xff1a;工具包含一个面板&#xff0c;用于展示软件的不同版本信息。版本信息&#xff1a;面板上显示主版本号、当前版本号和子版本号。版本控制功能…

音视频开发35 FFmpeg 编码- 将YUV 和 pcm合成一个mp4文件

一 程序的目的 /*** *该程序的目的是: * 将 一个pcm文件 和 一个 yuv文件&#xff0c;合成为一个 0804_out.mp4文件 * pcm文件和yuv文件是从哪里来的呢&#xff1f;是从 sound_in_sync_test.mp4 文件中&#xff0c;使用ffmpeg命令 抽取出来的。 * 这样做的目的是为了对比前…

【C语言】文件的顺序读写

©作者:末央&#xff06; ©系列:C语言初阶(适合小白入门) ©说明:以凡人之笔墨&#xff0c;书写未来之大梦 目录 前言字符输入输出函数 - fgetc和fputc文本行输入输出函数 - fgets和fputs格式化输入输出函数 - fscanf和fprintf 前言 对文件数据的读写可以分为顺序…