【AI大模型新型智算中心技术建设白皮书 2024】

文末有福利!

一、新算效——重塑计算架构

1.1 下一代 AI 芯片设计思路

以 GPU 为 代 表 的 高 性 能 并 行 计 算 芯 片 架 构 和 以 针 对 AI 领 域 专 用 加 速(DSA, Domain Specific Architecture,DSA)为代表的芯片架构是目前两大主流 AI 芯片设计思路。GPU 设

计初衷是为了接替 CPU 进行图形渲染,图形处理涉及到相当多的重复计算量,因此 GPU 芯片上排布了数以千计的,专为同时处理多重任务而设计的小计算核心。随着 AI 深度学习算法的逐渐成熟,GPU 芯片开始引入 AI Core/Tensor Core 等电路来实现矩阵乘运算的加速。

因此,GPU 比 CPU 拥有更强的大规模并行计算和浮点运算能力。不同于 GPU,AI DSA 芯片是一种针对神经网络计算的专用处理器,主要功能是加速神经网络的数据处理、传递和反向传播等操作,因

1.2 存算一体构建新型计算范式

存算一体作为新型计算范式,基于在存储原位实现计算的本质,打破了冯诺依曼存算分离架构,避免了频繁的数据访问和搬运带来的功耗激增的问题,大大缓解了 AI 芯片性能提升的瓶颈。

同时,由于新型智算中心承载的 CNN、Transformer 等主流模型架构,矩阵乘加运算占据了大量算力(Transformer 中 45-60%,CNN 中 90% 以上的运算均为矩阵乘加),存算一体的架构成为高效完成矩阵乘加的重要选择。

存算一体可通过 RRAM、SRAM、MRAM、Nor Flash 等介质实现,多介质共存可以发挥不同介质在成熟度、读写次数等方面的优势 。

存算一体通过模拟计算或数字计算或二者相结合的方式提供存算能力,如图 3-13 所示:

a) 模拟存算一体


在这里插入图片描述

b) 数字存算一体

图 3-13 模拟和数字存算一体

存算一体在 NICC 的主要应用是大模型推理。考虑到不同的模型结构,存算一体充分利用非规则稀疏性,以达到与存算阵列的最佳适配,并实现能效最大化。以复旦大学 ISSCC 2023发布的论文为例 ,其应用了基于蝶形数据分配网络的稀疏前馈计算架构(如图 3-14),结合对应的存内阵列设计和电路实现,能够在 28nm 工艺下,达到现有 Transformer 加速器 3.2 倍至 9.7 倍的能效。

图 3-14 Transformer 加速器的存算一体实现示意

当前,面向智算中心多核、多芯片的存算一体架构方案将成为未来存算一体研究和商用落地的重点方向。在此场景下,有以下三点问题需重点解决:

  1. 如何与算法结构协同:通过改进的存算一体阵列架构更好的适配稀疏 Transformer,使用分块结构化稀疏、动态激活值稀疏以及特定 Transformer 稀疏等方式,选择参与计算的存算单元,并结合定制的加法树电路减小面积,提升计算能效,从而提升推理效率。

  2. 如何与精度需求协同:通过可变精度存算一体阵列架构更好适配大模型推理的精度需求,使用数字存内计算和模拟存内计算混合、双生多 bit 等方法,实现 INT8 和 BF16 等混合精度计算。

3)如何与封装能力协同:通过 Chiplet 技术同时满足存算一体专用高性能、通用可扩展要求,提升算力和 IO 带宽,减少访存瓶颈;通过 3D 堆叠等封装技术将存内计算(CIM)与近存(PNM)和存内处理(PIM)技术结合,为访存密集型应用提供大容量高带宽的计算能力。

现阶段的存算一体芯片在介质优化、集成规模、工具链支持、算法适配、产业生态等方面还面临诸多挑战,导致应用普及较慢,建议锚定智算核心应用,推出样板产品,突破上述关键挑战,在成熟工艺实现性能反超。

1.3 DPU 实现计算、存储和网络的深度协同

DPU 作为 CPU、GPU 之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等基础设施虚拟化能力的专用处理器。面对智算业务场景,中大规模模型训练和推理任务对网络和存储 I/O 的时延提出了更极致的性能需求,DPU 可在智算领域解决三大关键问题,与计算、网络、存储深度协同,助力算效提升。

  1. 统一云化管理:智算服务场景存在裸金属、容器、 虚机多种方式部署需求,如何实现 AI节点并池管理提高计算资源利用效率,成为关键的业务痛点,DPU 是最佳的解决方案。通过 DPU 可提供计算资源快速发放和回收等底层支撑能力,使弹性裸金属特性和虚机一致,支持云盘启动,完成灵活的存储分配,实现存储多租户隔离并缩短容灾时间,交付效率提高10 倍。

  2. 高性能存储卸载及加速:大模型训练推理业务的模型本身以及训推所需的数据需要 PB 级储存,本地存储性价比低,远端存储集群成为最优选择。分布式存储设备面对上千计算节点,需要满足多用户并行使用时产生的海量数据读取及加速数据收敛需求,单节点存储带宽叠加后对存储系统提出更高的性能要求。DPU 产品可以提供专用的高速存储单元来处理和管理大量的数据,提供高带宽和低延迟的存储访问,实现 NVMe-OF 存储加速,同时可配合训练框架进行文件系统卸载,实现训练数据格式统一化,实现不同来源的数据接入,进一步加速训练和推理过程。

图 3-15 智算中心引入 DPU 两种模式

面对 DPU 在智算场景的试验试点及规模应用,当前仍面临三大核心挑战:

在云平台侧,DPU 软硬融合层的标准化是制约 DPU 通用化的主要问题。DPU 本质是云化、虚拟化技术从软件实现向软硬结合发展的结果,技术架构与云计算关系密切,存在耦合,DPU 虚拟化技术栈在技术迭代中差异化发展,不同产品的同一技术的实现路径多样,软件实现方式差异大。亟需解决业界异厂家 DPU 与云平台软件定向开发适配成本高的问题。建议围绕管理、网络、存储、计算、安全五大软件系统,推动 DPU 软件功能要求和交互接口标准化,并分阶段推进。

在网络侧,网络技术创新需要与 DPU 深度协同。智算业务要求零丢包、低时延、高吞吐的网络能力,RDMA 网络是智算中心高性能网络的首选,头部企业纷纷布局自研 RDMA 协议栈及无损网络相关技术。DPU 作为服务器的 IO 出入口,是网络与存储必经之路,网络技术创新需要与 DPU 深度协同,实现算力无损,助力算效提升。

在硬件侧,亟需优先引导服务器整机层及 DPU 部件层标准化及通用化。重点围绕服务器结构及供电、散热、带外纳管方案、上下电策略四大方向进行统一,为 DPU 与上层软件的深度整合及生态繁荣提供底层支撑。

二、新存储——挖掘数据价值

2.1 计算与存储的交互过程

大模型训练是一项复杂而耗时的任务,类似 GPT-3 级别的模型训练数据集通常很大,无法完全加载到内存中,需要分批次的从外部分布式存储中读取数据并加载到 GPU 的 HBM 上。

如图 3-16 所示,从用户上传原始数据集到最终完成模型训练,并对用户提供已训练模型结果,整个过程存在着计算与存储系统密切的数据交互。

1)数据上传:大模型预训练阶段首先需要获取训练数据集,这些来自互联网、书籍、论文的数据需要进行预处理和清洗,包括分词、去除噪声和非常见词汇,以确保训练数据是高质量且可靠的。数据集准备好之后上传到存储系统中。由于对象存储具有普遍的 API 支持,可以提供灵活的数据访问方式,数据集通常会上传到对象存储中。大模型训练的数据集可达TB 量级,且主要以大文件大 IO 写入为主,存储系统需要保证足够和稳定的吞吐性能。

图 3-16 大模型训练计算与存储的交互过程

2)数据转移:由于文件存储具有更高的 IO 性能,对于小文件和随机 IO 有较好的支持,且与 TensorFlow、PyTorch 等训练框架的兼容性更好,适合在训练过程中进行高效的读取和写入操作,因此在模型训练开始之前,需要把数据集从对象存储复制到文件存储中,这个过程中,IO 类型以大文件大 IO 顺序读写为主。

3)数据读取:数据集放入文件存储后,还需要进行进一步预处理。CV 类数据集通常需要先对图片序列化并添加类别标签、图像尺寸等元数据,自然语音类数据集则需要对语音文件进行切分,转换为训练框架实现代码期望的采样率和格式,例如 16K 采样 wav 格式。数据集准备就绪后,模型将基于随机初始化的权重启动训练。整个数据集会被随机打散,称之为shuffle,然后数据被分成多个小的批次(batch),后续计算节点将以批次为单位从文件存储系统读取数据,并缓存到 GPU 的 HBM 中。

4)归档写回:由于 HBM 是易失性存储,一旦在训练过程中发生意外中断,训练数据将全部丢失,因此基于 Checkpoint 的“断点续训”机制非常关键,我们需要将模型训练过程中的数据周期性地保存到外部持久性存储中,一旦发生中断可以从最后一次保存的参数处重新开始训练,从而节省大量的时间和经济成本。此外,文件存储还用于跟踪记录模型训练过程中的各种指标,包括损失函数的变化、准确率的提升等,以便后续支持可视化的模型训练策略优化分析。保存 checkpoint 和过程文件等操作,主要负载是大文件大 IO 写操作,对文件存储压力不大。

5)模型复制:模型训练完成后,最终的模型权重会被写入到文件存储中保存,用于模型推理或者以 MaaS 的服务模式给外部用户使用。由于对象存储便于对外共享,模型需要从文件存储复制到对象存储上,这个环节 IO 类型以写入大文件为主。

6)模型下载:用户基于自身应用特点,从对象存储下载训练好的模型。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~ , 【保证100%免费

在这里插入图片描述

篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)

在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)

在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/791798.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

麦克风领夹式的哪个牌子最好,无线领夹麦克风十大品牌

在直播和自媒体行业迅速崛起的今天,无线麦克风因其便携性和实用性成为了视频制作和直播带货中不可或缺的工具。面对市场上从几十元到几千元不等的无线麦克风,作为一位资深直播运营专家,我深知选择合适的设备对于提升直播质量和观众体验的重要…

排序相关算法--1.插入排序+冒泡排序回顾

1.基本分类 2.插入排序 特点:有实践意义(例如后期快排的优化),适应性强,一般不会到时间复杂度最坏的情况。 将第一个元素视为已经排好序的序列。取出下一个元素,在已经排好序的序列中从后往前比较&#xf…

3SRB5016-ASEMI逆变箱专用3SRB5016

编辑:ll 3SRB5016-ASEMI逆变箱专用3SRB5016 型号:3SRB5016 品牌:ASEMI 封装:SGBJ-5 批号:2024 现货:50000 最大重复峰值反向电压:1600V 最大正向平均整流电流(Vdss):50A 功…

C 语言中如何实现字符串的拼接?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会! 📙C 语言百万年薪修炼课程 【https://dwz.mosong.cc/cyyjc】通俗易懂,深入浅出,匠心打磨,死磕细节,6年迭代&…

GB28181设备如何添加

简介 此篇描述视频网关(中间件)接入大华、海康、ONVIF设备(NVR、摄像头)、GB28181设备步骤和流程。 阅读本文档之前建议先阅览视频网关(中间件)用户使用手册。 接入方式和说明 视频网关(中间…

捷配笔记-如何设计PCB板布线满足生产标准?

PCB板布线是铺设连接各种设备与通电信号的路径的过程。PCB板布线是铺设连接各种设备与通电信号的路径的过程。 在PCB设计中,布线是完成产品设计的重要步骤。可以说,之前的准备工作已经为它做好了。在整个PCB设计中,布线设计过程具有最高的极限…

网关、DHCP协议、ip地址、子网掩码简单介绍

参考文章:https://baike.baidu.com/item/%E7%BD%91%E5%85%B3/98992?frge_ala https://baike.baidu.com/item/DHCP%E6%9C%8D%E5%8A%A1%E5%99%A8/9956953?fromModulelemma_inlink https://blog.csdn.net/weixin_58783105/article/details/135041342 https://blog.cs…

【C++深度探索】全面解析多态性机制(一)

hello hello~ ,这里是大耳朵土土垚~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页:大耳朵土土垚的博客 &#x1…

浅谈React

forwardRef和useImperativeHandle的联动使用 import React, { useImperativeHandle, useRef } from "react" import { forwardRef } from "react"const CustomInput forwardRef((props, ref) > {const inputRef useRef<HTMLInputElement>(null…

java并发编程概述

java并发编程概述 一. 进程和线程的概念 进程是计算机中的程序关于某数据集合上的一次运行活动&#xff0c;是系统进行资源分配的基本单位。进程是程序运行的实例&#xff0c;每当操作系统在运行一个程序时&#xff0c;会为其创建一个进程。每个进程都拥有自己的一整套变量。…

同享人力资源管理系统-TXEHR V15 DownloadTemplate 文件读取漏洞复现

0x01 产品简介 同享人力资源管理系统(TXEHR V15)是一款专为现代企业设计的人力资源管理软件解决方案,旨在通过先进的信息化手段提升企业人力资源管理的效率与水平。该系统集成了组织人事、考勤管理、薪资核算、招聘配置、培训发展、绩效管理等核心模块,并提供了灵活的配置…

TikTok短视频矩阵管理系统源码

在数字化浪潮汹涌的今天&#xff0c;短视频已成为人们生活中不可或缺的一部分。TikTok作为短视频领域的佼佼者&#xff0c;其用户基数庞大&#xff0c;影响力深远。然而&#xff0c;对于众多内容创作者和营销人员来说&#xff0c;如何高效管理多个TikTok账号&#xff0c;实现批…

解决QT creator中文乱码问题

1.首先设置文本编辑器为UTF-8 先在工具-选项-文本编辑器-behavior部分选择文件编码为UTF-8&#xff0c;紧接着是选择“如果编码是UTF-8则添加”&#xff0c;如下图 2.设置ext code for tools 为system 具体解决办法是 工具-选项-环境-interfaces这一栏有一个“Text code for to…

网安防御保护-小实验

1、DMZ区内的服务器&#xff0c;办公区仅能在办公时间内(9:00-18:00)可以访问&#xff0c;生产区的设备全天可以访问 2、生产区不允许访问互联网&#xff0c;办公区和游客区允许访问互联网 3、办公区设备10.0.2.10不允许访问DMZ区的FTP服务器和HTTP服务器&#xff0c;仅能ping通…

前端如何取消接口调用

&#x1f9d1;‍&#x1f4bb; 写在开头 点赞 收藏 学会&#x1f923;&#x1f923;&#x1f923; 1. xmlHttpRequest是如何取消请求的&#xff1f; 实例化的XMLHttpRequest对象上也有abort方法 const xhr new XMLHttpRequest(); xhr.addEventListener(load, function(e)…

昇思25天学习打卡营第17天|应用实践之SSD目标检测

基本介绍 今天要学习的内容是计算机视觉领域中的目标检测任务。与图像分类相比&#xff0c;目标检测更难&#xff0c;因为目标检测不仅要检测出图片中的物体的类别&#xff0c;还要检测出该物体的位置。现主流的目标检测算法大致可分为两种&#xff0c;一种是基于CNN的&#xf…

MQTT是什么,物联网

写文思路&#xff1a; 以下从几个方面介绍MQTT&#xff0c;包括&#xff1a;MQTT是什么&#xff0c;MQTT和webSocket的结合&#xff0c;以及使用场景&#xff0c; 一、MQTT是什么 MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是一种轻量级的发布/订阅消息…

Java技术栈总结:JVM虚拟机篇

一、Java的四种引用类型 1、强引用 最常见的引用&#xff0c;类似Object obj new Object()、String str “hello”。 如果一个对象具有强引用&#xff0c;垃圾回收器绝对不会回收它。即使抛出“OutOfMemoryError”错误&#xff0c;程序终止&#xff0c;也不会随意回收具有强…

市场趋势的智能预测:Kompas.ai如何洞察未来市场动向

在商业领域&#xff0c;市场趋势预测是企业制定战略规划和做出明智决策的关键。准确把握市场动向能够帮助企业及时调整战略&#xff0c;抓住机遇&#xff0c;规避风险。Kompas.ai&#xff0c;一款先进的人工智能市场分析工具&#xff0c;正通过其深度学习和数据分析能力&#x…

重塑肌肤DNA!华贝甄选解锁生命活力密码

在探索生命奥秘与健康的征途中&#xff0c;华贝甄选携手前沿干细胞科技&#xff0c;为您开启一场前所未有的健康革命。我们深知&#xff0c;生命的活力源自细胞的不懈更新与修复&#xff0c;而干细胞&#xff0c;正是这场生命奇迹的钥匙。 【重塑内分泌平衡&#xff0c;焕发自…