文末有福利!
一、新算效——重塑计算架构
1.1 下一代 AI 芯片设计思路
以 GPU 为 代 表 的 高 性 能 并 行 计 算 芯 片 架 构 和 以 针 对 AI 领 域 专 用 加 速(DSA, Domain Specific Architecture,DSA)为代表的芯片架构是目前两大主流 AI 芯片设计思路。GPU 设
计初衷是为了接替 CPU 进行图形渲染,图形处理涉及到相当多的重复计算量,因此 GPU 芯片上排布了数以千计的,专为同时处理多重任务而设计的小计算核心。随着 AI 深度学习算法的逐渐成熟,GPU 芯片开始引入 AI Core/Tensor Core 等电路来实现矩阵乘运算的加速。
因此,GPU 比 CPU 拥有更强的大规模并行计算和浮点运算能力。不同于 GPU,AI DSA 芯片是一种针对神经网络计算的专用处理器,主要功能是加速神经网络的数据处理、传递和反向传播等操作,因
1.2 存算一体构建新型计算范式
存算一体作为新型计算范式,基于在存储原位实现计算的本质,打破了冯诺依曼存算分离架构,避免了频繁的数据访问和搬运带来的功耗激增的问题,大大缓解了 AI 芯片性能提升的瓶颈。
同时,由于新型智算中心承载的 CNN、Transformer 等主流模型架构,矩阵乘加运算占据了大量算力(Transformer 中 45-60%,CNN 中 90% 以上的运算均为矩阵乘加),存算一体的架构成为高效完成矩阵乘加的重要选择。
存算一体可通过 RRAM、SRAM、MRAM、Nor Flash 等介质实现,多介质共存可以发挥不同介质在成熟度、读写次数等方面的优势 。
存算一体通过模拟计算或数字计算或二者相结合的方式提供存算能力,如图 3-13 所示:
a) 模拟存算一体
b) 数字存算一体
图 3-13 模拟和数字存算一体
存算一体在 NICC 的主要应用是大模型推理。考虑到不同的模型结构,存算一体充分利用非规则稀疏性,以达到与存算阵列的最佳适配,并实现能效最大化。以复旦大学 ISSCC 2023发布的论文为例 ,其应用了基于蝶形数据分配网络的稀疏前馈计算架构(如图 3-14),结合对应的存内阵列设计和电路实现,能够在 28nm 工艺下,达到现有 Transformer 加速器 3.2 倍至 9.7 倍的能效。
图 3-14 Transformer 加速器的存算一体实现示意
当前,面向智算中心多核、多芯片的存算一体架构方案将成为未来存算一体研究和商用落地的重点方向。在此场景下,有以下三点问题需重点解决:
-
如何与算法结构协同:通过改进的存算一体阵列架构更好的适配稀疏 Transformer,使用分块结构化稀疏、动态激活值稀疏以及特定 Transformer 稀疏等方式,选择参与计算的存算单元,并结合定制的加法树电路减小面积,提升计算能效,从而提升推理效率。
-
如何与精度需求协同:通过可变精度存算一体阵列架构更好适配大模型推理的精度需求,使用数字存内计算和模拟存内计算混合、双生多 bit 等方法,实现 INT8 和 BF16 等混合精度计算。
3)如何与封装能力协同:通过 Chiplet 技术同时满足存算一体专用高性能、通用可扩展要求,提升算力和 IO 带宽,减少访存瓶颈;通过 3D 堆叠等封装技术将存内计算(CIM)与近存(PNM)和存内处理(PIM)技术结合,为访存密集型应用提供大容量高带宽的计算能力。
现阶段的存算一体芯片在介质优化、集成规模、工具链支持、算法适配、产业生态等方面还面临诸多挑战,导致应用普及较慢,建议锚定智算核心应用,推出样板产品,突破上述关键挑战,在成熟工艺实现性能反超。
1.3 DPU 实现计算、存储和网络的深度协同
DPU 作为 CPU、GPU 之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等基础设施虚拟化能力的专用处理器。面对智算业务场景,中大规模模型训练和推理任务对网络和存储 I/O 的时延提出了更极致的性能需求,DPU 可在智算领域解决三大关键问题,与计算、网络、存储深度协同,助力算效提升。
-
统一云化管理:智算服务场景存在裸金属、容器、 虚机多种方式部署需求,如何实现 AI节点并池管理提高计算资源利用效率,成为关键的业务痛点,DPU 是最佳的解决方案。通过 DPU 可提供计算资源快速发放和回收等底层支撑能力,使弹性裸金属特性和虚机一致,支持云盘启动,完成灵活的存储分配,实现存储多租户隔离并缩短容灾时间,交付效率提高10 倍。
-
高性能存储卸载及加速:大模型训练推理业务的模型本身以及训推所需的数据需要 PB 级储存,本地存储性价比低,远端存储集群成为最优选择。分布式存储设备面对上千计算节点,需要满足多用户并行使用时产生的海量数据读取及加速数据收敛需求,单节点存储带宽叠加后对存储系统提出更高的性能要求。DPU 产品可以提供专用的高速存储单元来处理和管理大量的数据,提供高带宽和低延迟的存储访问,实现 NVMe-OF 存储加速,同时可配合训练框架进行文件系统卸载,实现训练数据格式统一化,实现不同来源的数据接入,进一步加速训练和推理过程。
图 3-15 智算中心引入 DPU 两种模式
面对 DPU 在智算场景的试验试点及规模应用,当前仍面临三大核心挑战:
在云平台侧,DPU 软硬融合层的标准化是制约 DPU 通用化的主要问题。DPU 本质是云化、虚拟化技术从软件实现向软硬结合发展的结果,技术架构与云计算关系密切,存在耦合,DPU 虚拟化技术栈在技术迭代中差异化发展,不同产品的同一技术的实现路径多样,软件实现方式差异大。亟需解决业界异厂家 DPU 与云平台软件定向开发适配成本高的问题。建议围绕管理、网络、存储、计算、安全五大软件系统,推动 DPU 软件功能要求和交互接口标准化,并分阶段推进。
在网络侧,网络技术创新需要与 DPU 深度协同。智算业务要求零丢包、低时延、高吞吐的网络能力,RDMA 网络是智算中心高性能网络的首选,头部企业纷纷布局自研 RDMA 协议栈及无损网络相关技术。DPU 作为服务器的 IO 出入口,是网络与存储必经之路,网络技术创新需要与 DPU 深度协同,实现算力无损,助力算效提升。
在硬件侧,亟需优先引导服务器整机层及 DPU 部件层标准化及通用化。重点围绕服务器结构及供电、散热、带外纳管方案、上下电策略四大方向进行统一,为 DPU 与上层软件的深度整合及生态繁荣提供底层支撑。
二、新存储——挖掘数据价值
2.1 计算与存储的交互过程
大模型训练是一项复杂而耗时的任务,类似 GPT-3 级别的模型训练数据集通常很大,无法完全加载到内存中,需要分批次的从外部分布式存储中读取数据并加载到 GPU 的 HBM 上。
如图 3-16 所示,从用户上传原始数据集到最终完成模型训练,并对用户提供已训练模型结果,整个过程存在着计算与存储系统密切的数据交互。
1)数据上传:大模型预训练阶段首先需要获取训练数据集,这些来自互联网、书籍、论文的数据需要进行预处理和清洗,包括分词、去除噪声和非常见词汇,以确保训练数据是高质量且可靠的。数据集准备好之后上传到存储系统中。由于对象存储具有普遍的 API 支持,可以提供灵活的数据访问方式,数据集通常会上传到对象存储中。大模型训练的数据集可达TB 量级,且主要以大文件大 IO 写入为主,存储系统需要保证足够和稳定的吞吐性能。
图 3-16 大模型训练计算与存储的交互过程
2)数据转移:由于文件存储具有更高的 IO 性能,对于小文件和随机 IO 有较好的支持,且与 TensorFlow、PyTorch 等训练框架的兼容性更好,适合在训练过程中进行高效的读取和写入操作,因此在模型训练开始之前,需要把数据集从对象存储复制到文件存储中,这个过程中,IO 类型以大文件大 IO 顺序读写为主。
3)数据读取:数据集放入文件存储后,还需要进行进一步预处理。CV 类数据集通常需要先对图片序列化并添加类别标签、图像尺寸等元数据,自然语音类数据集则需要对语音文件进行切分,转换为训练框架实现代码期望的采样率和格式,例如 16K 采样 wav 格式。数据集准备就绪后,模型将基于随机初始化的权重启动训练。整个数据集会被随机打散,称之为shuffle,然后数据被分成多个小的批次(batch),后续计算节点将以批次为单位从文件存储系统读取数据,并缓存到 GPU 的 HBM 中。
4)归档写回:由于 HBM 是易失性存储,一旦在训练过程中发生意外中断,训练数据将全部丢失,因此基于 Checkpoint 的“断点续训”机制非常关键,我们需要将模型训练过程中的数据周期性地保存到外部持久性存储中,一旦发生中断可以从最后一次保存的参数处重新开始训练,从而节省大量的时间和经济成本。此外,文件存储还用于跟踪记录模型训练过程中的各种指标,包括损失函数的变化、准确率的提升等,以便后续支持可视化的模型训练策略优化分析。保存 checkpoint 和过程文件等操作,主要负载是大文件大 IO 写操作,对文件存储压力不大。
5)模型复制:模型训练完成后,最终的模型权重会被写入到文件存储中保存,用于模型推理或者以 MaaS 的服务模式给外部用户使用。由于对象存储便于对外共享,模型需要从文件存储复制到对象存储上,这个环节 IO 类型以写入大文件为主。
6)模型下载:用户基于自身应用特点,从对象存储下载训练好的模型。
那么,如何系统的去学习大模型LLM?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~ , 【保证100%免费
】
篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈
💥大模型入门要点,扫盲必看!
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
👉大模型入门实战训练👈
💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉国内企业大模型落地应用案例👈
💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。
👉LLM大模型学习视频👈
💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
👉640份大模型行业报告👈
💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓