大模型来了,你的“存力”攒够了吗?

作者 | 曾响铃

文 | 响铃说

提到AI、大模型,很多人脑海里最先想到的是算力、算法、数据这“三驾马车”。

而要论谁最重要,恐怕多数人都会觉得是算力。

毕竟,“算力紧缺”的气氛常常被渲染起来。

然而,随着大模型进一步演进,不同要素的资源配置情况逐步发生了改变。

其中,数据的重要性正提到了前所未有的高度,由此也正在带来对存储越来越严苛的要求。

在一个全新的视角下,数据与其背后的“存力”,正在成为影响大模型创新整体过程的关键因素。

大模型创新从“片面追求”走向“全局视角”,“存力”价值凸显

在某种“算力不足恐惧症”下,前几年,各个省市都在大力建设AI算力中心。

参数模型有多大、多少卡、每秒多少次运算能力……是大家的主要关心点。

中国强大的基础设施建设能力与优势,在新基建这里又继续发光发热。

这无疑对AI、大模型的发展带来了很多好处,尤其是让算力问题得到纾解。

但是,当一个“急事”快要落定后,我们的目光,就不免要落到全局层面,思考大模型创新在整体上应该如何才能做出优势?

很明显,算力,只是补了急切的短板,而大模型创新从来都必须是端到端完成,才能最终展现出场景变革的价值。

我们知道,大模型训练大体上可以分为数据归集、数据预处理(匿名、打标签等工作)、模型训练、应用推理几个流程阶段。

一个朴素的逻辑是,要想端到端效率高,一方面要保证每个阶段效率高,另一方面还要让不同阶段的接驳更顺畅。

然而,目前这两个方面都存在问题。

在“接驳”这件事上,在数据归集后,由数据预处理阶段迈入模型训练阶段,因为分离部署、存在数据烟囱,跨设备、跨中心拷贝到数据训练场景中去,训练准备耗时冗长——一个20亿数据集,拷贝都要准备整整30天。

要知道,现在大模型的发展进度几乎是按周刷新。

而这也导致模型训练阶段的效率不佳。很多企业图省事采用本地盘做存储,数据在跨算力服务器间同步时读取效率低(加载1TB数据往往需4~6小时),GPU长时间处于等待状态造成资源闲置。

这背后,除了跨设备同步,还叠加有另一重原因,即大模型训练往往存在海量的小文件读取,小文件的读写性能较差,极其耗费时间。

而训练阶段的效率问题还没完。

一旦出现故障,或者要优化算法,就需要让GPU停下来,调整好了再启动,这种往往持续数小时的百GB,甚至TB级的Checkpoint断点续训的存在,与海量数据同步一起,致使GPU资源利用率普遍不高,昂贵的投资被白白浪费。

好不容易“熬”到了应用推理阶段,要想推理效果更好,尤其是规避“大模型幻觉”等问题,还需要不断调取特定的知识数据。

在“全局视角”,大模型创新要解决的问题还很多,但从各种问题不难看出,它们都与数据及其背后的存储相关。

所谓AI全流程“全局视角”,其实可以归集到“数据”视角进行整体规划。

事实上,这本身就是数据对大模型越来越重要的一种端到端流程上体现。

当前人工智能大模型的快速发展依赖大规模、高质量的数据养料,已经是普遍的共识。

在算法都是基于公开大模型微调、走向收敛,算力主要依靠英伟达、昇腾等提供资源(意味着与企业的预算能力挂钩,企业能主动做的并不多)的情况下,数据已经成为AI大模型的差异化变量,优质数据越多,模型效果越好,数据规模和质量决定AI智能的高度。

与此同时,AI大模型迭代加速,从单模态到多模态对数据的要求并非简单的“多加一份模态的”,而是在参数规模和数据量上都进行着PB到EB的万倍增长。

可以说,“缺数据,无AI”。

更进一步看,在数据获取完成后,大部分有关数据的症结问题,最终又都可以归结到存储是否能够跟上的问题。

因为,AI数据存力是人工智能大模型的数据载体,与大模型的数据归集、预处理、训练、推理等全生命周期的流程紧密相关,存力建设对人工智能发展非常重要。

此外,在数据安全性、可靠性等方面,“存力”也发挥着直接的作用。

在全局视角下,要提升端到端的效率,“算力”跑的快,“存力”也要跟上,算力与数据存力一起系统化地构成了AI算力基础设施。

如果说“缺数据,无AI”,那么毫无疑问先进数据存力将会是构建AI差异化优势的关键。

“全局视角”下,外置高性能共享存储正在推动优势“存力”的形成

既然存力如此重要,那么企业要如何构建优势“存力”?

总结前文,只有能够解决数据归集、数据预处理、数据训练、模型推理等环节的低效问题,推动数据价值的实现,实现大模型创新端到端效率提升,才能算得上优势“存力”,而这涉及海量数据的复杂读写,必须要有高性能共享存储才能解决。

具体而言,可以得出包括存力在内的AI算力基础设施面临着三大挑战。

集群GPU利用率普遍低于50%;

数据加载时间长,小时级断点续训时间;

语料数据规模大,从单模态到Sora等多模态大模型,语料从PB级到EB级增加,EB级的数据规模扩张。

这些挑战,都导向大规模数据集群的可用度上。

换句话说,能够解决大规模数据集群的可用度的存力,就是好存力。

业界已经有一些领头羊企业行动起来了。

例如,英伟达的SuperPOD参考架构,采用了外置高性能共享存储来解决AI大模型三大挑战:

其主要背景,就是数据集越来越大,采用GDS(GPU直通存储)可以更高效地从存储中读取数据,提供更高性能和更低时延。

类似做法的不只有英伟达一家,Meta采用外置共享存储,支持了数千个 GPU以同步方式保存和加载Checkpoint,实现了灵活、高吞吐量的EB级存储。

此外,还有DDN(美国高性能计算和云存储厂商)利用外置共享存储消除在不同存储之间移动数据的开销和风险、Net APP利用高性能全闪存存储提升GPU利用率等。

三大挑战都被针对性解决,一种共识已经客观上形成——采用外置高性能共享存储,是优势“存力”的重要可行解。

而在国内,也同样有这样的产品和服务可以选择。

华为同样提供外置高性能AI存储,其AI数据湖解决方案,能够实现全局文件系统(统一数据管理、无论在何处)、上千节点EB级系统扩展、数据智能冷热分级、多协议互通等能力,从而做到提升GPU利用率、大大降低断点续训唤醒时间、满足EB级语料存储要求,最终提升大规模数据集群的可用度,一次性解决AI算力基础设施面临的三大挑战。

外置高性能共享AI存储同样得到了国内广大政企客户的认可。

目前,华为高性能共享AI存储已经在智算中心、超算中心、国家实验室、高教科研、大中型银行、运营商、企业 AI 助手等场景下应用,服务科大讯飞、建设银行、天翼云智算中心、昌平实验室、上海交大、中原银行(智能客服)等客户。

以科大讯飞为例,早期其数据中心采用“开源分布式存储软件+服务器硬件”搭建,存在读写性能不佳(十亿小文件数据量时读写性能陡降)、可靠性不够充分(故障域小、冗余保护不足)等掣肘,使得其只能将50PB 数据量需要分成多个存储集群(为了系统安全性的考虑),出现前文提到的问题——AI训练时需要频繁地将数据在存储集群间进行搬迁,GPU 利用率不足 50%。

采用华为AI数据湖方案后,科大讯飞实现了一个集群一个文件系统即可轻松应对多模态大模型时千亿~十万亿参数规模,同时基于高性能存储层+大容量存储层的自动数据分级实现了TCO 最优。

高性能,高容量,高密度,高可靠性,高安全性……在科大讯飞激烈竞逐大模型赛道时,“存力”不再成为瓶颈,而是带来了极大的助力。

这也说明,企业不能因为暂时没有AI平台的计划就不需要提前准备“存力”,需要提前规划和建设“Al Ready 的数据湖”,否则后续可能面临数据资产归集困难、架构无法平滑演进而造成重复投资建设等重大问题。

而一旦优势“存力”形成,其给企业带来的四重成本优化的价值也显现出来:

1、时间成本

在全局视角下,外置高性能共享AI存储解决大规模数据集群的可用度问题,实现端到端效率的提升,就是在以加速模型迭代的方式帮助政企抢抓大模型机遇。

2、财务成本

本地盘虽然采购时架构较为低廉,然而优质存储方案从长期可扩展性、架构平滑演进来看综合成本却更低;而且,企业提前规划建设“AI Ready ”的数据湖存力底座,也能够加速数据资产价值的激活,盘活温冷数据,从而完成数据到“数据资产”的转化。

3、情绪成本

这是针对大模型最终用户而言,更高效的大模型应用迭代,以存储内置的知识库建设帮助推理应用,流畅、丝滑、准确,都能大大提升用户的体验,减少不信任感,从而更好地实现价值转化。

4、社会责任成本

马斯克曾说,AI的尽头是电力,大模型规模更大,无论是算力还是数据存储最终都依赖大量电力供应。‘’

而华为外置高性能共享AI存储除了提升GPU利用率、保证EB级大规模数据高效访问,其业界性能最高、容量密度最大的设计,还能够直接帮助客户减少数据中心物理空间、节省功耗,与绿色低碳的时代目标共振。

总之,外置高性能共享AI存储在国内外都已经有了最佳实践,是实现优势“存力”的关键选择。在大模型洪流下,在数智化转型升级浪潮中,有需求的政企组织可以尽快行动起来了。

*本文图片均来源于网络

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/476441.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 字段定义时的属性设置

开发的时候第一步就是建表,在创建表的时候,我们需要定义表的字段,每个字段都有一些属性,比如说是否为空,是否允许有默认值,是不是逐渐等。 这些约束字段的属性,可以让字段的值更符合我们的预期&…

什么是代理IP?TikTok运营需要知道的IP知识

对于运营TikTok的从业者来说,IP的重要性自然不言而喻。 在其他条件都正常的情况下,拥有一个稳定,纯净的IP,你的视频起始播放量很可能比别人高出不少,而劣质的IP轻则会限流,重则会封号。那么,如何…

ThreaTrace复现记录

1. 环境配置 服务器环境 需要10.2的cuda版本 conda环境 包的版本: python 3.6.13 pytorch 1.9.1 torch-cluster 1.5.9 torch-scatter 2.0.9 torch-sparse 0.6.12 torch-spline-conv 1.2.1 torch-geometric 1.4.3 环境bug 这里环境搭建好以后,就可以正…

有哪些工具可以替代Gitbook?这篇文章告诉你

你是否曾经在搜索在线文档创建和共享工具时,遇到了Gitbook? Gitbook 是一个相当出色的工具,具有强大的编辑和发布功能,但也有其不足之处,如使用起来有一定的技术要求,入门门槛较高等。如果你正在寻找Gitbook的替代品&…

harmonyOS简介及背景

harmonyOS的场景模式18n: 1(入口手机)8(电脑、VR、手环、iPad、智慧屏、)–wifi—n(车载、智能家居等所有)harmonyOS不需要考虑软硬件的差异,是一个兼容N种的超级终端harmonyOS干了两件事: (1&a…

HarmonyOS ArkTS 基础组件

目录 一、常用组件 二、文本显示(Text/Span) 2.1 创建文本 2.2 属性 2.3 添加子组件(Span) 2.4 添加事件 三、按钮(Button) 3.1 创建按钮 3.2 设置按钮类型 3.3 悬浮按钮 四、文本输入(TextInput/TextArea)…

牛客小白月赛86(D剪纸游戏)

题目链接:D-剪纸游戏_牛客小白月赛86 (nowcoder.com) 题目描述: 输入描述: 输入第一行包含两个空格分隔的整数分别代表 n 和 m。 接下来输入 n行,每行包含 m 个字符,代表残缺纸张。 保证: 1≤n,m≤10001 字符仅有 . 和 * 两种字符&#xf…

SSTI漏洞详解

目录 前备知识 模块引擎: 模块渲染函数: 继承关系: SSTI漏洞简介 SSTI漏洞成因 SSTI漏洞原理 一些常见模块介绍 php Twig模块引擎 代码演示1 Twig模块引擎代码演示2 python flask模块 代码演示1: python jinja模块 代…

读取pdf文件转为txt文件,使用正则表达式删除页码

通过下述链接中的代码python 读取pdf中的文本,读取pdf的文字到txt文本中。 txt文本中,包含pdf的页码信息,使用如下代码删除pdf的页码 下述是包含页码信息的一段文本,在其中给出了4中不同格式的页码信息。 text ""&qu…

day2 nestjs应用初始化及调试

Java转Ts全栈的学习记录 基础知识 Nest (NestJS) 是一个用于构建高效、可扩展的 Node.js 服务器端应用的框架。(对标springboot)ES ECMAScript 规范,约束js用的语法规范吧,比如const let这类语法就可以用了Eslint与Prettier美化代…

高可用、逻辑保护、容灾、多活、妥协、流程

可用性三叉戟: 本地高可用性:消除单点故障,确保链路所有环节系统高可用 本地是指:针对生产中心的内部故障 故障类型:服务器、硬盘、适配器卡、网络 特点:快速恢复、自动的接管、实施简单 RPO-0 业务逻辑保护…

Python基础学习笔记(一)

Python简介 Python 语言是一种跨平台、开源、免费、解释型、面向对象、动态数据类型的高级程序设计语言。早期版本的 Python 被称作是 Python1;Python2 最后一个版本是 2.7;Python3 是目前最活跃的版 本,基本上新开发的 Python 代码都会支持…

【网络原理】详解HTTPS协议加密过程

文章目录 🌴HTTPS协议是什么?🎄运营商劫持事件🌲HTTPS的工作过程🌸对称加密🌸非对称加密🌸引入证书🌸完整流程 🌳HTTPS加密总结⭕总结 🌴HTTPS协议是什么&…

用户行为分析是什么?为什么我们需要 bitmap?

本文非常好:https://blog.bcmeng.com/post/doris-bitmap.html meta搜也非常好:https://metaso.cn/ 用户行为分析是什么?简单说,就是围绕全体用户,做各种分析。用户就是一个个的 id。id 在不同方面有各种行为记录&…

日志集中审计系列(2)--- LogAuditor接收ASG设备日志

日志集中审计系列(2)--- LogAuditor接收ASG设备日志 前言拓扑图设备选型组网需求配置思路操作步骤结果验证前言 近期有读者留言:“因华为数通模拟器仅能支持USG6000V的防火墙,无法支持别的安全产品,导致很多网络安全的方案和产品功能无法模拟练习,是否有真机操作的实验或…

使用参数创建动态报表

动态报表是开发人员可以根据用户规范更改数据的报表。 可以通过确定要在报表中要查看其数据的值来使用参数,报表会通过筛选数据来相应地进行更新。对于数据量非常大,影响Power BI 运行性能的,可以通过这个动态更改数据源筛选的方法。 通过创…

2024最全 Java 面试八股文

2024 年的互联网行业竞争越来越严峻,面试也是越来越难,一直以来我都想整理一套完美的面试宝典,奈何难抽出时间,这套 1000道的 Java 面试手册我整理了整整 1 个月,上传到 Git 上目前 star 数达到了 30K 这套互联网 Jav…

vulnhub打靶记录——Mycmsms

文章目录 一、环境布置主机发现 二、端口扫描nikto基本探测目录扫描CMS EXP搜索探查mysql数据库CMS代码审计CMS后台权限提升 一、环境布置 靶机在virtualbox中搭建,攻击机使用vmware中安装的kali,主要是解决kali能ping通靶机,同时能访问外网…

SAP BW升级至2023版本后需要注意的点

SAP BW/4HANA 升级至最新版本后,最大的注意点就是原本的HANA studio开发工具打开某些模型或者DTP时会出现某些报错,如图所示: 看到这个提示的时候就需要去下载最新的版本了,我们去到SAP官网 SAP Development Tools 官网已经开始推…

Czkawka重复文件查找工具

分享一款重复文件查找工具,Czkawka是一款简单、快速且免费的用于查找重复项、空文件夹、相似图像等的多功能的应用程序。可以从计算机中删除不必要的文件。 软件特色: 用内存安全的 Rust 编写,惊人的快 – 由于使用了或多或少的高级算法和多线…