作者:林小引 戴尔科技解决方案架构师
ChatGPT迅速火爆全球后,人工智能进入了“暴力美学”时代。所谓暴力美学就是我们把模型的架构做到了超大规模,把算力的需求做到超大规模,训练的数据做到超大规模。
如果说算力是人工智能发展的引擎,那么数据就是人工智能发展的燃料。AI应用的核心是高质量数据,数据的质量又决定着算法的性能、泛化能力和应用效果,而高质量数据的得到又与存力(即数据存储能力)息息相关,存力是释放数据价值必不可少的关键因素。
但目前,从业界AI项目的建设情况看,“重算力、轻存力”的现象较为明显,大部分用户非常看重GPU等算力资源的部署,却往往忽视了存力建设的重要性。
其实按照英伟达的官方资料显示:一个AI数据中心购置预算的构成中,存储仅占20%。但恰恰是这20%的存储往往成为限制AI算力性能和AI团队效率发挥的瓶颈。
那么今天,我们就来谈一谈用于人工智能的存储该如何选型。而在选型之前,我们不妨先来了解一下深度学习的数据流是怎样的?以及对存储有哪些挑战?
深度学习的数据流
以AI的训练为例,首先,外部数据经过收集后,会注入到原始数据的存储中。在这里,数据会经过大量的数据清洗、数据转换、数据增强、数据标准化、数据打标签等数据预处理工作,然后通过元数据管理、数据分片等数据组织工作将预处理数据转换为训练数据。
算力集群分批读取训练数据馈入AI模型的神经网络,经过一系列的前向传播、反向传播、梯度下降来训练模型,并通过对模型性能的评估来进行迭代,这其中包括改变模型参数、调整模型架构或者更换优化器等,最终得到一个预训练模型并保存在模型仓库中。
在这个过程中,通常需要耗费大量的时间和计算资源。由于训练时间较长,如果训练过程中出现异常或不得已而中断了训练,通常使用checkpoint来保存当前的模型状态,以便在下一次训练时,可以从这个保存的状态继续训练,而不需要从头开始。
此外,在一些特定场景或者计算资源不足的情况下,还可以直接对预训练模型做微调,此时需要少量的有标签微调训练数据。那么在这样一个复杂的流程和海量数据规模下,如何对AI存储进行选型呢?
AI存储选型的挑战
挑战一,存储性能“卡脖子”
AI存储选型的第一大挑战就是存储性能不能成为瓶颈。
在以上流程中,预处理数据的存储和训练数据的存储是对性能要求最高的。如果这两部分的存储性能不够,会导致算力集群中的GPU和CPU资源利用率降低。而算力成本占据了整个数据中心成本的70%,算力利用率的降低就是对资源极大的浪费。
戴尔科技集团的PowerScale存储在支持人工智能应用的高性能方面具有多个特性,这些特性使其成为AI工作负载的理想选择。具体来说:
1、增强的AI性能:PowerScale通过与NVIDIA DGX SuperPOD的验证合作,增强了OneFS软件的功能,使得企业能够更快地准备、训练、微调和推理AI模型。同时PowerScale将是唯一一个经过NVIDIA DGX SuperPOD验证的以太网存储。
2、高性能存储:PowerScale节点提供了高性能存储,特别是NVMe PowerScale节点,这为需要快速读写大量数据的AI应用提供了强有力的支持。并且,PowerScale通过了NVIDIA GPU Direct Storage认证,该存储与GPU直通功能,可在存储和GPU之间直接进行数据传输并提升2-8倍的带宽, 降低3.8倍的端到端延迟,同时减轻了AI服务器CPU和内存的消耗。
3、高度弹性:PowerScale具备高度弹性,能够根据企业的需求伸缩自如,简捷如一。这意味着它可以根据AI工作负载的变化动态调整资源,保持高效的运行状态。
4、智能横向扩展功能:PowerScale具有智能横向扩展功能,有效地分配资源,帮助客户在集群中获得最优化的性能,这对于需要处理大规模数据集的AI应用尤为重要
挑战二,存储架构太复杂
AI存储选型的第二大挑战是存储不能太复杂,需要尽可能简化数据流动过程中存储的处理。
我们可以看到AI数据的存储有很多个,包括原始数据存储、预处理数据存储、训练数据存储等,有的AI场景甚至还会包括一些辅助工具所需的存储,比如RAG应用中向量数据库的存储,数据预处理(如Spark)和大数据分析(如Hadoop)使用的HDFS/S3存储等。
在现实中,一方面,数据科学家团队和数据工程师团队往往会按照自己的需求采购存储。而另一方面,按照英伟达建议的AI数据存储架构,存储是按照存储容量和性能进行分级的。
当以上两个因素叠加起来,往往就会形成多个数据存储竖井——不同品牌、不同种类的存储混杂在企业内部,而这种混杂带来几个维度上的复杂性:
数据管理
○相同的数据在不同的存储中存放的位置不一致
○数据治理环节需要管理多个元数据
存储效率
○无法跨越多个存储进行全局统一的冷热自动分层调度
○无法跨越多个存储实现全局统一的数据去重
○如果存储有压缩功能,数据每进出一次存储就会有一次压缩/解压缩,跨多个存储调度数据需要多次进行压缩/解压缩,浪费存力
存储运维
○不同的项目组对数据的访问权限不同,需要对多个存储设置相关访问权限
○跨越多个存储无法实现统一的快照策略,需要单独维护每个存储的快照策略
○跨越多个存储无法实现统一的数据容灾保护,需要单独为每一个存储提供复制保护
作为横向扩展文件存储系统,Dell PowerScale通过OneFS操作系统,可以为不同类型的AI数据提供统一数据湖支持:包括统一的数据管理和命名空间、统一的多组合和权限控制、统一的元数据管理、统一的基于策略驱动的冷热自动分层、统一的在线数据去重压缩功能、统一的数据快照、复制功能。
并且,Dell PowerScale还提供了多协议支持,可以满足人工智能中不同数据源和应用程序的需求,同时简化了数据的管理、提升了存储的效率并降低了运维的成本。
挑战三,存储安全要保证
AI存储选型的第三大挑战是存储需要安全可靠,能提供对关键数据资产的安全可靠保护。
在AI场景下,有几类数据资产是非常宝贵的:
●高成本的训练数据
●长周期训练的Checkpoint
●高价值的AI模型成果
Dell PowerScale在保护数据安全方面具备多种特性:首先,PowerScale提供了内置的安全功能,包括数据加密、访问控制和安全审计等。这些功能可以保护数据免受未经授权的访问和泄露,确保数据的机密性和完整性。
其次,PowerScale还具备强大的容灾和恢复能力。它可以通过快照和克隆等技术,实现数据的快速备份和恢复。同时,PowerScale还支持远程复制和同步,可以在不同地理位置之间实现数据备份和容灾,确保数据的安全性和可用性。此外,PowerScale还提供了多租户功能,可以实现不同租户之间的数据隔离和安全控制,以满足多用户环境下对数据安全性和隔离性的需求。
最后,PowerScale还支持安全协议和标准,如SSL/TLS等,可以与各种应用程序和系统无缝集成,确保数据的安全性和可靠性。
除了传统的数据安全保护机制外,针对时下非常疯狂的勒索病毒攻击,Dell PowerScale也提供数据避风港保护方案来防护人工智能数据。
总结来看,Dell PowerScale存储在人工智能中可以发挥关键作用,尤其是在处理大规模非结构化数据和提高AI工作负载效率方面,PowerScale具备以下六大优势:
1、处理非结构化数据:随着数据量的爆炸性增长,其中大部分数据为非结构化数据。PowerScale存储系统专为处理这类数据而设计,能够有效地管理和存储大量的非结构化数据。
2、提升AI工作负载效率:PowerScale存储系统具有低延迟、高吞吐量和大规模并行I/O的特点,这些特性使其成为GPU加速计算的理想补充,能够有效压缩针对多PB数据集训练和测试分析模型所需的时间。
3、支持AI工作负载:戴尔科技集团致力于消除数据访问瓶颈,提供快速、高效且安全的数据访问技术,使得PowerScale成为适用于一般AI工作负载的存储优化型产品。
4、性能提升:基于最新一代PowerEdge服务器打造的新款PowerScale全闪存存储系统,将流式读取与写入性能提升达到2倍,这对于需要高速数据处理的AI应用来说是一个重要的优势。
5、满足人工智能中不同数据源和应用程序的需求:PowerScale支持多种文件协议、对象访问协议和大数据访问协议,可以与不同的操作系统和编程语言进行无缝集成,从而方便了不同用户对数据的使用和管理。
6、出色的数据安全性和可靠性:由于人工智能的数据涉及到许多敏感信息和隐私,因此需要保证数据的安全性和可靠性。PowerScale采用了多种加密和安全措施以及勒索病毒防护解决方案,可以确保数据的安全性和隐私保护。同时,PowerScale还具备高可用性和容错能力,可以保证数据的可靠性和稳定性。
综上所述,Dell PowerScale存储系统通过其高性能、高效率和专为AI优化的设计,能够在人工智能领域中发挥重要作用,帮助企业和研究机构更好地存储、管理和分析大量数据,推动AI技术的发展和应用。