CXL虽然被视为业内新宠,但好像在AI场景的应用反而没有得到广泛的响应。
AI场景对内存带宽、容量以及数据一致性有着极高需求,特别是在深度学习训练和推理过程中,大量数据需要在CPU、GPU、加速器以及内存之间快速、高效地流动。CXL作为一种新兴的高速互连技术,旨在通过提供低延迟、高带宽的内存一致性互连,解决现代数据中心的内存扩展、池化和异构计算问题。然而,AI场景是否真正需要CXL,取决于以下几个关键因素的综合分析:
一是内存扩展与池化
AI应用,特别是大规模深度学习模型训练,常常需要远超单台服务器内存容量的数据缓冲区。CXL通过允许CPU直接访问连接设备(如CXL内存扩展器或CXL内存模组)上的内存,能够显著增加可用内存容量,避免因内存不足导致的数据交换瓶颈。同时,CXL支持内存池化,使得内存资源能够在多台服务器间共享,提高整体内存利用率,这对于成本敏感的AI数据中心至关重要。
二是异构计算支持
AI计算往往依赖于CPU、GPU、FPGA、ASIC等多种加速器的协同工作。CXL提供了一种低延迟、高带宽的缓存一致性互连,使得CPU和其他加速器能够透明地共享同一内存空间,简化编程模型,提高数据访问效率,这对于AI应用的并行计算和分布式训练尤为重要。
三是带宽与延迟
AI工作负载对内存带宽有极高要求,尤其是在处理大量浮点运算和大规模张量数据时。CXL 3.0规范基于PCIe 6.0支持高达64 GT/s的带宽,远超过当前PCIe 4.0(16 GT/s)和PCIe 5.0(32 GT/s),能够有效满足AI应用的带宽需求。
然而,对于AI而言,带宽并非唯一的决定性因素,延迟同样重要。尽管CXL通过缓存一致性机制减少了数据同步的复杂性,但与专为AI优化的互连技术(如Nvidia的NVLink或AMD的Infinity Fabric)相比,其延迟可能仍不具优势。这些专有技术通常提供更低的延迟和更高的带宽,更适合AI应用中的大规模并行计算。
四是互连技术生态
AI硬件生态系统中,GPU是当前AI训练和推理的主力,尤其是Nvidia的GPU产品。然而,Nvidia的GPU并未广泛支持CXL,而是倾向于使用自家的NVLink或其他专有互连技术。专有互连技术如NVLink、InfiniBand等在带宽与延迟方面优于PCIe/CXL,更适合AI应用的大规模并行计算需求。在AI集群中,这些专有协议成为首选的扩展与扩展互连技术。这意味着AI系统中大量使用Nvidia GPU的场景下,CXL可能无法充分发挥其优势。
尽管AMD的部分产品如MI300A理论上具备CXL支持,但实际应用中可能存在限制。缺乏关键硬件的支持,限制了CXL在AI场景下的广泛部署。相比之下,如果AI系统中包含支持CXL的加速器,或者采用CXL内存扩展器和内存池化技术,CXL的价值将更加突出。
尽管CXL内存带宽扩展理论上对AI有潜在价值,但由于硬件支持不足、与其他专有互连技术在带宽与延迟上的差距,以及AI工作负载的特定需求,CXL在短期内可能难以成为AI领域的主流互联标准。随着CXL技术的发展、生态系统完善以及AI硬件市场动态的变化,这一需求判断可能会随着时间的推移而发生变化。
从其他定制AI超大规模芯片的发展来看,CXL的AI场景之路也并没有很顺利。超大规模数据中心运营商(如Google、Amazon、Facebook等)近年来大力投资研发定制AI芯片,以满足其特定工作负载需求、降低成本并提高能源效率。这些芯片通常结合ASIC、FPGA、定制CPU或GPU等多种技术,实现高度优化的AI处理能力。它们在设计时可能考虑与CXL兼容,以利用其内存扩展与池化功能。
然而,考虑到上述CXL在AI领域面临的挑战,以及定制AI芯片往往更倾向于采用专有或经过优化的互连技术(如Google的TPU通过定制的高速网络互连),CXL在定制AI超大规模芯片中的实际采纳情况可能较为有限。定制芯片厂商可能更倾向于选择与自家硬件架构紧密集成、性能更优的互连解决方案,而非依赖标准化的CXL。
当然,也不用失望,AI场景的发展不顺利。但是在非AI场景下,CXL内存池化与扩展的经典用例依然具有显著价值。例如比较典型的应用场景:
-
内存池化:对于传统企业级应用、内存数据库、数据分析等工作负载,内存池化可通过动态分配内存资源,提高整体DRAM利用率,减少硬件成本。这些工作负载对内存一致性要求较高,且可能不涉及大规模并行计算,因此CXL的低延迟、一致性保证特性更具吸引力。
-
内存扩展:对于科学计算、金融建模、高性能计算(HPC)等需要大量内存的场景,CXL内存扩展能够提供远超传统服务器内存容量的解决方案,无需牺牲内存访问性能。这些应用往往对内存带宽需求强烈,但对互连技术的特定要求可能不如AI严格。
针对这个话题,你有什么不同的看法吗?欢迎评论区留言交流~
如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!
精彩推荐:
-
字节跳动入局存储内存SCM
-
解读“CFMS中国闪存市场峰会”存储技术看点
-
首个业内DNA存储技术规范发布
-
如何突破SSD容量提升的瓶颈?
-
固态存储是未来|浅析SSD架构的演进与创新技术
-
论文解读:NAND闪存中读电压和LDPC纠错码的高效设计
-
华为新发布磁电存储“王炸”,到底是什么?
-
SSD LDPC软错误探测方案解读
-
关于SSD LDPC纠错能力的基础探究
-
存储系统如何规避数据静默错误?
-
PCIe P2P DMA全景解读
-
深度解读NVMe计算存储协议
-
对于超低延迟SSD,IO调度器已经过时了吗?
-
浅析CXL P2P DMA加速数据传输的原理
-
NVMe over CXL技术如何加速Host与SSD数据传输?
-
浅析LDPC软解码对SSD延迟的影响
-
为什么QLC NAND才是ZNS SSD最大的赢家?
-
SSD在AI发展中的关键作用:从高速缓存到数据湖
-
浅析不同NAND架构的差异与影响
-
SSD基础架构与NAND IO并发问题探讨
-
字节跳动ZNS SSD应用案例解析
-
CXL崛起:2024启航,2025年开启新时代
-
NVMe SSD:ZNS与FDP对决,你选谁?
-
浅析PCI配置空间
-
浅析PCIe系统性能
-
存储随笔《NVMe专题》大合集及PDF版正式发布!
如果您也想针对存储行业分享自己的想法和经验,诚挚欢迎您的大作。
投稿邮箱:Memory_logger@163.com (投稿就有惊喜哦~)
《存储随笔》自媒体矩阵
更多存储随笔科普视频讲解,请移步B站账号:
如您有任何的建议与指正,敬请在文章底部留言,感谢您不吝指教!如有相关合作意向,请后台私信,小编会尽快给您取得联系,谢谢!