当 ChatGPT、Claude 这些闭源大模型严防死守技术秘密时,DeepSeek 却反其道而行,选择了全面开源,为整个 AI 生态注入新的活力。
在过去短短一周内,DeepSeek 连续在 GitHub 开源了 8 个核心技术项目,完成了一次震撼业界的技术开源盛宴。
与以往那些包装鲜艳的应用不同,DeepSeek 这次分享的,都是能让大模型真正“跑起来”的底层技术。
下面就让我们一起看看,DeepSeek 是如何用这八大项目,重新构建 AI 未来的基础设施吧!
第一天:计算加速的秘密武器
开源周的第一天,DeepSeek 带来了 FlashMLA,这是一款为 Hopper GPU 优化的高效 MLA 解码内核。
想象一下,如果普通的计算方式是骑自行车送快递,FlashMLA 就相当于装上了超级引擎,让送货速度提升了好几倍!
GitHub:https://github.com/deepseek-ai/FlashMLA
在 H800 SXM5 GPU 上,FlashMLA 实现了惊人的性能:内存受限配置下达到 3000 GB/s 的吞吐量,计算受限配置下实现 580 TFLOPS。
相当于让模型处理信息的速度提升了数倍,大大降低了推理成本。
更令人惊喜的是,这个项目不仅支持英伟达 GPU,还得到了国产 GPU 厂商的广泛支持。
包括 MetaX、摩尔线程、海光 DCU 等都提供了对应版本,为国产 AI 硬件生态注入了一剂强心针。
第二天:专家模型的通信利器
到了第二天,DeepSeek 开源了 DeepEP,这是一个专为混合专家(MoE)模型设计的通信库。
想象一下,如果 MoE 模型是一个大公司,各个专家就像不同部门的员工,他们需要高效地交换信息才能协同工作。
GitHub:https://github.com/deepseek-ai/DeepEP
DeepEP 就是这样一套高效的“企业通信系统”,提供了两大核心功能:高吞吐普通内核和低延迟解码内核。
其中低延迟内核特别厉害,它能在不占用任何 GPU 计算资源的情况下,让通信在后台悄悄完成,这就像是你一边开会一边有人帮你整理文档,两不耽误!
在 H800 上测试,DeepEP 几乎达到了硬件理论上限:NVLink 通信带宽 158 GB/s,RDMA 通信带宽 47 GB/s。
这些惊人的数据意味着专家模型可以更快速地交换信息,训练和推理效率大大提升。
第三天:矩阵计算的极致优化
第三天,DeepSeek 带来了 DeepGEMM,这是一个轻量级 FP8 矩阵乘法库。
矩阵乘法听起来很枯燥,但它实际上是 AI 模型中最常见、最耗时的操作之一,就像是汽车的发动机,决定了整体的性能。
GitHub:https://github.com/deepseek-ai/DeepGEMM
DeepGEMM 的神奇之处在于它的极致简洁,核心内核函数仅约 300 行代码,却实现了令人印象深刻的性能:在多种常见矩阵形状上,性能提升达 1.1x-2.7x。
它避开了繁重的模板和代数依赖,设计简洁明了,让你不仅能用它,还能轻松理解它的工作原理。
这种清晰易懂的实现方式,在高性能计算领域实属罕见。
第四天:流水线并行的革新
进入第四天,DeepSeek 一口气开源了三个项目,首先是 DualPipe,这是一个创新的双向流水线并行算法。
传统的训练方式就像是流水线上一个接一个的工人,必须等前一个人完成工作才能开始下一步。而 DualPipe 相当于让流水线同时从两头开始工作,大大减少了等待时间。
GitHub:https://github.com/deepseek-ai/DualPipe
README 中展示了 8 个流水线并行 rank 和 20 个微批次的调度示例图,通过这种双向调度策略,DualPipe 明显减少了流水线气泡,让训练效率获得了显著提升。
第二个项目是 EPLB(Expert Parallelism Load Balancer),专门解决专家并行中的负载均衡问题。
GitHub:https://github.com/deepseek-ai/eplb
想象一个班级里,有些老师总是课多学生多,有些却很清闲。EPLB 就像是一个智能排课系统,确保每位老师的工作量都均衡合理。
第三个项目是 Profiling Data,公开了 DeepSeek 训练和推理框架的性能分析数据,这些数据就像是一面 “透视镜”,让我们能看清复杂 AI 系统内部是如何运转的。
GitHub:https://github.com/deepseek-ai/profile-data
通过这些数据,我们可以清楚地看到 DeepSeek 如何优化训练过程中的通信-计算重叠,如何均衡预填充阶段的计算负载,以及如何在解码阶段实现高效的资源利用。
尤其对于想要深入了解大模型系统优化的开发者来说,这简直是一份珍贵的“宝藏”!
第五天:数据基础设施的强大支撑
在开源周的最后一天,DeepSeek 推出了两个数据处理项目,首先是 Fire-Flyer File System (3FS),这是一个为 AI 工作负载设计的高性能分布式文件系统。
如果把普通文件系统比作个人书柜,那么 3FS 就相当于一个超大型图书馆,不仅容量惊人,还有高效的检索系统。
GitHub:https://github.com/deepseek-ai/3FS
在由 180 个存储节点组成的集群上,3FS 实现了约 6.6 TiB/s 的聚合读取吞吐量。简直令人震惊!相当于每秒读取超过 6600GB 的数据。
与 3FS 配套的是 smallpond,这是一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架。它就像是图书馆的智能助手,帮你快速找到并处理需要的信息。
GitHub:https://github.com/deepseek-ai/smallpond
在 GraySort 基准测试中,smallpond 仅用 30 分钟 14 秒就完成了 110.5TiB 数据的排序,平均吞吐量达 3.66TiB/分钟。
这两个项目共同解决了大模型训练和推理中的数据处理难题,让 AI 开发者能够更高效地管理和利用海量数据。
意外惊喜:推理系统全面揭秘
在大家以为开源周结束时,DeepSeek 继续放大招:全面公开了 V3/R1 推理系统的设计细节。
这套系统的核心优化目标就是:更高的吞吐量和更低的延迟。为此,DeepSeek 巧妙地应用了跨节点专家并行,在预填充阶段使用 32 个专家并行,解码阶段则扩展到 144 个。
GitHub:https://t.co/x1rt3mCxF5
服务规模令人震惊:峰值达 278 个节点(每节点 8 个 H800 GPU),日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。
这份系统揭秘完美印证了前面介绍的开源项目在实战中的价值。DeepEP、EPLB、FlashMLA 等技术正是这套高效推理系统的核心组件,而 3FS 则为其提供了关键的 KV 缓存支持。