DeepSeek 本周的开源项目体现了其在 AI 技术栈中的深厚积累,从硬件协同优化(FlashMLA)、通信库(DeepEP)、核心计算(DeepGEMM)到推理模型(DeepSeek-R1),覆盖了模型开发和部署的多个关键环节。这些项目不仅展示了技术实力,也通过开源推动了 AI 社区的协作与创新。
DeepSeek 202502 开源周合集
- Day 1: FlashMLA
- Day 2: DeepEP
- Day 3: DeepGEMM
- Day 4: 优化并行策略
- 4.1 DualPipe
- 4.2 EPLB
- 4.3 Profile-Data
- Day 5: 3FS、用于所有 DeepSeek 数据访问的 Thruster
- 5.1 3FS(Fire-Flyer File System)
- 5.2 Smallpond
开源索引地址:https://github.com/deepseek-ai/open-infra-index
Day 1: FlashMLA
- 发布日期: 2025年2月24日
- GitHub 地址: deepseek-ai/FlashMLA
- 简介: FlashMLA 是 DeepSeek 开源周的首个项目,针对 NVIDIA Hopper GPU(如 H800)优化的高性能多头潜在注意力(Multi-head Latent Attention, MLA)解码内核。它通过利用 Hopper GPU 的高内存带宽(高达 3000 GB/s)和强大计算能力(580 TFLOPS),显著提升了 AI 模型在推理阶段的性能和可扩展性。FlashMLA 的设计特别适用于需要实时处理大量数据的场景,如医疗诊断、金融交易和自动驾驶系统。DeepSeek 通过开源这一项目,展示了其在硬件协同优化上的技术实力,并为开发者提供了一个高效的推理加速工具。
- 特点:
- 针对 Hopper GPU 的深度优化。
- 支持高吞吐量推理,提升模型部署效率。
- 开源以鼓励社区在此基础上进一步开发。
Day 2: DeepEP
- 发布日期: 2025年2月25日
- GitHub 地址: deepseek-ai/DeepEP
- 简介: DeepEP 是 DeepSeek 开源周第二天发布的项目,是首个针对 Mixture-of-Experts(MoE,专家混合模型)训练和推理优化的开源专家并行(Expert Parallelism, EP)通信库。随着 MoE 模型在 AI 中的广泛应用,高效的通信机制成为提升训练和推理性能的关键。DeepEP 支持节点内和节点间的 all-to-all 通信,利用 NVLink 和 RDMA 技术,提供高吞吐量的训练和预填充内核,以及低延迟的推理解码内核。它还原生支持 FP8 精度计算,进一步降低了计算成本。DeepEP 的开源填补了社区在 MoE 优化通信工具上的空白,为大规模分布式训练提供了强有力的支持。
- 特点:
- 专为 MoE 模型设计的高效通信库。
- 支持 FP8 精度,降低硬件需求。
- 通过通信-计算重叠技术提升系统性能。
Day 3: DeepGEMM
- 发布日期: 2025年2月26日
- GitHub 地址: deepseek-ai/DeepGEMM
- 简介: DeepGEMM 是 DeepSeek 开源周第三天发布的项目,旨在通过约 300 行精简代码实现高效的矩阵乘法(General Matrix Multiply, GEMM),展示如何突破 AI 计算能力的瓶颈。GEMM 是深度学习中的核心操作,广泛用于神经网络的训练和推理。DeepGEMM 的实现不仅高效,还极具可读性和可移植性,为开发者提供了一个轻量级的优化模板。这一项目体现了 DeepSeek 在算法和计算优化上的深厚功底,同时通过开源降低了技术门槛,让更多人能够参与到高性能计算的实践中。
- 特点:
- 仅 300 行代码实现高性能 GEMM。
- 简洁高效,易于理解和修改。
- 适用于多种 AI 计算场景,提升计算效率。
这些内容直接引用并适配了您提供的 Day 4 数据,并参考了 FlashMLA 的格式。
Day 4: 优化并行策略
4.1 DualPipe
- 发布日期: 2025年2月27日
- GitHub 地址: deepseek-ai/DualPipe
- 简介: DualPipe 是 DeepSeek 开源周第四天发布的核心项目之一,是一种为 V3/R1 训练设计的双向流水线并行算法。它通过创新的双向数据流设计,实现了前向和后向计算与通信的高效重叠,显著减少了流水线中的“气泡”(bubble)并提升了计算吞吐量。DualPipe 特别适用于超大规模模型训练(参数量从数百亿到万亿级别),通过优化计算-通信重叠解决了跨节点通信的瓶颈问题。DeepSeek 通过开源 DualPipe,展示了其在并行策略上的技术突破,为开发者提供了一个高效的训练加速工具。
- 特点:
- 针对 V3/R1 架构的深度优化,双向流水线提升效率。
- 支持计算与通信完全重叠,减少训练时间。
- 开源以推动社区在超大规模模型训练中的创新。
4.2 EPLB
- 发布日期: 2025年2月27日
- GitHub 地址: deepseek-ai/eplb
- 简介: EPLB(Expert Parallel Load Balancer)是 DeepSeek 开源周第四天发布的第二个项目,是为 V3/R1 模型设计的专家并行负载均衡器。它针对 Mixture-of-Experts(MoE)模型训练中常见的“热点专家”问题,通过实时监控和动态任务分配实现了高效的负载均衡。EPLB 在万卡集群(如 10,000 GPU)中将整体利用率提升至 92% 以上,有效避免了资源空闲。这一技术的开源为 MoE 模型的高效分布式训练提供了关键支持,展示了 DeepSeek 在大规模并行计算优化上的领先能力。
- 特点:
- 针对 MoE 模型的专家并行优化,动态负载均衡。
- 支持超大规模集群,提升资源利用率。
- 开源以鼓励社区开发更高效的分布式训练方案。
4.3 Profile-Data
- 发布日期: 2025年2月27日
- GitHub 地址: deepseek-ai/profile-data
- 简介: Profile-Data 是 DeepSeek 开源周第四天发布的第三个项目,提供了一个分析 V3/R1 训练中计算-通信重叠的工具和数据集。它基于 DeepSeek 的时空效率模型,针对 3D 并行(数据并行、流水线并行、张量并行)提供详细的性能剖析数据,帮助开发者精确识别计算与通信之间的冲突点。Profile-Data 支持多种并行配置(如 EP64、TP1、4K 序列长度),并为超大规模模型训练提供了调优基准。DeepSeek 通过开源这一工具,助力开发者优化训练策略,提升集群效率。
- 特点:
- 针对 V3/R1 的计算-通信重叠分析,优化训练性能。
- 支持开发者定位性能瓶颈,提供调优参考。
- 开源以促进社区在并行训练分析上的进一步研究。
Day 5: 3FS、用于所有 DeepSeek 数据访问的 Thruster
5.1 3FS(Fire-Flyer File System)
- 发布日期: 2025年2月28日
- GitHub 地址: deepseek-ai/3FS
- 简介: 3FS(Fire-Flyer File System)是 DeepSeek 开源周第五天发布的核心项目,是一个高性能并行文件系统,充分利用现代 SSD 和 RDMA 网络的全部带宽。它在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量,在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量,并为 KVCache 查找提供超过 40 GiB/s 的峰值性能。3FS 采用解耦架构并保证强一致性,专为 AI 工作负载设计,支持训练数据预处理、数据集加载、检查点保存/加载、嵌入向量搜索及 V3/R1 推理中的 KVCache 查找等场景。DeepSeek 通过开源 3FS,展示了其在分布式存储上的技术突破,为开发者提供了一个高效的数据访问加速引擎。
- 特点:
- 针对现代 SSD 和 RDMA 网络的深度优化。
- 高吞吐量和低延迟,支持大规模 AI 数据访问。
- 开源以推动社区在 AI 基础设施上的创新。
5.2 Smallpond
- 发布日期: 2025年2月28日
- GitHub 地址: deepseek-ai/smallpond
- 简介: Smallpond 是 DeepSeek 开源周第五天发布的配套项目,是基于 3FS 的数据处理框架。它充分利用 3FS 的高性能并行文件系统能力,简化了大规模数据处理任务的设计与实现。Smallpond 在分布式环境下支持高效的数据预处理、分片和排序等操作,例如在 25 节点集群上以 3.66 TiB/min 的吞吐量完成 GraySort 基准测试。它的设计特别适合 AI 训练和推理中的数据管道需求,与 3FS 无缝集成,为开发者提供了一个轻量但强大的工具。DeepSeek 通过开源 Smallpond,进一步扩展了 3FS 的应用生态,帮助加速 AGI 数据处理流程。
- 特点:
- 针对 3FS 优化的高效数据处理框架。
- 支持分布式数据管道,提升预处理效率。
- 开源以鼓励社区在此基础上开发数据密集型应用。