DeepSeek 202502 开源周合集

DeepSeek 本周的开源项目体现了其在 AI 技术栈中的深厚积累,从硬件协同优化(FlashMLA)、通信库(DeepEP)、核心计算(DeepGEMM)到推理模型(DeepSeek-R1),覆盖了模型开发和部署的多个关键环节。这些项目不仅展示了技术实力,也通过开源推动了 AI 社区的协作与创新。

DeepSeek 202502 开源周合集

  • Day 1: FlashMLA
  • Day 2: DeepEP
  • Day 3: DeepGEMM
  • Day 4: 优化并行策略
    • 4.1 DualPipe
    • 4.2 EPLB
    • 4.3 Profile-Data
  • Day 5: 3FS、用于所有 DeepSeek 数据访问的 Thruster
    • 5.1 3FS(Fire-Flyer File System)
    • 5.2 Smallpond

在这里插入图片描述

开源索引地址:https://github.com/deepseek-ai/open-infra-index

Day 1: FlashMLA

  • 发布日期: 2025年2月24日
  • GitHub 地址: deepseek-ai/FlashMLA
  • 简介: FlashMLA 是 DeepSeek 开源周的首个项目,针对 NVIDIA Hopper GPU(如 H800)优化的高性能多头潜在注意力(Multi-head Latent Attention, MLA)解码内核。它通过利用 Hopper GPU 的高内存带宽(高达 3000 GB/s)和强大计算能力(580 TFLOPS),显著提升了 AI 模型在推理阶段的性能和可扩展性。FlashMLA 的设计特别适用于需要实时处理大量数据的场景,如医疗诊断、金融交易和自动驾驶系统。DeepSeek 通过开源这一项目,展示了其在硬件协同优化上的技术实力,并为开发者提供了一个高效的推理加速工具。
  • 特点:
    • 针对 Hopper GPU 的深度优化。
    • 支持高吞吐量推理,提升模型部署效率。
    • 开源以鼓励社区在此基础上进一步开发。

Day 2: DeepEP

  • 发布日期: 2025年2月25日
  • GitHub 地址: deepseek-ai/DeepEP
  • 简介: DeepEP 是 DeepSeek 开源周第二天发布的项目,是首个针对 Mixture-of-Experts(MoE,专家混合模型)训练和推理优化的开源专家并行(Expert Parallelism, EP)通信库。随着 MoE 模型在 AI 中的广泛应用,高效的通信机制成为提升训练和推理性能的关键。DeepEP 支持节点内和节点间的 all-to-all 通信,利用 NVLink 和 RDMA 技术,提供高吞吐量的训练和预填充内核,以及低延迟的推理解码内核。它还原生支持 FP8 精度计算,进一步降低了计算成本。DeepEP 的开源填补了社区在 MoE 优化通信工具上的空白,为大规模分布式训练提供了强有力的支持。
  • 特点:
    • 专为 MoE 模型设计的高效通信库。
    • 支持 FP8 精度,降低硬件需求。
    • 通过通信-计算重叠技术提升系统性能。

Day 3: DeepGEMM

  • 发布日期: 2025年2月26日
  • GitHub 地址: deepseek-ai/DeepGEMM
  • 简介: DeepGEMM 是 DeepSeek 开源周第三天发布的项目,旨在通过约 300 行精简代码实现高效的矩阵乘法(General Matrix Multiply, GEMM),展示如何突破 AI 计算能力的瓶颈。GEMM 是深度学习中的核心操作,广泛用于神经网络的训练和推理。DeepGEMM 的实现不仅高效,还极具可读性和可移植性,为开发者提供了一个轻量级的优化模板。这一项目体现了 DeepSeek 在算法和计算优化上的深厚功底,同时通过开源降低了技术门槛,让更多人能够参与到高性能计算的实践中。
  • 特点:
    • 仅 300 行代码实现高性能 GEMM。
    • 简洁高效,易于理解和修改。
    • 适用于多种 AI 计算场景,提升计算效率。

这些内容直接引用并适配了您提供的 Day 4 数据,并参考了 FlashMLA 的格式。

Day 4: 优化并行策略

4.1 DualPipe

  • 发布日期: 2025年2月27日
  • GitHub 地址: deepseek-ai/DualPipe
  • 简介: DualPipe 是 DeepSeek 开源周第四天发布的核心项目之一,是一种为 V3/R1 训练设计的双向流水线并行算法。它通过创新的双向数据流设计,实现了前向和后向计算与通信的高效重叠,显著减少了流水线中的“气泡”(bubble)并提升了计算吞吐量。DualPipe 特别适用于超大规模模型训练(参数量从数百亿到万亿级别),通过优化计算-通信重叠解决了跨节点通信的瓶颈问题。DeepSeek 通过开源 DualPipe,展示了其在并行策略上的技术突破,为开发者提供了一个高效的训练加速工具。
  • 特点:
    • 针对 V3/R1 架构的深度优化,双向流水线提升效率。
    • 支持计算与通信完全重叠,减少训练时间。
    • 开源以推动社区在超大规模模型训练中的创新。

4.2 EPLB

  • 发布日期: 2025年2月27日
  • GitHub 地址: deepseek-ai/eplb
  • 简介: EPLB(Expert Parallel Load Balancer)是 DeepSeek 开源周第四天发布的第二个项目,是为 V3/R1 模型设计的专家并行负载均衡器。它针对 Mixture-of-Experts(MoE)模型训练中常见的“热点专家”问题,通过实时监控和动态任务分配实现了高效的负载均衡。EPLB 在万卡集群(如 10,000 GPU)中将整体利用率提升至 92% 以上,有效避免了资源空闲。这一技术的开源为 MoE 模型的高效分布式训练提供了关键支持,展示了 DeepSeek 在大规模并行计算优化上的领先能力。
  • 特点:
    • 针对 MoE 模型的专家并行优化,动态负载均衡。
    • 支持超大规模集群,提升资源利用率。
    • 开源以鼓励社区开发更高效的分布式训练方案。

4.3 Profile-Data

  • 发布日期: 2025年2月27日
  • GitHub 地址: deepseek-ai/profile-data
  • 简介: Profile-Data 是 DeepSeek 开源周第四天发布的第三个项目,提供了一个分析 V3/R1 训练中计算-通信重叠的工具和数据集。它基于 DeepSeek 的时空效率模型,针对 3D 并行(数据并行、流水线并行、张量并行)提供详细的性能剖析数据,帮助开发者精确识别计算与通信之间的冲突点。Profile-Data 支持多种并行配置(如 EP64、TP1、4K 序列长度),并为超大规模模型训练提供了调优基准。DeepSeek 通过开源这一工具,助力开发者优化训练策略,提升集群效率。
  • 特点:
    • 针对 V3/R1 的计算-通信重叠分析,优化训练性能。
    • 支持开发者定位性能瓶颈,提供调优参考。
    • 开源以促进社区在并行训练分析上的进一步研究。

Day 5: 3FS、用于所有 DeepSeek 数据访问的 Thruster

5.1 3FS(Fire-Flyer File System)

  • 发布日期: 2025年2月28日
  • GitHub 地址: deepseek-ai/3FS
  • 简介: 3FS(Fire-Flyer File System)是 DeepSeek 开源周第五天发布的核心项目,是一个高性能并行文件系统,充分利用现代 SSD 和 RDMA 网络的全部带宽。它在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量,在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量,并为 KVCache 查找提供超过 40 GiB/s 的峰值性能。3FS 采用解耦架构并保证强一致性,专为 AI 工作负载设计,支持训练数据预处理、数据集加载、检查点保存/加载、嵌入向量搜索及 V3/R1 推理中的 KVCache 查找等场景。DeepSeek 通过开源 3FS,展示了其在分布式存储上的技术突破,为开发者提供了一个高效的数据访问加速引擎。
  • 特点:
    • 针对现代 SSD 和 RDMA 网络的深度优化。
    • 高吞吐量和低延迟,支持大规模 AI 数据访问。
    • 开源以推动社区在 AI 基础设施上的创新。

5.2 Smallpond

  • 发布日期: 2025年2月28日
  • GitHub 地址: deepseek-ai/smallpond
  • 简介: Smallpond 是 DeepSeek 开源周第五天发布的配套项目,是基于 3FS 的数据处理框架。它充分利用 3FS 的高性能并行文件系统能力,简化了大规模数据处理任务的设计与实现。Smallpond 在分布式环境下支持高效的数据预处理、分片和排序等操作,例如在 25 节点集群上以 3.66 TiB/min 的吞吐量完成 GraySort 基准测试。它的设计特别适合 AI 训练和推理中的数据管道需求,与 3FS 无缝集成,为开发者提供了一个轻量但强大的工具。DeepSeek 通过开源 Smallpond,进一步扩展了 3FS 的应用生态,帮助加速 AGI 数据处理流程。
  • 特点:
    • 针对 3FS 优化的高效数据处理框架。
    • 支持分布式数据管道,提升预处理效率。
    • 开源以鼓励社区在此基础上开发数据密集型应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/979027.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调

Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调 环境准备创建Python微调环境准备数据集准备模型文件 模型微调模型预测原始模型预测微调模型预测 使用unsloth,可以方便地对大模型进行微调。以微调DeepSeek-R1-Distill-Llama-8B为…

DeepSeek 开源狂欢周(二)DeepEP深度技术解析 | 解锁 MoE 模型并行加速

在大模型时代,Mixture-of-Experts (MoE) 模型凭借其强大的容量和高效的计算能力,成为研究和应用的热点。然而,MoE 模型的训练和推理面临着巨大的专家并行通信挑战。近日,DeepSeek 开源了 DeepEP 项目,为解决这一难题提…

(IDE接入DeepSeek)简单了解DeepSeek接入辅助开发与本地部署建议

重点:IDE接入DeepSeek是否收费 收费! 本文章主要是为了给小白避雷,目前很多文章告诉大家怎么接入DeepSeek,但是并未告知大家是否收费。如果是想白嫖的,就可以不用去接入了。 一、引言 最近爆火的AI人工智能工具DeepSe…

FPGA开发时序图绘制

开始的时候画时序图都是拿 visio 硬连,但是那个线宽太难统一了,丑不拉几的,遂学习 waveform 语法使用代码来画时序图。 开始 Vscode 中安装 waveform render 或者在 GitHub 搜索 wavedrom 安装即可。由于 vscode 是我常用的编辑器&#xff…

windows下安装pyenv+virtualenv+virtualenvwrapper

1、下载pyenv 进入git官网,打包下载zip到本地 2、解压到安装目录 解压下载好的pyenv-win-master.zip到自己的安装目录,如D:\Program Files 3、配置环境变量 右击桌面 此电脑 --> 属性 --> 高端系统设置 --> 环境变量 --> 新建系统变量…

自动化设备对接MES系统找DeepSeek问方案

项目需要现场的PLC设备HTTP协议JSON格式的方式对接MES系统平台,于是试了一下: 找到的相关资源链接在这里。

李代数(Lie Algebras)与Attention:深度学习中的数学之美

李代数与Attention:深度学习中的数学之美 引言 作为一名深度学习研究者,您一定对Transformer模型和其中的注意力机制(Attention)不陌生。Attention通过查询(Query)、键(Key)和值&a…

OpenCV给图像添加噪声

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 如果你已经有了一张干净的图像,并希望通过编程方式向其添加噪声,可以使用 OpenCV 来实现这一点。以下是一个简单的例子&a…

vscode下载安装教程(附安装包)vscode图文安装教程最新版

文章目录 一、vscode下载二、vscod安装教程1.启动vscode安装程序:2.应对提示:3.接受协议:4.更改vscode安装路径:5.推进安装vscode:6.创建vscode快捷方式:7.开始安装vscode:8.完成vscode安装&…

深度解读 Chinese CLIP 论文:开启中文视觉对比语言预训练

目录 论文概述1.论文摘要2.论文脑图3.论文创新3.1模型构建3.2训练方法3.3数据构建3.4部署优化 4.模型架构 论文解析1. 引言2. 方法2.1数据说明2.2预训练方法2.2.1模型初始化方法2.2.2两阶段预训练方法 2.3预训练细节2.3.1模型初始化2.3.2第一阶段预训练2.3.3第二阶段预训练2.3.…

【开源】低代码 C++程序框架,Linux多线程程序

大家好,欢迎来到停止重构的频道。 本期介绍我们新的C低代码框架:Bees,用于编写Linux/Unix的多线程程序。 低代码框架一般是不会对C程序下手的,因为C程序一般是比较复杂的程序,光是多线程同步就够头疼的了。 但是我们…

重新审视 ChatGPT 和 Elasticsearch:第 2 部分 - UI 保持不变

作者:来自 Elastic Jeff Vestal 本博客在第 1 部分的基础上进行了扩展,介绍了基于 RAG 的搜索系统的功能齐全的 Web UI。最后,你将拥有一个将检索、搜索和生成过程结合在一起的工作界面,同时使事情易于调整和探索。 不想读完整个内…

点云 PCL 滤波在自动驾驶的用途。

1.直通滤波 2.体素滤波、 2.1 分类:VoxelGrid(求体素的重心又称质心点)和ApproximateVoxelGrid(求体素的中心点)两种体素滤波器, 2.2 衍生:此外衍生了改进体素滤波(求距离重心最近…

人工智能 pytorch篇

pytorch是一个深度学习框架,他封装了张量(Tensor),Pytorch中的张量就是元素为同一种数据类型的多维矩阵。在Pytorch中,张量以类的形式封装起来,对张量的一些运算、处理的方法被封装在类中。 pytorch的安装…

Cherno 游戏引擎笔记(91~111)

好久不见! 个人库的地址:(GitHub - JJJJJJJustin/Nut: The game_engine which learned from Cherno),可以看到我及时更新的结果。 -------------------------------Saving & Loading scene-----------------------…

DeepSeek行业应用实践报告-智灵动力【112页PPT全】

DeepSeek(深度搜索)近期引发广泛关注并成为众多企业/开发者争相接入的现象,主要源于其在技术突破、市场需求适配性及生态建设等方面的综合优势。以下是关键原因分析: 一、技术核心优势 开源与低成本 DeepSeek基于开源架构&#xf…

项目8:信用违约预测-集成学习

目录 背景说明 项目介绍 导入模块 数据加载 分析与处理数据 划分数据集 使用随机森林创建并训练模型 通过参数搜索和过采样,缓解标签不平衡问题 小结 背景说明 风险已经成为了今年金融市场的重要主题之一,银行作为贷方,随时都面临着借贷者违约…

一文了解:部署 Deepseek 各版本的硬件要求

很多朋友在咨询关于 DeepSeek 模型部署所需硬件资源的需求,最近自己实践了一部分,部分信息是通过各渠道收集整理,so 仅供参考。 言归正转,大家都知道,DeepSeek 模型的性能在很大程度上取决于它运行的硬件。我们先看一下…

Redis分布式锁故障处理:当Redis不可用时的应对策略

Redis分布式锁故障处理:当Redis不可用时的应对策略 在分布式系统中,Redis因其高性能和丰富的特性常被用于实现分布式锁。但当加锁过程中Redis服务不可用时,系统将面临严重挑战。本文将深入探讨这一问题,并提供多维度解决方案。 目…

GO 进行编译时插桩,实现零码注入

Go 编译时插桩 Go 语言的编译时插桩是一种在编译阶段自动注入监控代码的技术,目的是在不修改业务代码的情况下,实现对应用程序的监控和追踪。 基本原理 Go 编译时插桩的核心思想是通过在编译过程中对源代码进行分析和修改,将监控代码注入到…