DeepSeek开源周-汇总

DeepSeek开源周-汇总

article2025/3/3 21:23:02/文章来源:https://blog.csdn.net/m0_37733448/article/details/145955512

当 ChatGPT、Claude 这些闭源大模型严防死守技术秘密时，DeepSeek 却反其道而行，选择了全面开源，为整个 AI 生态注入新的活力。

在过去短短一周内，DeepSeek 连续在 GitHub 开源了 8 个核心技术项目，完成了一次震撼业界的技术开源盛宴。

与以往那些包装鲜艳的应用不同，DeepSeek 这次分享的，都是能让大模型真正“跑起来”的底层技术。

下面就让我们一起看看，DeepSeek 是如何用这八大项目，重新构建 AI 未来的基础设施吧！

第一天：计算加速的秘密武器

开源周的第一天，DeepSeek 带来了 FlashMLA，这是一款为 Hopper GPU 优化的高效 MLA 解码内核。

想象一下，如果普通的计算方式是骑自行车送快递，FlashMLA 就相当于装上了超级引擎，让送货速度提升了好几倍！

GitHub：https://github.com/deepseek-ai/FlashMLA

在 H800 SXM5 GPU 上，FlashMLA 实现了惊人的性能：内存受限配置下达到 3000 GB/s 的吞吐量，计算受限配置下实现 580 TFLOPS。

相当于让模型处理信息的速度提升了数倍，大大降低了推理成本。

更令人惊喜的是，这个项目不仅支持英伟达 GPU，还得到了国产 GPU 厂商的广泛支持。

包括 MetaX、摩尔线程、海光 DCU 等都提供了对应版本，为国产 AI 硬件生态注入了一剂强心针。

第二天：专家模型的通信利器

到了第二天，DeepSeek 开源了 DeepEP，这是一个专为混合专家(MoE)模型设计的通信库。

想象一下，如果 MoE 模型是一个大公司，各个专家就像不同部门的员工，他们需要高效地交换信息才能协同工作。

GitHub：https://github.com/deepseek-ai/DeepEP

DeepEP 就是这样一套高效的“企业通信系统”，提供了两大核心功能：高吞吐普通内核和低延迟解码内核。

其中低延迟内核特别厉害，它能在不占用任何 GPU 计算资源的情况下，让通信在后台悄悄完成，这就像是你一边开会一边有人帮你整理文档，两不耽误！

在 H800 上测试，DeepEP 几乎达到了硬件理论上限：NVLink 通信带宽 158 GB/s，RDMA 通信带宽 47 GB/s。

这些惊人的数据意味着专家模型可以更快速地交换信息，训练和推理效率大大提升。

第三天：矩阵计算的极致优化

第三天，DeepSeek 带来了 DeepGEMM，这是一个轻量级 FP8 矩阵乘法库。

矩阵乘法听起来很枯燥，但它实际上是 AI 模型中最常见、最耗时的操作之一，就像是汽车的发动机，决定了整体的性能。

GitHub：https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 的神奇之处在于它的极致简洁，核心内核函数仅约 300 行代码，却实现了令人印象深刻的性能：在多种常见矩阵形状上，性能提升达 1.1x-2.7x。

它避开了繁重的模板和代数依赖，设计简洁明了，让你不仅能用它，还能轻松理解它的工作原理。

这种清晰易懂的实现方式，在高性能计算领域实属罕见。

第四天：流水线并行的革新

进入第四天，DeepSeek 一口气开源了三个项目，首先是 DualPipe，这是一个创新的双向流水线并行算法。

传统的训练方式就像是流水线上一个接一个的工人，必须等前一个人完成工作才能开始下一步。而 DualPipe 相当于让流水线同时从两头开始工作，大大减少了等待时间。

schedules

GitHub：https://github.com/deepseek-ai/DualPipe

README 中展示了 8 个流水线并行 rank 和 20 个微批次的调度示例图，通过这种双向调度策略，DualPipe 明显减少了流水线气泡，让训练效率获得了显著提升。

第二个项目是 EPLB（Expert Parallelism Load Balancer），专门解决专家并行中的负载均衡问题。

GitHub：https://github.com/deepseek-ai/eplb

想象一个班级里，有些老师总是课多学生多，有些却很清闲。EPLB 就像是一个智能排课系统，确保每位老师的工作量都均衡合理。

第三个项目是 Profiling Data，公开了 DeepSeek 训练和推理框架的性能分析数据，这些数据就像是一面 “透视镜”，让我们能看清复杂 AI 系统内部是如何运转的。

train

GitHub：https://github.com/deepseek-ai/profile-data

通过这些数据，我们可以清楚地看到 DeepSeek 如何优化训练过程中的通信-计算重叠，如何均衡预填充阶段的计算负载，以及如何在解码阶段实现高效的资源利用。

尤其对于想要深入了解大模型系统优化的开发者来说，这简直是一份珍贵的“宝藏”！

第五天：数据基础设施的强大支撑

在开源周的最后一天，DeepSeek 推出了两个数据处理项目，首先是 Fire-Flyer File System (3FS)，这是一个为 AI 工作负载设计的高性能分布式文件系统。

如果把普通文件系统比作个人书柜，那么 3FS 就相当于一个超大型图书馆，不仅容量惊人，还有高效的检索系统。

Large block read throughput under stress test on a 180-node cluster

GitHub：https://github.com/deepseek-ai/3FS

在由 180 个存储节点组成的集群上，3FS 实现了约 6.6 TiB/s 的聚合读取吞吐量。简直令人震惊！相当于每秒读取超过 6600GB 的数据。

与 3FS 配套的是 smallpond，这是一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架。它就像是图书馆的智能助手，帮你快速找到并处理需要的信息。

GitHub：https://github.com/deepseek-ai/smallpond

在 GraySort 基准测试中，smallpond 仅用 30 分钟 14 秒就完成了 110.5TiB 数据的排序，平均吞吐量达 3.66TiB/分钟。

这两个项目共同解决了大模型训练和推理中的数据处理难题，让 AI 开发者能够更高效地管理和利用海量数据。

意外惊喜：推理系统全面揭秘

在大家以为开源周结束时，DeepSeek 继续放大招：全面公开了 V3/R1 推理系统的设计细节。

这套系统的核心优化目标就是：更高的吞吐量和更低的延迟。为此，DeepSeek 巧妙地应用了跨节点专家并行，在预填充阶段使用 32 个专家并行，解码阶段则扩展到 144 个。

Cost And Theoretical Income.jpg

GitHub：https://t.co/x1rt3mCxF5

服务规模令人震惊：峰值达 278 个节点（每节点 8 个 H800 GPU），日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。

这份系统揭秘完美印证了前面介绍的开源项目在实战中的价值。DeepEP、EPLB、FlashMLA 等技术正是这套高效推理系统的核心组件，而 3FS 则为其提供了关键的 KV 缓存支持。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/979802.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

02内存映射与bmp解码

02内存映射与bmp解码

一、mmap 内存映射内存映射的作用是把硬件设备的地址，映射到应用层的内存空间，这样用户就可以跨越系统层访问linux的硬件设备。 1、man 2 mmap 查看映射函数接口 NAMEmmap, munmap - map or unmap files or devices into memory映射解除…

阅读更多...

I2C驱动(九) -- i2c_adapter控制器驱动框架编写

I2C驱动(九) -- i2c_adapter控制器驱动框架编写

相关文章 I2C驱动(一) – I2C协议 I2C驱动(二) – SMBus协议 I2C驱动(三) – 驱动中的几个重要结构 I2C驱动(四) – I2C-Tools介绍 I2C驱动(五) – 通用驱动i2c-dev.c分析 I2C驱动(六) – I2C驱动程序模型 I2C驱动(七) – 编写I2C设备驱动之i2c_driver I2C驱动(八) – 编写I2C…

阅读更多...

分布式系统核心基石：CAP定理、BASE理论与一致性算法深度解析

分布式系统核心基石：CAP定理、BASE理论与一致性算法深度解析

一、CAP定理：分布式系统的设计边界 1.1 核心定义与经典三角 CAP定理（Brewers Theorem）指出，在分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性&a…

阅读更多...

3 算法1-4 过河卒

3 算法1-4 过河卒

题目描述棋盘上 A 点有一个过河卒，需要走到目标 B 点。卒行走的规则：可以向下、或者向右。同时在棋盘上 C 点有一个对方的马，该马所在的点和所有跳跃一步可达的点称为对方马的控制点。因此称之为“马拦过河卒”。棋盘用坐标表示&#xff…

阅读更多...

AutoMQ：无需 Cruise Control 实现 Kafka 的自动分区再平衡

AutoMQ：无需 Cruise Control 实现 Kafka 的自动分区再平衡

导读：AutoMQ是一款贯彻云优先理念来设计的 Kafka 替代产品。AutoMQ 创新地对 Apache Kafka 的存储层进行了基于云的重新设计，在 100% 兼容 Kafka 的基础上通过将持久性分离至 EBS 和 S3 带来了 10x 的成本降低以及 100x 的弹性能力提升，并且相…

阅读更多...

论文阅读之基于Syn2Real域的侧扫声纳类水雷目标探测

论文阅读之基于Syn2Real域的侧扫声纳类水雷目标探测

摘要由于现实世界数据的稀缺性，基于深度学习的水下水雷探测受到了限制。这种稀缺性导致过拟合，即模型在训练数据上表现良好，但在未见数据上表现不佳。本文提出了一种使用扩散模型的Syn2Real （Synthetic to Real）域泛…

阅读更多...

如何使用Docker搭建哪吒监控面板程序

如何使用Docker搭建哪吒监控面板程序

哪吒监控（Nezha Monitoring）是一款自托管、轻量级的服务器和网站监控及运维工具，旨在为用户提供实时性能监控、故障告警及自动化运维能力。文档地址：https://nezha.wiki/ 本章教程，使用Docker方式安装哪吒监控面板，在此之前，你需要提前安装好Docker. 我当前使用的操作系…

阅读更多...

微服务学习（1）：RabbitMQ的安装与简单应用

微服务学习（1）：RabbitMQ的安装与简单应用

目录 RabbitMQ是什么为什么要使用RabbitMQ RabbitMQ的安装 RabbitMQ架构及其对应概念队列的主要作用交换机的主要作用 RabbitMQ的应用通过控制面板操作（实现收发消息） RabbitMQ是什么 RabbitMQ是一个开源的消息队列软件（消息代理…

阅读更多...

综合实验处理表格

综合实验处理表格

新建excel表格，输入信息，另存为csv文件。利用notepad打开csv文件，可以观察格式目标：通过编程处理文件，实现对数据的处理，成绩求和以及评价对数据逐行处理，读一行，处理一行&#…

阅读更多...

【leetcode hot 100 560】和为K的子数组

【leetcode hot 100 560】和为K的子数组

解法一：用左右指针寻找字串，如果和>k，则减少一个数（left）；如果和<k，则加上一个数（right）。 class Solution {public int subarraySum(int[] nums, int k) {int nu…

阅读更多...

STM32CubeMx DRV8833驱动

STM32CubeMx DRV8833驱动

一、DRV8833驱动原理 STBY口接单片机的IO口，STBY置0电机全部停止，置1才能工作。STBY置1后通过AIN1、AIN2、BIN1、BIN2 来控制正反转。 AIN1AIN2电机状态00停止1speed反转speed1正转11停止其中A端（AIN1与AIN2）只能控制AO1与…

阅读更多...

Android 图片压缩详解

Android 图片压缩详解

在 Android 开发中，图片压缩是一个重要的优化手段，旨在提升用户体验、减少网络传输量以及降低存储空间占用。以下是几种主流的图片压缩方法，结合原理、使用场景和优缺点进行详细解析。效果演示直接先给大家对比几种图片压缩的效果质量压缩质量压缩：根据传递进去的质…

阅读更多...

JavaWeb后端基础（3）

JavaWeb后端基础（3）

原打算把Mysql操作数据库的一些知识写进去，但是感觉没必要，要是现在会的都是简单的增删改查，所以，这一篇，我直接从java操作数据库开始写，所以这一篇大致就是记一下JDBC、MyBatis、以及SpringBoot的配置文件…

阅读更多...

ArcGIS Pro技巧实战：高效矢量化天地图地表覆盖图

ArcGIS Pro技巧实战：高效矢量化天地图地表覆盖图

在地理信息系统（GIS）领域，地表覆盖图的矢量化是一项至关重要的任务。天地图作为中国国家级的地理信息服务平台，提供了丰富且详尽的地表覆盖数据。然而，这些数据通常以栅格格式存在，不利于进行空间分析和数据…

阅读更多...

TP-LINK路由器如何设置网段、网关和DHCP服务

TP-LINK路由器如何设置网段、网关和DHCP服务

目标 ①将路由器的网段由192.168.1.XXX改为192.168.5.XXX ②确认DHCP是启用的，并将DHCP的IP池的范围设置为排除自己要手动指定的IP地址，避免IP冲突。 01-复位路由器路由器按住复位键10秒以上进行重置操作 02-进入路由器管理界面电脑连接到路由器&…

阅读更多...

基于Spring Boot的供应商管理系统设计与实现（LW+源码+讲解）

基于Spring Boot的供应商管理系统设计与实现（LW+源码+讲解）

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…

阅读更多...

大模型WebUI：Gradio全解12——LangChain原理、架构和组件（3）

大模型WebUI：Gradio全解12——LangChain原理、架构和组件（3）

大模型WebUI：Gradio全解12——LangChain原理、架构和组件（3）前言本篇摘要12. LangChain原理及agents构建Gradio UI12.3 LangChain架构12.3.1 LangChain12.3.2 Integration Packages1. 概念2. 示例12.3.3 LangGraph1. 概念2. 示例12.3.4 LangGraph Platform1. 概览2. 优势分…

阅读更多...

通过 PromptTemplate 生成干净的 SQL 查询语句并执行SQL查询语句

通过 PromptTemplate 生成干净的 SQL 查询语句并执行SQL查询语句

问题描述在使用 LangChain 和 Llama 模型生成 SQL 查询时，遇到了 sqlite3.OperationalError 错误。错误信息如下： OperationalError: (sqlite3.OperationalError) near "sql SELECT Name FROM MediaType LIMIT 5; ": syntax error [SQL: …

阅读更多...

【每天认识一个漏洞】url重定向

【每天认识一个漏洞】url重定向

🌝博客主页：菜鸟小羊 💖专栏：Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具常见应用场景主要是业务逻辑中需要进行跳转的地方。比如登录处、注册处、访问用户信息、订单信息、加入购物车、分享、收…

阅读更多...

SQL命令详解之数据的查询操作

SQL命令详解之数据的查询操作

目录 1 简介 2 基础查询 2.1 基础查询语法 2.2 基础查询练习 3 条件查询 3.1 条件查询语法 3.2 条件查询练习 4 排序查询 4.1 排序查询语法 4.2 排序查询练习 5 聚合函数 5.1 一般语法： 5.2 聚合函数练习 6 分组查询 6.1 分组查询语法 6.2 分组查询…

阅读更多...

最新文章