DeepSeek开源周-汇总

当 ChatGPT、Claude 这些闭源大模型严防死守技术秘密时,DeepSeek 却反其道而行,选择了全面开源,为整个 AI 生态注入新的活力。

在过去短短一周内,DeepSeek 连续在 GitHub 开源了 8 个核心技术项目,完成了一次震撼业界的技术开源盛宴。

与以往那些包装鲜艳的应用不同,DeepSeek 这次分享的,都是能让大模型真正“跑起来”的底层技术。

下面就让我们一起看看,DeepSeek 是如何用这八大项目,重新构建 AI 未来的基础设施吧!

第一天:计算加速的秘密武器

开源周的第一天,DeepSeek 带来了 FlashMLA,这是一款为 Hopper GPU 优化的高效 MLA 解码内核。

想象一下,如果普通的计算方式是骑自行车送快递,FlashMLA 就相当于装上了超级引擎,让送货速度提升了好几倍!

image-20250301141950664

GitHub:https://github.com/deepseek-ai/FlashMLA

在 H800 SXM5 GPU 上,FlashMLA 实现了惊人的性能:内存受限配置下达到 3000 GB/s 的吞吐量,计算受限配置下实现 580 TFLOPS。

相当于让模型处理信息的速度提升了数倍,大大降低了推理成本。

更令人惊喜的是,这个项目不仅支持英伟达 GPU,还得到了国产 GPU 厂商的广泛支持。

包括 MetaX、摩尔线程、海光 DCU 等都提供了对应版本,为国产 AI 硬件生态注入了一剂强心针。

第二天:专家模型的通信利器

到了第二天,DeepSeek 开源了 DeepEP,这是一个专为混合专家(MoE)模型设计的通信库。

想象一下,如果 MoE 模型是一个大公司,各个专家就像不同部门的员工,他们需要高效地交换信息才能协同工作。

image-20250301142151931

GitHub:https://github.com/deepseek-ai/DeepEP

DeepEP 就是这样一套高效的“企业通信系统”,提供了两大核心功能:高吞吐普通内核和低延迟解码内核。

其中低延迟内核特别厉害,它能在不占用任何 GPU 计算资源的情况下,让通信在后台悄悄完成,这就像是你一边开会一边有人帮你整理文档,两不耽误!

image-20250301142709030

在 H800 上测试,DeepEP 几乎达到了硬件理论上限:NVLink 通信带宽 158 GB/s,RDMA 通信带宽 47 GB/s。

这些惊人的数据意味着专家模型可以更快速地交换信息,训练和推理效率大大提升。

第三天:矩阵计算的极致优化

第三天,DeepSeek 带来了 DeepGEMM,这是一个轻量级 FP8 矩阵乘法库。

矩阵乘法听起来很枯燥,但它实际上是 AI 模型中最常见、最耗时的操作之一,就像是汽车的发动机,决定了整体的性能。

image-20250301142749186

GitHub:https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 的神奇之处在于它的极致简洁,核心内核函数仅约 300 行代码,却实现了令人印象深刻的性能:在多种常见矩阵形状上,性能提升达 1.1x-2.7x。

image-20250301142913935

它避开了繁重的模板和代数依赖,设计简洁明了,让你不仅能用它,还能轻松理解它的工作原理。

这种清晰易懂的实现方式,在高性能计算领域实属罕见。

第四天:流水线并行的革新

image-20250301143057806

进入第四天,DeepSeek 一口气开源了三个项目,首先是 DualPipe,这是一个创新的双向流水线并行算法。

传统的训练方式就像是流水线上一个接一个的工人,必须等前一个人完成工作才能开始下一步。而 DualPipe 相当于让流水线同时从两头开始工作,大大减少了等待时间。

schedules

GitHub:https://github.com/deepseek-ai/DualPipe

README 中展示了 8 个流水线并行 rank 和 20 个微批次的调度示例图,通过这种双向调度策略,DualPipe 明显减少了流水线气泡,让训练效率获得了显著提升。

第二个项目是 EPLB(Expert Parallelism Load Balancer),专门解决专家并行中的负载均衡问题。

img

GitHub:https://github.com/deepseek-ai/eplb

想象一个班级里,有些老师总是课多学生多,有些却很清闲。EPLB 就像是一个智能排课系统,确保每位老师的工作量都均衡合理。

第三个项目是 Profiling Data,公开了 DeepSeek 训练和推理框架的性能分析数据,这些数据就像是一面 “透视镜”,让我们能看清复杂 AI 系统内部是如何运转的。

train

GitHub:https://github.com/deepseek-ai/profile-data

通过这些数据,我们可以清楚地看到 DeepSeek 如何优化训练过程中的通信-计算重叠,如何均衡预填充阶段的计算负载,以及如何在解码阶段实现高效的资源利用。

尤其对于想要深入了解大模型系统优化的开发者来说,这简直是一份珍贵的“宝藏”!

第五天:数据基础设施的强大支撑

image-20250301143450930

在开源周的最后一天,DeepSeek 推出了两个数据处理项目,首先是 Fire-Flyer File System (3FS),这是一个为 AI 工作负载设计的高性能分布式文件系统。

如果把普通文件系统比作个人书柜,那么 3FS 就相当于一个超大型图书馆,不仅容量惊人,还有高效的检索系统。

Large block read throughput under stress test on a 180-node cluster

GitHub:https://github.com/deepseek-ai/3FS

在由 180 个存储节点组成的集群上,3FS 实现了约 6.6 TiB/s 的聚合读取吞吐量。简直令人震惊!相当于每秒读取超过 6600GB 的数据。

与 3FS 配套的是 smallpond,这是一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架。它就像是图书馆的智能助手,帮你快速找到并处理需要的信息。

image-20250301143904249

GitHub:https://github.com/deepseek-ai/smallpond

在 GraySort 基准测试中,smallpond 仅用 30 分钟 14 秒就完成了 110.5TiB 数据的排序,平均吞吐量达 3.66TiB/分钟。

这两个项目共同解决了大模型训练和推理中的数据处理难题,让 AI 开发者能够更高效地管理和利用海量数据。

意外惊喜:推理系统全面揭秘

image-20250301144023356

在大家以为开源周结束时,DeepSeek 继续放大招:全面公开了 V3/R1 推理系统的设计细节。

这套系统的核心优化目标就是:更高的吞吐量和更低的延迟。为此,DeepSeek 巧妙地应用了跨节点专家并行,在预填充阶段使用 32 个专家并行,解码阶段则扩展到 144 个。

Cost And Theoretical Income.jpg

GitHub:https://t.co/x1rt3mCxF5

服务规模令人震惊:峰值达 278 个节点(每节点 8 个 H800 GPU),日成本高达 $87,072。24 小时内处理了 608B 输入 tokens 和 168B 输出 tokens。

这份系统揭秘完美印证了前面介绍的开源项目在实战中的价值。DeepEP、EPLB、FlashMLA 等技术正是这套高效推理系统的核心组件,而 3FS 则为其提供了关键的 KV 缓存支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/979802.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

02内存映射与bmp解码

一、mmap 内存映射 内存映射的作用是把硬件设备的地址,映射到应用层的内存空间,这样用户就可以跨越系统层访问linux的硬件设备。 1、man 2 mmap 查看映射函数接口 NAMEmmap, munmap - map or unmap files or devices into memory映射 解除…

I2C驱动(九) -- i2c_adapter控制器驱动框架编写

相关文章 I2C驱动(一) – I2C协议 I2C驱动(二) – SMBus协议 I2C驱动(三) – 驱动中的几个重要结构 I2C驱动(四) – I2C-Tools介绍 I2C驱动(五) – 通用驱动i2c-dev.c分析 I2C驱动(六) – I2C驱动程序模型 I2C驱动(七) – 编写I2C设备驱动之i2c_driver I2C驱动(八) – 编写I2C…

分布式系统核心基石:CAP定理、BASE理论与一致性算法深度解析

一、CAP定理:分布式系统的设计边界 1.1 核心定义与经典三角 CAP定理(Brewers Theorem)指出,在分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性&a…

3 算法1-4 过河卒

题目描述 棋盘上 A 点有一个过河卒,需要走到目标 B 点。卒行走的规则:可以向下、或者向右。同时在棋盘上 C 点有一个对方的马,该马所在的点和所有跳跃一步可达的点称为对方马的控制点。因此称之为“马拦过河卒”。 棋盘用坐标表示&#xff…

AutoMQ:无需 Cruise Control 实现 Kafka 的自动分区再平衡

导读:AutoMQ是一款贯彻云优先理念来设计的 Kafka 替代产品。AutoMQ 创新地对 Apache Kafka 的存储层进行了基于云的重新设计,在 100% 兼容 Kafka 的基础上通过将持久性分离至 EBS 和 S3 带来了 10x 的成本降低以及 100x 的弹性能力提升,并且相…

论文阅读之基于Syn2Real域的侧扫声纳类水雷目标探测

摘要 由于现实世界数据的稀缺性,基于深度学习的水下水雷探测受到了限制。这种稀缺性导致过拟合,即模型在训练数据上表现良好,但在未见数据上表现不佳。本文提出了一种使用扩散模型的Syn2Real (Synthetic to Real)域泛…

如何使用Docker搭建哪吒监控面板程序

哪吒监控(Nezha Monitoring)是一款自托管、轻量级的服务器和网站监控及运维工具,旨在为用户提供实时性能监控、故障告警及自动化运维能力。 文档地址:https://nezha.wiki/ 本章教程,使用Docker方式安装哪吒监控面板,在此之前,你需要提前安装好Docker. 我当前使用的操作系…

微服务学习(1):RabbitMQ的安装与简单应用

目录 RabbitMQ是什么 为什么要使用RabbitMQ RabbitMQ的安装 RabbitMQ架构及其对应概念 队列的主要作用 交换机的主要作用 RabbitMQ的应用 通过控制面板操作(实现收发消息) RabbitMQ是什么 RabbitMQ是一个开源的消息队列软件(消息代理…

综合实验处理表格

新建excel表格,输入信息,另存为csv文件。 利用notepad打开csv文件,可以观察格式 目标:通过编程处理文件,实现对数据的处理,成绩求和以及评价 对数据逐行处理,读一行,处理一行&#…

【leetcode hot 100 560】和为K的子数组

解法一&#xff1a;用左右指针寻找字串&#xff0c;如果和>k&#xff0c;则减少一个数&#xff08;left&#xff09;&#xff1b;如果和<k&#xff0c;则加上一个数&#xff08;right&#xff09;。 class Solution {public int subarraySum(int[] nums, int k) {int nu…

STM32CubeMx DRV8833驱动

一、DRV8833驱动原理 ​ STBY口接单片机的IO口&#xff0c;STBY置0电机全部停止&#xff0c;置1才能工作。STBY置1后通过AIN1、AIN2、BIN1、BIN2 来控制正反转。 AIN1AIN2电机状态00停止1speed反转speed1正转11停止 其中A端&#xff08;AIN1与AIN2&#xff09;只能控制AO1与…

Android 图片压缩详解

在 Android 开发中,图片压缩是一个重要的优化手段,旨在提升用户体验、减少网络传输量以及降低存储空间占用。以下是几种主流的图片压缩方法,结合原理、使用场景和优缺点进行详细解析。 效果演示 直接先给大家对比几种图片压缩的效果 质量压缩 质量压缩:根据传递进去的质…

JavaWeb后端基础(3)

原打算把Mysql操作数据库的一些知识写进去&#xff0c;但是感觉没必要&#xff0c;要是现在会的都是简单的增删改查&#xff0c;所以&#xff0c;这一篇&#xff0c;我直接从java操作数据库开始写&#xff0c;所以这一篇大致就是记一下JDBC、MyBatis、以及SpringBoot的配置文件…

ArcGIS Pro技巧实战:高效矢量化天地图地表覆盖图

在地理信息系统&#xff08;GIS&#xff09;领域&#xff0c;地表覆盖图的矢量化是一项至关重要的任务。天地图作为中国国家级的地理信息服务平台&#xff0c;提供了丰富且详尽的地表覆盖数据。然而&#xff0c;这些数据通常以栅格格式存在&#xff0c;不利于进行空间分析和数据…

TP-LINK路由器如何设置网段、网关和DHCP服务

目标 ①将路由器的网段由192.168.1.XXX改为192.168.5.XXX ②确认DHCP是启用的&#xff0c;并将DHCP的IP池的范围设置为排除自己要手动指定的IP地址&#xff0c;避免IP冲突。 01-复位路由器 路由器按住复位键10秒以上进行重置操作 02-进入路由器管理界面 电脑连接到路由器&…

基于Spring Boot的供应商管理系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

大模型WebUI:Gradio全解12——LangChain原理、架构和组件(3)

大模型WebUI:Gradio全解12——LangChain原理、架构和组件(3) 前言本篇摘要12. LangChain原理及agents构建Gradio UI12.3 LangChain架构12.3.1 LangChain12.3.2 Integration Packages1. 概念2. 示例12.3.3 LangGraph1. 概念2. 示例12.3.4 LangGraph Platform1. 概览2. 优势分…

通过 PromptTemplate 生成干净的 SQL 查询语句并执行SQL查询语句

问题描述 在使用 LangChain 和 Llama 模型生成 SQL 查询时&#xff0c;遇到了 sqlite3.OperationalError 错误。错误信息如下&#xff1a; OperationalError: (sqlite3.OperationalError) near "sql SELECT Name FROM MediaType LIMIT 5; ": syntax error [SQL: …

【每天认识一个漏洞】url重定向

&#x1f31d;博客主页&#xff1a;菜鸟小羊 &#x1f496;专栏&#xff1a;Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 常见应用场景 主要是业务逻辑中需要进行跳转的地方。比如登录处、注册处、访问用户信息、订单信息、加入购物车、分享、收…

SQL命令详解之数据的查询操作

目录 1 简介 2 基础查询 2.1 基础查询语法 2.2 基础查询练习 3 条件查询 3.1 条件查询语法 3.2 条件查询练习 4 排序查询 4.1 排序查询语法 4.2 排序查询练习 5 聚合函数 5.1 一般语法&#xff1a; 5.2 聚合函数练习 6 分组查询 6.1 分组查询语法 6.2 分组查询…