DeepSeek开源周Day2:DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库

项目地址:https://github.com/deepseek-ai/DeepEP
开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (2/5)!

引言

在大模型训练中,混合专家模型(Mixture-of-Experts, MoE)因其动态路由和高效计算特性备受关注。然而,随着模型规模的扩大,GPU 间的数据通信成为关键瓶颈——尤其是在专家并行(Expert Parallelism, EP)场景中,数据需要在多个 GPU 间高效分发与合并。传统通信库往往难以兼顾高吞吐与低延迟,而 DeepEP 的诞生正是为了解决这一难题。


核心功能与设计理念

1. 什么是 DeepEP?

DeepEP 是由 DeepSeek 开源的高性能通信库,专为 MoE/EP 场景设计。其核心目标是通过优化 GPU 间数据传输,实现:

  • 训练加速:提升多 GPU 协作效率
  • 推理降延迟:支持实时推理任务(如 ChatGPT)
  • 资源高效利用:减少 GPU 闲置时间

2. 技术亮点解析

(1)域间带宽优化

针对 MoE 的非对称通信场景(如 NVLink 域到 RDMA 域)深度优化:

  • NVLink(节点内 GPU 互联):带宽达 160 GB/s
  • RDMA(跨节点 GPU 互联):带宽达 50 GB/s
    通过定制内核实现数据转发路径优化,避免带宽浪费。
(2)低精度计算支持
  • FP8 分发 + BF16 合并:在保证精度的同时减少 50% 显存占用
  • 动态精度切换:适应不同阶段的计算需求
(3)通信-计算重叠


通过 Hook 机制实现:

  • 前向传播时后台预加载数据
  • 反向传播时异步传输梯度
    关键优势:零额外 SM 资源占用,最大化 GPU 利用率

性能实测

测试环境

  • 硬件:NVIDIA H800 GPU + CX7 InfiniBand 400Gb/s RDMA 网卡
  • 软件:CUDA 12.3 + PyTorch 2.1

性能数据

常规模式(训练/预填充推理)
场景通信类型吞吐量
节点内(8卡)NVLink153 GB/s
跨节点(64卡)RDMA46 GB/s
低延迟模式(推理生成)
专家数延迟RDMA 带宽
8163 μs46 GB/s
128192 μs39 GB/s

注:在 128 token 批处理下,延迟仅增加 18%,展现极强的扩展性


架构设计与关键技术

1. 分层通信模型

  • 分发阶段:通过原子操作动态分配 token 到专家
  • 组合阶段:基于元数据快速聚合结果

2. 推理优化黑科技

def low_latency_dispatch(hidden_states, topk_idx):
    # 后台启动 RDMA 传输
    recv_hidden, hook = _buffer.low_latency_dispatch(...)
    # 立即返回控制权,计算与传输并行
    return recv_hidden, hook

通过 纯 RDMA 传输 + 双缓冲机制,实现:

  • 163 μs 端到端延迟
  • 零 CUDA 核占用

快速入门指南

1. 环境要求

组件版本要求
GPUHopper 架构(H100/H800)
Python3.8+
CUDA12.3+
PyTorch2.1+
网络NVLink + RDMA
  • CUDA安装指南
  • GPU-pytorch 安装指南

2. 安装步骤

# 安装定制版 NVSHMEM
git clone https://github.com/NVIDIA/nvshmem
cd nvshmem && git apply DeepEP/third-party/nvshmem.patch
make -j 16 && make install

# 安装 DeepEP
NVSHMEM_DIR=/path/to/nvshmem python setup.py install

3. 基础使用示例

import deep_ep

# 初始化通信缓冲区
buffer = deep_ep.Buffer(
    group=dist.group.WORLD,
    num_nvl_bytes=1e9,  # NVLink 缓冲区 1GB
    num_rdma_bytes=2e9   # RDMA 缓冲区 2GB
)

# MoE 分发数据
recv_data, metadata = buffer.dispatch(
    input_tensor, 
    expert_indices, 
    num_experts=64
)

# 执行专家计算
expert_output = experts[metadata.expert_id](recv_data)

# 合并结果
combined_result = buffer.combine(expert_output)

高级调优建议

1. 网络配置优化

参数推荐值说明
​NVSHMEM_IB_SL​1-3隔离不同类型流量
自适应路由高负载时启用避免网络拥塞
拥塞控制关闭DeepSeek 实测无显著影响

2. SM 资源分配

# 设置 24 个 SM 专供通信
Buffer.set_num_sms(24)

通过动态调整 SM 数量,平衡计算与通信资源。


应用场景与案例

1. 千卡级训练加速

在 2048 卡集群中:

  • 线性扩展效率 >92%
  • 训练吞吐量提升 3.8 倍(对比 Megatron-LM)

2. 实时推理服务

  • 70B 参数 MoE 模型
  • 单请求延迟 <200 ms(端到端)
  • 吞吐量 1200 token/s

注意事项

  1. 硬件限制:目前仅支持 Hopper 架构 GPU
  2. PTX 指令:使用未公开指令 ld.global.nc.L1::no_allocate​ 实现极致性能,可通过 DISABLE_AGGRESSIVE_PTX_INSTRS=1​ 禁用
  3. 缓冲区管理:低延迟模式需预留更大 RDMA 缓冲区

开源生态

  • GitHub Star:开源 3 小时即破 2k
  • 生态整合:vLLM 等框架正在适配
  • 许可证:核心代码 MIT 许可,NVSHMEM 部分遵循 NVIDIA SLA

参考引用:

  1. Github - DeepEP
  2. 开源周第二天 - DeepEP
  3. DeepEP 详解,GPU压榨计划启动!
  4. DeepSeek开源周第二天-DeepEP
  5. DeepSeek最新开源DeepEP技术深入分析

专业术语解释

  • 混合专家模型(Mixture-of-Experts, MoE)
    一种将复杂任务分配给多个专家模块进行处理的模型架构。类似于一个大型项目被分解给多个专业团队分别完成。
  • 专家并行(Expert Parallelism, EP)
    一种在模型训练中多个专家模块同时进行计算的模式。类似于多个工作小组同时开展不同部分的工作。
  • 非对称通信场景
    指通信双方在数据传输量、传输方向或性能要求等方面存在差异的情况。类似于两人交流时一方说得多另一方说得少。
  • NVLink
    用于节点内 GPU 互联的高速通信技术,具有高带宽。类似于房间内不同家具之间的快速通道。
  • RDMA
    一种跨节点 GPU 互联的通信技术。类似于不同房间之间的快捷通道。
  • 数据转发路径优化
    对数据传输的路径进行改进以提高效率和减少浪费。类似于优化物流运输的路线。
  • FP8 分发 + BF16 合并
    数据分发和合并时采用的不同精度格式,以平衡精度和资源占用。类似于根据物品的重要性选择不同大小的盒子来装。
  • 通信-计算重叠
    让数据通信和计算过程同时进行,以提高效率。类似于一边做饭一边收拾厨房。
  • 分层通信模型
    将通信过程分为不同层次进行处理和优化的模型。类似于把一个大工程分为不同的施工阶段。
  • 双缓冲机制
    使用两个缓冲区交替工作来提高数据传输效率。类似于两个工人交替工作,一个工作时另一个准备。
  • SM 资源
    指 GPU 中的流多处理器(Streaming Multiprocessor)相关的资源。类似于工厂里的生产车间资源。

DeepEP 的推出标志着 MoE 训练进入新纪元。通过硬件级通信优化,它成功将 GPU 集群的潜力压榨到极致——正如网友所言:"这才是真正的 GPU 起飞!"。随着生态的完善,我们有理由期待更多千亿级模型将借此突破训练效率的边界。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978273.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端面试基础知识整理(一)

1.vue生命周期 beforeCreate 创建 注入依赖 初始化非响应式数据 beforeCreate created 数据请求&#xff0c;初始化数据 设置全局时间监听 beforeMount挂载 模版编译完成后的调试 操作 dom初始化 操作dom初始化第三方插件 更新 在更新前查看 DOM 状态&#xff0c;不建议修改数据…

【单片机】MSP430MSP432入门

文章目录 0 前言1 开发方式选择2 CCS和开发相关软件3 Keil开发MSP4324 IAR for 430开发MSP4305 总结 0 前言 最近因为想学DSP&#xff0c;所以把之前卸载的CCS给装回来了&#xff0c;手头也还有之前电赛剩下的MSP430和MSP432的板子&#xff0c;由于年代久远&#xff0c;想着花点…

【Linux探索学习】第二十七弹——信号(上):Linux 信号基础详解

Linux学习笔记&#xff1a; https://blog.csdn.net/2301_80220607/category_12805278.html?spm1001.2014.3001.5482 前言&#xff1a; 前面我们已经将进程通信部分讲完了&#xff0c;现在我们来讲一个进程部分也非常重要的知识点——信号&#xff0c;信号也是进程间通信的一…

74道高级Java面试合集,java开发模式面试题

前言 今天我们来说说Redis为什么高性能&#xff1f;如何做高可用&#xff1f; Redis为什么这么快&#xff1f; Redis是单线程的&#xff0c;避免了多线程的上下文切换和并发控制开销&#xff1b;Redis大部分操作时基于内存&#xff0c;读写数据不需要磁盘I/O&#xff0c;所以速…

【江科协-STM32】5. 输出比较

1. 输出比较简介 OC(Output Compare)输出比较。 输出比较可以通过CNT&#xff08;CNT计数器&#xff09;与CCR寄存器值的关系&#xff0c;来对输出电平进行置1、置0或翻转的操作&#xff0c;用于输出一定频率和占空比的PWM波形。 :::tip CNT计数器是正向计数器。它只能正向累…

轻量级日志管理平台Grafana Loki

文章目录 轻量级日志管理平台Grafana Loki背景什么是Loki为什么使用 Grafana Loki&#xff1f;架构Log Storage Grafana部署使用基于 Docker Compose 安装 LokiMinIO K8s集群部署Loki采集Helm 部署方式和案例 参考 轻量级日志管理平台Grafana Loki 背景 在微服务以及云原生时…

使用 Postman 访问 Keycloak 端点

1. 引言 在本教程中&#xff0c;我们将首先快速回顾 OAuth 2.0、OpenID 和 Keycloak。然后&#xff0c;我们将了解 Keycloak REST API 以及如何在 Postman 中调用它们。 2. OAuth 2.0 OAuth 2.0 是一个授权框架&#xff0c;它允许经过身份验证的用户通过令牌向第三方授予访问…

WEB1~6通杀

##解题思路 这六道题&#xff0c;通杀了&#xff0c;只因为是PHP的特性 来&#xff0c;看web6&#xff0c;过滤最复杂的正则&#xff0c;而且不能解析成大于999的值&#xff0c;但是&#xff0c;php是弱类型的语言&#xff0c;我只要输入任意字符数字&#xff0c;最终值就为0&…

I2C协议简介:串行通信的关键技术

目录 一、总线通信基本概念 二、I2C总线协议介绍 1. 时序图解析 &#xff08;1&#xff09;起始信号 &#xff08;2&#xff09;应答信号 &#xff08;3&#xff09;终止信号 &#xff08;4&#xff09;设备地址 &#xff08;5&#xff09;I2C传输方法 ​编辑 &#…

第二十四:5.2【搭建 pinia 环境】axios 异步调用数据

第一步安装&#xff1a;npm install pinia 第二步&#xff1a;操作src/main.ts 改变里面的值的信息&#xff1a; <div class"count"><h2>当前求和为&#xff1a;{{ sum }}</h2><select v-model.number"n">  // .number 这里是…

Web漏洞——命令注入漏洞学习

一、什么是命令注入漏洞 想象一下&#xff0c;你家有一个智能管家机器人。这个机器人可以通过你发出的指令来完成各种任务&#xff0c;比如“请打开电视机、播放音乐、开灯等等”。你只需要对它说&#xff1a;“请打开电视”&#xff0c;它就会去执行这个任务。但是&#xff0…

大模型自动提示优化(APO)综述笔记

自大型语言模型&#xff08;LLMs&#xff09;出现以来&#xff0c;提示工程一直是各种自然语言处理&#xff08;NLP&#xff09;任务中激发期望响应的关键步骤。然而&#xff0c;由于模型的快速进步、任务的多样性和相关最佳实践的变化&#xff0c;提示工程对最终用户来说仍然是…

快速排序(详解)c++

快速排序(Quick Sort)&#xff0c;既然敢起这样的名字&#xff0c;说明它是常⻅排序算法中较为优秀的。事实上&#xff0c;在很多情况下&#xff0c;快排确实是效率较⾼的算法&#xff1b;c的排序是以快排为基础&#xff0c;再加上堆排和插入排序做优化实现的&#xff0c;我们这…

【工具变量】公司企业数字领导力(2004-2023年)

数据简介&#xff1a;企业数字化领导力是指在数字经济时代&#xff0c;领导者通过战略性地使用数字资产、引领组织变革&#xff0c;使企业在数字化环境中获得持续成功的能力。对于上市公司而言&#xff0c;这种领导力尤为重要&#xff0c;因为它直接关系到企业的战略方向、市场…

浅谈新能源汽车充电桩建设问题分析及解决方案

摘要&#xff1a; 在全球倡导低碳减排的大背景下&#xff0c;新能源成为热门行业在全球范围内得以开展。汽车尾气排放会在一定程度上加重温室效应&#xff0c;并且化石能源的日渐紧缺也迫切对新能源汽车发展提出新要求。现阶段的新能源汽车以电力汽车为主&#xff0c;与燃油汽…

seacmsv9报错注入

1、seacms的介绍 ​ seacms中文名&#xff1a;海洋影视管理系统。是一个采用了php5mysql架构的影视网站框架&#xff0c;因此&#xff0c;如果该框架有漏洞&#xff0c;那使用了该框架的各个网站都会有相同问题。 2、源码的分析 漏洞的部分源码如下&#xff1a; <?php …

python学习四

python运算符与表达式 表达式: Python中的表达式是一种计算结果的代码片段。它可以包 含变量、运算符、常数和函数调用,用于执行各种数学、逻辑 和功能操作 算术运算符: 比较(关系)运算符: 赋值运算符: 逻辑运算符: 位运算符: 成员运算符: 身份运算符 <

Nginx面试宝典【刷题系列】

文章目录 1、nginx是如何实现高并发的&#xff1f;2、Nginx如何处理HTTP请求&#xff1f;3、使用“反向代理服务器”的优点是什么?4、列举Nginx服务器的最佳用途。5、Nginx服务器上的Master和Worker进程分别是什么?6、什么是C10K问题?7、请陈述stub_status和sub_filter指令的…

数字可调控开关电源设计(论文+源码)

1 设计要求 在本次数字可调控开关电源设计过程中&#xff0c;对关键参数设定如下&#xff1a; &#xff08;1&#xff09;输入电压&#xff1a;DC24-26V,输出电压&#xff1a;12-24&#xff08;可调&#xff09;&#xff1b; &#xff08;2&#xff09;输出电压误差&#xf…

清华大学《AIGC发展研究3.0》

大家好&#xff0c;我是吾鳴。 AIGC已经爆火好长一段时间了&#xff0c;特别是DeepSeek的爆火&#xff0c;直接让很多之前没有体会过推理模型的人可以免费的使用上推理模型&#xff0c;同时DeepSeek产品形态也是全球首创&#xff0c;就是直接把AI的思考过程展示给你看&#xff…