DeepSeek v3 技术报告阅读笔记

在这里插入图片描述

  1. 本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文
  2. 本文不包括基础的知识点讲解,为笔记/大纲性质而非教程,建议阅读技术报告原文
  3. 交流可发送至邮箱 henryhua0721@foxmail.com

在这里插入图片描述
在这里插入图片描述

架构核心

核心:

  • MLA 高效推理
  • DeepSeekMOE 更经济的训练
  • MTP 提高模型性能

架构上看主要改进在于Attention层和FFN层:
在这里插入图片描述

MLA

参考deepseekv2的technical report内容

KV cache

类GPT模型的decoder架构在推理时一个个token输出,每一次输出都作为下一次输出的输入,带来大量重复计算。KV cache空间换时间,降低推理复杂度

w/o KV cache:

每一次推理计算attention时,当前token前的token QK计算在前面步骤被重复计算,结果可以使用KV cache存储而非再次计算。
在这里插入图片描述
huggingface/transformers/gpt2的KV cache代码:

        if layer_past is not None:
            past_key, past_value = layer_past
            key_states = torch.cat((past_key, key_states), dim=-2)
            value_states = torch.cat((past_value, value_states), dim=-2)

        if use_cache is True:
            present = (key_states, value_states)
        else:
            present = None

KV cache存在的问题:对GPU memory的需求巨大
解决办法:

  • Quantization
  • (Deepseek)减小输入以减小cache

Letent KV

在这里插入图片描述
使用letent KV替代传统KV存储到cache中。对kv压缩
在这里插入图片描述

  • 传统attention:k = Wh / v = Wh
  • latent KV:使用更小的letent变量c作为中间变量,可以表示 k/v,存储cache

在推理的时候本质上不需要计算出单独的k和v变量:
在这里插入图片描述

计算q*kT的时候可以使用线性代数运算使得不需要单独提出参数矩阵,而是可以化为大的参数矩阵(图中 W^ QT 和 W^ UK 相乘)

同样对key压缩
在这里插入图片描述

Decouple RoPE

参考:Multi-Head Latent Attention: Boosting Inference Efficiency
RoPE的引入导致q和k都被R矩阵加权,对KV cache造成的损害:
在这里插入图片描述

解决办法:引入新的multi-head queries(和不做低秩分解的q相同)
在这里插入图片描述

  • 每个 attn 层额外增加 multi-head queries q^R
  • 添加共享的key用于 k^R
  • 再将 q^ R 和低秩分解的 q、k^R 和低秩分解的k concate起来

huggingface discussion上似乎提供了更sufficient方法:将rope part和none-rope part进行sum up而非concatenate
(链接找不到了qwq)

在这里插入图片描述

KV cache存储的:

  • c^KV
  • k^R

DeepSeekMOE

MOE

大语言模型主要的计算量集中在attention层,参数量集中在FFN层。
MoE的本质是将FFN分组。好处在于模型易于scale up以及降低cost。
在这里插入图片描述
Gate将输入计算前往各个FFN分组的概率:

  • Dense MoE:计算每个分支的概率,并进行加权
  • Sparse MoE:取概率top-k

每个expert是两个MLP层。
传统MoE的问题:学习知识重合、expert之间无法区分 -> DeepSeekMOE

Load Balance

传统MOE训练出现马太效应:某个单个expert训练较好,引导gate划分更多token给它训练,导致单个expert过拟合、其他expert欠拟合。

Load balance的解决办法:

  • (Switch transformer) loss control:在损失函数中制约
  • (DeepSeek) loss free:添加bias

在这里插入图片描述

DeepSeekMOE

  • 划分更小的exert
  • 设置某些共享expert学习常识

在这里插入图片描述

  • Fine-grained Expert Segmentation
    • N expert -> 2N expert,top2 -> top4。
    • 降低每个expert(两层MLP)中间层宽度,使得model整体参数量没有变大,但是减小了模型variance
  • Shared Expert Isolation:shared expert
    • 具有error correction机制:大多数问题shared expert会回答(通),其他expert(专)进行correct

load balance

  • 添加bias
    在这里插入图片描述

通过添加bias手动提高softmax后某些expert的概率。在训练中,观察后不断进行调整(但是不属于loss的范畴)

  • sequence-wise balance loss(区别于传统的token-wise)
    在这里插入图片描述
  • Node-limited Routing:训练时限制每个token只送到M个nodes中,降低通信成本。
  • No token-dropping:token-dropping是对于load balance比较高的expert drop掉新的token input(直接过残差层不经过FFN)。这里不使用,因为上面的方法已解决load balance。

MTP

Deepseek MTP参考:

  1. Meta MTP
  2. EAGLE
    在这里插入图片描述

当前language model的训练方式导致的问题:

  • teaching force导致training每次输入的都是perfect content
  • NTP导致近视👓,planning能力差
  • 每次只预测下一个token,training signal较弱

-> 一次预测多个token :MTP

Meta MTP

将head分组,每个head负责一个token
在这里插入图片描述

  • training singal更强(每一层都有反馈)
  • 一次预测4个token,加强planning能力
  • 缓解teaching force问题,不再过于local

但是并行heads违背了auto regression的想法,打破前后依赖 -> EAGLE(使用auto regression heads)

Speculative Decoding

LLM inference的问题 -> Slow

  • KV cache
  • speculative decoding
    • quick guess(小模型,快但精度低)
    • cheap verification(大模型,慢但精度高)

实现方式

  • independent:两个LLM一大一小
    • 简化过程:小LM生成sequence后给大LM计算每个token概率,若一致则accept,否则从reject token开始重新生成
    • 实际上使用小LM加速大LM生成过程,大LM生成过程中实时纠错
      在这里插入图片描述
  • self:只借助大LLM中间某些head实现
    • Medusa / EAGLE 模型
      在这里插入图片描述

DeepSeek MTP

使用类似EAGLE的casual arc(而不是parallel)替换META MTP中的实现:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/969502.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jemalloc 5.3.0的base模块的源码及调用链使用场景的详细分析

一、背景 这篇博客,我们继续之前的 由jemalloc 5.3.0初始化时的内存分配的分析引入jemalloc的三个关键概念及可借鉴的高性能编码技巧-CSDN博客 博客里对初始化分配逻辑进行分析,已经涉及到了jemalloc 5.3.0里的非常重要的base模块的一部分逻辑&#xff…

从零搭建微服务项目(第5章——SpringBoot项目LogBack日志配置+Feign使用)

前言: 本章主要在原有项目上添加了日志配置,对SpringBoot默认的logback的配置进行了自定义修改,并详细阐述了xml文件配置要点(只对日志配置感兴趣的小伙伴可选择直接跳到第三节),并使用Feign代替原有RestT…

2024最新版JavaScript逆向爬虫教程-------基础篇之Chrome开发者工具学习

目录 一、打开Chrome DevTools的三种方式二、Elements元素面板三、Console控制台面板四、Sources面板五、Network面板六、Application面板七、逆向调试技巧 7.1 善用搜索7.2 查看请求调用堆栈7.3 XHR 请求断点7.4 Console 插桩7.5 堆内存函数调用7.6 复制Console面板输出 工…

Elasticsearch+Logstash+Kibana可视化集群部署

文章目录 1.组件介绍简述2.集群规划3.Es组件部署4.Logstash组件部署5.Kibana组件部署6.Kibana的基础使用 1.组件介绍简述 Elasticsearch:开源实时分布式搜索和分析引擎,支持大规模数据存储和高吞吐量,提供丰富的搜索功能和可扩展性。 Logsta…

08模拟法 + 技巧 + 数学 + 缓存(D3_数学)

目录 1. 多数元素 1.1. 题目描述 1.2. 解题思路 方法一:哈希表 方法二:排序 方法三:随机化 方法四:分治 方法五:Boyer-Moore 投票算法 2. 按规则计算统计结果 2.1. 题目描述 2.2. 解题思路 3. 整数拆分 3.…

基于IOS实现各种倒计时功能

ZJJTimeCountDown 效果图 特点: 1、已封装,支持自定义 2、支持文本各种对齐模式 3、各种效果都可以通过设置 ZJJTimeCountDownLabel 类属性来实现 4、支持背景图片设置 5、分文本显示时间时,支持设置文字大小,来动态设置每个文本…

【TS合成MP4】你怎么专打裂开的切片呀

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 前言TS与MP4格式概述TS与MP4格式概述TS合成MP4的需求背景TS合成MP4的方法概述 合并方法…

【动手学强化学习】01初探强化学习

文章目录 什么是强化学习强化学习解决的问题强化学习的独特性 什么是强化学习 强化学习是机器通过与环境交互来实现目标的计算方法。智能体与环境的交互方式如图所示,在每一轮交互中,智能体根据感知状态经过自身计算给出本轮动作,将其作用于…

C++,STL容器适配器,priority_queue:优先队列深入解析

文章目录 一、容器概览与核心特性核心特性速览二、底层实现原理1. 二叉堆结构2. 容器适配器架构三、核心操作详解1. 容器初始化2. 元素操作接口3. 自定义优先队列四、实战应用场景1. 任务调度系统2. 合并K个有序链表五、性能优化策略1. 底层容器选择2. 批量建堆优化六、注意事项…

duckdb导出Excel和导出CSV速度测试

运行duckdb数据库 D:>duckdb v1.2.0 5f5512b827 Enter “.help” for usage hints. Connected to a transient in-memory database. Use “.open FILENAME” to reopen on a persistent database. 生成模拟数据,10个列,100万行数据; --…

k8s集群离线安装kuberay operator

1,安装方式 采用helm安装方式,首先下载对应的helm chart,这里采用v1.2.2版本,下载地址: https://github.com/ray-project/kuberay-helm/releases/tag/kuberay-operator-1.2.2 2,解压并修改镜像源 由于是在内网环境下搭建&#…

结构形模式---适配器模式

适配器模式是一种结构形模式,主要用于不同在两个互不兼容的类或者库之间增加一个转换。 适配器模式的实现由两种方式,一种是适配器对象,一种是适配器类。 适配器是对象是将第三方接口通过对象调用引入到适配器中。 适配器类是通过多继承将…

面向SDV的在环测试深度解析——概述篇

1.引言 在汽车行业迈向软件定义汽车(SDV)的进程中,传统的硬件在环(HIL)测试方案在面对新的技术架构和需求时逐渐显露出局限性。一方面,现代汽车的电子电气架构日益复杂,高性能计算(…

2025年智慧城市解决方案下载:AI-超脑中台,体系架构整体设计

2025年,随着人工智能、物联网、大数据等新兴技术的深度融合,智慧城市解决方案正迈向更高层次的智能化和协同化阶段。其中,AI-超脑中台作为核心架构的一部分,为城市智能化运行提供了强大支撑。 智慧城市最新解决方案,标…

LINUX常用命令学习

查看系统版本 使用hostnamectl命令检查。hostnamectl显示了CentOS的版本以及操作系统的相关信息,非常方便 设置linux机器别名称 hostnamectl set-hostname 机器别名 --static 华为云 centos 命令:lsb_release -a linux:cat /proc/version 查看进程路…

RK3588 Linux平台部署DeepSeek模型教程

更多内容可以加入Linux系统知识库套餐(教程+视频+答疑) 文章目录 一、下载rknn-llm 和 deepseek模型二、RKLLM-Toolkit 安装2.1 安装 miniforge3 工具2.2 下载 miniforge3 安装包2.3 安装 miniforge3 三、创建 RKLLM-Toolkit Cond…

Azure从0到1

我能用Azure做什么? Azure提供100多种服务,能够从在虚拟机上运行现有应用程序到探索新的软件范式,如智能机器人和混合现实。许多团队开始通过将现有应用程序移动到在Azure中运行的虚拟机(VM)来探索云。将现有应用程序迁移到虚拟机是一个良好的开端,但云不仅仅是运行虚拟…

智慧城市V4系统小程序源码独立版全插件全开源

智慧城市V4系统小程序源码:多城市代理同城信息服务的全域解决方案 在数字化浪潮的推动下,智慧城市已成为全球发展的核心战略。作为这一领域的革新者,智慧城市V4系统小程序源码凭借其多城市代理同城信息服务能力与多商家营销功能,…

JAVA-Lambda表达式(高质量)

要了解Lambda表达式,首先需要了解什么是函数式接口,函数式接口定义:一个接口有且只有一个抽象方法 。 一、函数式接口 1.FunctionalInterger 注意: 1. 如果一个接口只有一个抽象方法,那么该接口就是一个函数式接口 2. 如果我们…

机器视觉--Halcon变量的创建与赋值

一、引言 在机器视觉领域,Halcon 作为一款强大且功能丰富的软件库,为开发者提供了广泛的工具和算子来处理各种复杂的视觉任务。而变量作为程序中存储和操作数据的基本单元,在 Halcon 编程中起着至关重要的作用。正确地创建和赋值变量是编写高…