【AI学习】关于 DeepSeek-R1的几个流程图

遇见关于DeepSeek-R1的几个流程图,清晰易懂形象直观,记录于此。

流程图一

来自文章《Understanding Reasoning LLMs》,
文章链接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlag=af07b1a0954d90469bc6f6584075da3b

在这里插入图片描述
《以 DeepSeek R1 为例学习“推理型大语言模型》是翻译版。摘录其中对流程的描述:

  1. DeepSeek-R1-Zero
    该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习(RL)训练,并使用了两类奖励作为回报信号。由于没有进行监督微调(SFT),也就是常见“RLHF”流程中的 SFT 步骤被跳过,所以他们把这称为“冷启动”的方式(Cold Start)。
  2. DeepSeek-R1
    这是 DeepSeek 的主力推理模型,也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成,性能优于“冷启动”的 R1-Zero。
  3. DeepSeek-R1-Distill
    他们还用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型,以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”,但并不是传统意义上的知识蒸馏,更像是用大模型的输出数据去监督微调(SFT)小模型(包括 Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

流程图二

下面的流程图非常详细,出处不详
在这里插入图片描述

Hugging Face的复刻流程图

Hugging Face推出Open R1,这是对DeepSeek-R1的开源复现项目,复刻流程如下:
在这里插入图片描述

图解DeepSeek-R1

来自@爱可可-爱生活
【一图解读DeepSeek-R1】
穿越DeepSeek的技术进化史,让我们看到了一个令人振奋的AI发展轨迹:从无监督起步,到结构化优化,再到轻量级蒸馏,每一步都彰显着AI大众化的曙光。
DeepSeek-R1-Zero像个天赋异禀的孩子,通过GRPO这个高效的强化学习框架,自主掌握了思考的艺术。它展现出自反思和结构化思维的能力,虽然初期表达还略显生涩,但这正是“会走”之前必经的阶段。
随后,DeepSeek-R1借助精心设计的Chain-of-Thought数据集进行“冷启动”训练,就像接受了系统的教育,不仅改善了表达,更习得了清晰的推理步骤。通过强化学习和巧妙的奖励机制,它在数学、编程等领域的表现更趋近人类思维。
最令人瞩目的是蒸馏技术的突破它让我们看到了AI普及的希望。就像优秀导师能让学生青出于蓝,DeepSeek团队成功将大模型的智慧浓缩进更小的架构(如Qwen-7B和Llama-8B),几乎不损失性能。这意味着,高质量的AI助手将可以运行在更普及的设备上,真正服务于图书推荐、在线辅导等实际应用场景。
在这里插入图片描述

通俗解读 DeepSeek-R1 训练过程

在这里插入图片描述

来自@爱可可-爱生活
【通俗解读 DeepSeek-R1 训练过程】
DeepSeek-R1 通过创新性地结合强化学习和监督学习,以低成本实现了与现有顶尖模型相当的推理能力,挑战了传统AI训练范式,并引发了对GPU市场未来需求的重新思考。

  • DeepSeek-R1的成本效益挑战英伟达的霸权地位: DeepSeek-R1 即使GPU资源有限,也能以极低的成本达到与OpenAI模型相当的性能,导致英伟达股价大幅下跌。这挑战了以往认为大规模GPU资源对于高级AI开发至关重要的传统观点。
  • 杰文斯悖论与GPU需求的未来: 文章探讨了杰文斯悖论的适用性,认为AI训练效率的提高可能导致GPU的整体需求增加,而不是减少。然而,文章也提出了反驳意见,认为转向微调和开源模型可能会降低对高端GPU的需求。
  • DeepSeek-R1非常规的训练方法: DeepSeek-R1采用了一种与传统的监督微调方法不同的新训练方法。它广泛利用强化学习(RL),首先使用DeepSeek-R1-Zero(纯RL),然后结合RL和监督微调的多阶段过程进行改进。
  • DeepSeek-R1-Zero:用于推理的纯强化学习: DeepSeek-R1-Zero作为DeepSeek-R1的前身,展示了纯强化学习在增强LLM推理能力方面的潜力,在各种基准测试中取得了最先进的(SOTA)性能。这与直觉相反,因为强化学习通常被认为在这种用途上不如监督学习有效。
  • DeepSeek-R1的多阶段训练过程: DeepSeek-R1的训练包括多阶段过程:冷启动微调以提高可读性,面向推理的强化学习,使用合成和非推理数据集进行微调,最后是结合人类偏好的强化学习。这种分层方法对模型的成功至关重要。
  • 强化学习在推理中的局限性: 作者对RL在提高一般推理能力方面的无限潜力表示怀疑,认为它可能主要增强对推理模式的记忆,而不是真正的理解。这意味着仅通过强化学习所能实现的性能提升可能存在上限。
  • 通过强化学习生成合成数据集: 一个关键创新是利用强化学习训练的模型生成大型合成推理数据集,然后用于监督微调。这巧妙地利用了RL和监督学习的优势。

思考:

  • 强化学习的潜力与局限: 强化学习在特定任务上的高效性令人印象深刻,但其在通用推理能力上的提升可能存在瓶颈,需要结合其他方法才能发挥最大效用。
  • 数据合成与模型训练: 利用强化学习模型生成合成数据,再结合监督学习进行微调,是一种值得借鉴的有效策略,可以降低数据标注成本并提升模型性能。
  • 多阶段训练的价值: DeepSeek-R1的多阶段训练过程体现了模型训练策略的复杂性和精细化,这对于构建高性能模型至关重要。

‘The Layman’s Introduction to DeepSeek-R1 Training’
medium.com/thoughts-on-machine-learning/the-laymans-introduction-to-deepseek-r1-training-80d8ff7a887d

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967164.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vs封装dll 给C#使用

一,vs创建控制台应用 创建控制台应用得好处时,我们可以自己测试接口,如果接口没有问题,改成dll重新编译一遍就可以。 二, 创建一个c 类,将所需提供得功能 封装到类中。 这样可以将 所有功能,进…

ubuntu20使用tigervnc远程桌面配置记录

一、安装tigervnc sudo apt install tigervnc-common sudo apt install tigervnc-standalone-server二、增加配置文件 安装完后新增配置文件:vim ~/.vnc/xstartup #!/bin/sh #Uncomment the following two lines for normal desktop: #unset SESSION_MANAGER #ex…

DeepSeek使用技巧大全(含本地部署教程)

在人工智能技术日新月异的今天,DeepSeek 作为一款极具创新性和实用性的 AI,在众多同类产品中崭露头角,凭借其卓越的性能和丰富的功能,吸引了大量用户的关注。 DeepSeek 是一款由国内顶尖团队研发的人工智能,它基于先进…

网络原理之HTTPS(如果想知道网络原理中有关HTTPS的知识,那么只看这一篇就足够了!)

前言:随着互联网安全问题日益严重,HTTPS已成为保障数据传输安全的标准协议,通过加密技术和身份验证,HTTPS有效防止数据窃取、篡改和中间人攻击,确保通信双方的安全和信任。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要…

MySQL 8.0.41 终端修改root密码

1.在 MySQL 命令行中,运行以下命令修改密码 ALTER USER rootlocalhost IDENTIFIED BY new_password; 其中,new_password替换为你想要设置的新密码 2.退出 MySQL终端,重新打开,使用新密码进入,修改成功

TCP服务器与客户端搭建

一、思维导图 二、给代码添加链表 【server.c】 #include <stdio.h> #include <sys/socket.h> #include <sys/types.h> #include <fcntl.h> #include <arpa/inet.h> #include <unistd.h> #include <stdlib.h> #include <string.…

JVM春招快速学习指南

1.说在前面 在Java相关岗位的春/秋招面试过程中&#xff0c;JVM的学习是必不可少的。本文主要是通过《深入理解Java虚拟机》第三版来介绍JVM的学习路线和方法&#xff0c;并对没有过JVM基础的给出阅读和学习建议&#xff0c;尽可能更加快速高效的进行JVM的学习与秋招面试的备战…

kafka服务端之副本

文章目录 概述副本剖析失效副本ISR的伸缩LWLEO与HW的关联LeaderEpoch的介入数据丢失的问题数据不一致问题Leader Epoch数据丢失数据不一致 kafka为何不支持读写分离 日志同步机制可靠性分析 概述 Kafka中采用了多副本的机制&#xff0c;这是大多数分布式系统中惯用的手法&…

aarch64 Ubuntu20.04 安装docker

安装 docker 依赖项&#xff1a;sudo apt-get update sudo apt-get install apt-transport-https ca-certificates curl gnupg lsb-release添加 Docker GPG 密钥&#xff1a;curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyr…

校园网规划方案

个人博客站—运维鹿: http://www.kervin24.top CSDN博客—做个超努力的小奚&#xff1a; https://blog.csdn.net/qq_52914969?typeblog 本课程设计参考学习计算机网络 思科Cisco Packet Tracer仿真实验_哔哩哔哩_bilibili, 文章和pkg详见个人博客站: http://www.kervin24.to…

语义分割文献阅读——SETR:使用Transformer从序列到序列的角度重新思考语义分割

目录 摘要 Abstract 1 引言 2 Vision Transformer(ViT) 2.1 图片预处理&#xff1a;分块和降维 2.2 Patch Embedding 2.3 位置编码 2.4 Transformer Encoder的前向过程 3 SETR 3.1 图像序列化处理 3.2 Transformer 3.3 解码器 总结 摘要 本周阅读的论文题目是《R…

Mac上搭建k8s环境——Minikube

1、在mac上安装Minikube可执行程序 brew cask install minikub 安装后使用minikube version命令查看版本 2、安装docker环境 brew install --cask --appdir/Applications docker #安装docker open -a Docker #启动docker 3、安装kubectl curl -LO https://storage.g…

5. 【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--微服务基础工具与技术--Nacos

一、什么是Nacos Nacos 是阿里巴巴开源的一款云原生应用基础设施&#xff0c;它旨在简化微服务架构中服务治理和配置管理的复杂性。通过 Nacos&#xff0c;服务在启动时可以自动注册&#xff0c;而其他服务则可以通过名称来查找并访问这些注册好的实例。同时&#xff0c;Nacos…

【后端开发】系统设计101——Devops,Git与CICD,云服务与云原生,Linux,安全性,案例研究(30张图详解)

【后端开发】系统设计101——Devops&#xff0c;Git与CICD&#xff0c;云服务与云原生&#xff0c;Linux&#xff0c;安全性&#xff0c;案例研究&#xff08;30张图详解&#xff09; 文章目录 1、DevopsDevOps与SRE与平台工程的区别是什么&#xff1f;什么是k8s&#xff08;Ku…

100天精通Python(爬虫篇)——第113天:爬虫基础模块之urllib详细教程大全

文章目录 1. urllib概述2. urllib.request模块 1. urllib.request.urlopen()2. urllib.request.urlretrieve()3. urllib.request.Request()4. urllib.request.install_opener()5. urllib.request.build_opener()6. urllib.request.AbstractBasicAuthHandler7. urllib.request.…

win32汇编环境,结构体的使用示例一

;运行效果 ;win32汇编环境,结构体的使用示例一 ;举例说明结构体的定义&#xff0c;如何访问其中的成员&#xff0c;使用assume指令指向某个结构体&#xff0c;利用偏移得到成员值等 ;直接抄进RadAsm可编译运行。重要部分加备注。 ;下面为asm文件 ;>>>>>>>…

opencv:基于暗通道先验(DCP)的内窥镜图像去雾

目录 项目大体情况 暗通道先验&#xff08;Dark Channel Prior, DCP&#xff09;原理 项目代码解析 该项目是由我和我导师与舟山某医院合作开发的一个基于暗通道先验&#xff08;Dark Channel Prior&#xff0c;DCP&#xff09;的内窥镜图像去雾方法。具体来说&#xff0c;…

Java 大视界 -- Java 大数据在智能政务中的应用与服务创新(78)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

【DeepSeek】DeepSeek概述 | 本地部署deepseek

目录 1 -> 概述 1.1 -> 技术特点 1.2 -> 模型发布 1.3 -> 应用领域 1.4 -> 优势与影响 2 -> 本地部署 2.1 -> 安装ollama 2.2 -> 部署deepseek-r1模型 1 -> 概述 DeepSeek是由中国的深度求索公司开发的一系列人工智能模型&#xff0c;以其…

数据库,数据表的增删改查操作

一.数据库的基本操作 &#xff08;1&#xff09;创建数据库 创建数据库就是在数据库系统中划分一块存储数据的空间&#xff0c;方便数据的分配、放置和管理。在MySQL中使用CREATE DATABASE命令创建数据库&#xff0c;语法格式如下: CREATE DATABASE数据库名称; 注&#xff1a…