DeepSeek后训练:监督微调和强化学习

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

  • DeepSeek大模型技术系列十二
    • DeepSeek大模型技术系列十二》DeepSeek后训练:监督微调和强化学习
      • 更多技术内容
  • 总结

DeepSeek大模型技术系列十二

DeepSeek大模型技术系列十二》DeepSeek后训练:监督微调和强化学习

在这里插入图片描述
3.4 DeepSeek后训练
在深度学习模型的研发与优化进程中,后训练阶段是赋予模型更强实用性和适应性的关键环节。对于DeepSeek-V3模型而言,后训练阶段的监督微调与强化学习等操作,如同为模型进行精细打磨和能力拓展,使其能够更好地应对复杂多样的实际任务。监督微调通过精心整理和处理不同领域的数据,让模型学习到更贴合实际应用的知识和技能;强化学习则借助独特的奖励模型和优化策略,引导模型不断提升性能和表现。接下来将深入探讨DeepSeek-V3在后训练阶段所采取的具体策略和方法,以及这些措施如何助力模型实现性能的飞跃。
3.4.1 监督微调
在监督微调阶段,为了让DeepSeek-V3模型能更好地适应多样化的实际应用场景,对指令调整数据集进行了精心整理。这个数据集规模庞大,包含了150万个实例,且覆盖了多个不同领域。由于各个领域的特性和需求各异,因此针对不同领域采用了特定的数据创建方法。
1.推理数据
推理相关的数据集涵盖了数学、代码竞赛问题以及逻辑谜题等内容。在生成这些数据时,借助了内部的DeepSeek-R1模型。DeepSeek-R1模型生成的数据具有较高的准确性,但也存在一些明显的不足,比如生成的答案常常过度思考,导致表述过于复杂;格式不够规范,影响可读性;长度过长,增加了信息提取的难度。因此,面临的挑战是如何在DeepSeek-R1数据的高准确性与常规格式推理数据所具备的清晰简洁之间找到平衡。
为解决这一问题,首先针对代码、数学或通用推理等特定领域,开发了一个专家模型。该专家模型的训练采用了监督微调(SFT)和强化学习(RL)相结合的流程。这个专家模型在后续的工作中扮演着为最终模型生成数据的重要角色。
在训练过程中,针对每个实例会生成两种不同类型的SFT样本。第一种样本是将问题与其原始答案按照<问题,原始答案>的格式进行配对。第二种样本则更为复杂,它在问题和DeepSeek-R1生成的答案基础上,加入了精心设计的系统提示,格式为<系统提示,问题,R1答案>。系统提示中包含了引导模型生成带有反思和验证机制答案的指令,其目的是让模型生成的答案更加完善和可靠。
在强化学习阶段,模型通过高温采样生成答案。在这个过程中,即使没有明确的系统提示,模型也能够融合DeepSeek-R1生成的数据模式以及原始数据中的模式。经过数百次的RL步骤训练后,中间的RL模型逐渐学会了融入DeepSeek-R1的模式,这种学习成果能够战略性地提升模型的整体性能。
在完成RL训练阶段后,采用拒绝采样的方式,以专家模型作为数据生成源,为最终模型筛选高质量的SFT数据。通过这种方式筛选出的数据,既保留了DeepSeek-R1的优势,又能生成简洁有效的答案,为最终模型的训练提供了优质的数据基础。
2.非推理数据
对于非推理数据,像创意写作、角色扮演和简单问答等类型,采用了不同的处理方式。利用DeepSeek-V2.5模型来生成答案,然后邀请专业的人工标注员对生成的数据进行验证,确保数据的准确性和正确性。人工标注员凭借专业知识和经验,仔细检查数据是否符合相应的要求,将存在错误或不合理的部分进行修正或剔除,从而保证非推理数据的质量。
3.SFT设置
利用整理好的SFT数据集对DeepSeek-V3基础模型进行了两轮微调。在微调过程中,采用余弦退火学习率调度策略。学习率从一个较高的初始值开始,随着训练的推进逐渐降低。在训练过程中,每个单独的序列由多个样本打包组成。为了避免样本之间相互干扰,采用了样本掩码策略,确保这些示例在训练过程中相互隔离,彼此不可见。这样可以让模型专注于每个样本自身的特征和规律,提高微调的效果,使DeepSeek-V3模型能够更好地学习到数据中的有效信息,从而提升在各种任务中的表现。

3.4.2 强化学习
在深度学习领域,强化学习作为提升模型性能和适应性的关键技术手段,对于DeepSeek-V3模型的优化起着至关重要的作用。为了使模型能够在复杂多变的任务中展现出卓越的表现,在强化学习过程中精心设计并采用了一系列有效的策略和方法。其中,奖励模型的构建以及组相对策略优化技术的应用,是提升模型学习效果和性能的重要组成部分。下面将详细介绍DeepSeek-V3在强化学习中所采用的奖励模型和组相对策略优化的具体内容。
1.奖励模型
在强化学习的过程中,采用了两种不同类型的奖励模型(RM),即基于规则的奖励模型和基于模型的奖励模型,以此来引导模型的学习方向,提升模型的性能。
1)基于规则的RM
对于那些能够运用特定规则进行验证的问题,采用基于规则的奖励系统来给予模型反馈。例如在数学问题中,许多问题都有确切的结果。为了便于规则验证,要求模型以特定格式(如框内)给出最终答案。这样一来,就可以依据既定规则判断答案的正确性。又比如在处理LeetCode问题时,能够借助编译器依据测试用例生成反馈。只要条件允许,就优先使用基于规则的验证方式,因为这种方式可靠性更高,不容易被人为操纵或利用,能够为模型提供更加稳定和准确的反馈,有助于模型学习到正确的知识和模式。
2)基于模型的RM
对于那些具有自由格式标准答案的问题,依靠奖励模型来判断模型给出的回答是否符合预期的标准答案。而对于像创意写作这类没有明确标准答案的问题,奖励模型则根据问题以及相应的答案作为输入,从而给出反馈。这个奖励模型是基于DeepSeek-V3的监督微调(SFT)检查点进行训练的。为了进一步增强奖励模型的可靠性,专门构建了偏好数据。这些偏好数据不仅提供最终的奖励信息,还包含得出奖励所依据的思维链。通过这种方式,能够有效降低在特定任务中奖励作弊的风险,使奖励模型给出的反馈更加真实、合理,从而更好地引导模型学习。
2.组相对策略优化
与DeepSeek-V2的做法类似,DeepSeek-V3在强化学习中采用了组相对策略优化(Group Relative Policy Optimization,GRPO)技术。GRPO摒弃了传统与策略模型大小相同的评论家模型,而是从组分数中估计基线。具体运作方式如下:对于每个问题,GRPO从旧策略模型中采样一组输出。然后,通过最大化特定目标来优化策略模型。在强化学习过程中,将来自编码、数学、写作、角色扮演和问答等不同领域的提示纳入其中。这种做法有诸多好处,一方面能使模型生成的结果更贴合人类偏好,让模型在与人类交互时表现得更加自然和符合预期;另一方面,在基准测试中,尤其是在可用监督微调数据有限的场景下,能够显著提升模型的性能。通过多领域提示的训练,模型能够学习到更广泛的知识和模式,增强对不同类型任务的适应性和处理能力,从而在各种实际应用场景中展现出更好的表现。

更多技术内容

更多技术内容可参见
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。
全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战 视频教程【陈敬雷】
视频特色:把目前互联网热门、前沿的项目实战汇聚一堂,通过真实的项目实战课程,让你快速成为算法总监、架构师、技术负责人!包含了推荐系统、智能问答、人脸识别等前沿的精品课程,下面分别介绍各个实战项目:
1、推荐算法系统实战
听完此课,可以实现一个完整的推荐系统!下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目!
2、智能问答/对话机器人实战
由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程!
3、人脸识别实战
从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向,从理论到源码实战、再到服务器操作给大家深度讲解!

自然语言处理NLP原理与实战 视频教程【陈敬雷】
视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

人工智能《分布式机器学习实战》 视频教程【陈敬雷】
视频特色:视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)。

上一篇:DeepSeek大模型技术系列七》DeepSeek 突破!NSA——DeepSeek 原生稀疏注意力开启硬件适配与可训练新时代
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/979336.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯好题推荐----高精度乘法

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 题目链接 P1303 A*B Problem - 洛谷https://www.luogu.com.cn/problem/P1303 解题思路 这道题的思路&#xff0c;其实和前面差不多&#xff0c;我们主要说一下最为关键的部分&…

【实战 ES】实战 Elasticsearch:快速上手与深度实践-1.3.2Kibana可视化初探

&#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 文章大纲 10分钟快速部署Kibana可视化平台1. Kibana与Elasticsearch关系解析1.1 架构关系示意图1.2 核心功能矩阵 2. 系统环境预检2.1 硬件资源配置2.2 软件依赖清单 3. Docker快速部…

low rank decomposition如何用于矩阵的分解

1. 什么是矩阵分解和低秩分解 矩阵分解是将一个矩阵表示为若干结构更简单或具有特定性质的矩阵的组合或乘积的过程。低秩分解&#xff08;Low Rank Decomposition&#xff09;是其中一种方法&#xff0c;旨在将原矩阵近似为两个或多个秩较低的矩阵的乘积&#xff0c;从而降低复…

算法题(81):询问学号

审题&#xff1a; 需要我们根据给出的n值确定录入数据个数&#xff0c;然后根据给出的数据存储学号。再根据m值确定需要输出的学号个数&#xff0c;然后根据数组内容输出学号 思路: 我们可以利用数组进行数据顺序存储&#xff0c;以及随机读取完成本题 由于学号最大为1e9&#…

项目开发时,涉及到的css样式

本文章&#xff0c;主要用来收集vue项目开发时&#xff0c;遇到的各种css样式问题。 1、如何让容器的高度等于浏览器窗口的高度&#xff1f; 问题描述&#xff1a;我们的微软浏览器和谷歌浏览器的窗口高度不一致&#xff0c;但是我们想无论打开哪个浏览器&#xff0c;都让我们项…

萌新学 Python 之 os 模块

os 模块&#xff1a;主要提供程序与操作系统进行交互的接口 先导入模块&#xff1a;import os 1. os.listdir()&#xff0c;获取当前目录的文件&#xff0c;返回到列表中 2. os.mkdir(文件目录, mode 0o777)&#xff0c;创建目录&#xff0c;777 表示读写程序 在当前目录下…

Linux系统下Mplayer的高效人机操作界面设计

1. 项目背景 Mplayer作为经典开源媒体播放器&#xff0c;存在以下交互缺陷&#xff1a; 默认命令行界面需记忆复杂指令&#xff08;如&#xff1a;mplayer -fs -playlist file.list&#xff09; 缺乏可视化播放列表管理 状态信息展示不直观&#xff08;需依赖终端输出&#…

某住宅小区地下车库安科瑞的新能源汽车充电桩的配电设计与应用方案

摘要&#xff1a; 文中以某住宅小区建设工程为例,重点研究了住宅小区地下车库新能源汽车充电桩配电设计,从位置设置、安装方式选择、配电箱设置、配电箱回路设置、供配电系统设计等方面展开分析,提出了民用建筑充电桩设计的科学建议,为新能源充电桩的推广应用提供参考。 关键…

达梦:内存相关参数

目录 28个相关参数1. 内存池相关MEMORY_POOLMEMORY_N_POOLSMEMORY_BAK_POOL 2. 大缓冲区相关HUGE_BUFFERHUGE_BUFFER_POOLS 3. 共享缓冲区相关BUFFERBUFFER_POOLSBUFFER_MODEMAX_BUFFER 4. 快速池相关FAST_POOL_PAGES 5. 回收池相关RECYCLE_POOLS 6. 回滚段池相关ROLLSEG_POOLS…

TCP的三次握手与四次挥手:建立与终止连接的关键步骤

引言 ‌TCP&#xff08;传输控制协议&#xff09;工作在OSI模型的传输层‌。OSI模型将计算机网络功能划分为七个层级&#xff0c;从底层到顶层依次是&#xff1a;物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。传输层负责在网络节点之间提供可靠的端到端通信&a…

游戏引擎学习第129天

仓库:https://gitee.com/mrxiao_com/2d_game_3 小妙招: vscode:定位错误行 一顿狂按F8 重构快捷键:F2 重构相关的变量 回顾并为今天的内容做准备 今天的工作主要集中在渲染器的改进上&#xff0c;渲染器现在运行得相当不错&#xff0c;得益于一些优化和组织上的改进。我们计…

【Swift 算法实战】城市天际线问题解法

网罗开发 &#xff08;小红书、快手、视频号同名&#xff09; 大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等…

「爬虫实战分享:如何高效爬取某汽车官方销售排行榜」

本文目录 &#x1f496;前言一、&#x1f4ab;代理IP的作用二、&#x1f4ab;爬虫中的挑战1.代理IP的质量和稳定性2.IP封禁问题3. 反爬虫技术的升级 三、&#x1f4ab;亮数据动态代理&#xff1a;数据采集的可靠伙伴1、真实体验 四、&#x1f4ab;爬虫实战&#xff1a;使用亮数…

中央一号文件里的三维革命:数字孪生如何重构智慧乡村生态?

2024年中央一号文件提出"建设宜居宜业和美乡村"&#xff0c;这一目标背后离不开数字技术的支撑。在浙江某数字乡村试点&#xff0c;凡拓数创通过三维建模还原整村风貌&#xff0c;路灯能耗、垃圾分类、古建保护等数据在虚拟空间中实时跳动。管理人员坦言&#xff1a;…

P1149 [NOIP 2008 提高组] 火柴棒等式c/c++

P1149 [NOIP 2008 提高组] 火柴棒等式c/c 题目描述 给你 n 根火柴棍&#xff0c;你可以拼出多少个形如 ABC 的等式&#xff1f;等式中的 A、B、C 是用火柴棍拼出的整数&#xff08;若该数非零&#xff0c;则最高位不能是 0&#xff09;。用火柴棍拼数字 0∼9 的拼法如图所示&a…

【操作系统】同步与互斥

同步与互斥 一、同步与互斥的概念1.1 同步与异步1.2 进程互斥 二、进程互斥的实现2.1 软件实现2.1.1 单标志法2.1.2 双标志先检查法2.1.3 双标志后检查法2.1.4 Peterson法 2.2 硬件实现2.2.1 中断指令2.2.2 TestAndSet指令2.2.3 Swap指令 三、互斥锁四、信号量机制4.1 整型信号…

【SpringBoot】SpringBoot中分页插件(PageHelper)的使用

目录 1.分页概念 2.原生写法 3.PageHelper插件分页查询 3.1 介绍 3.2?使用 3.3 Page对象和PageInf对象 1.分页概念 用户查询的数据不可能一次性全部展示给用户&#xff08;如果用户有一万条数据呢&#xff09;&#xff0c;而是分页展示给用户&#xff0c;这就是分页查询…

php特性

文章目录 函数特性匹配数组报错进制转换绕过正则表达式匹配换行绝对路径绕过 弱类型语言隐式转换核心概念转换规则 运算符优先级 函数特性 匹配数组报错 以此为例&#xff0c;如果传入参数是一个数组&#xff0c;则preg_match()函数报错返回0&#xff0c;完成绕过&#xff0c;…

多通道数据采集和信号生成的模块化仪器如何重构飞机电子可靠性测试体系?

飞机的核心电子系统包括发电与配电系统&#xff0c;飞机内部所有设备和系统之间的内部数据通信系统&#xff0c;以及用于外部通信的射频设备。其他所有航空电子元件都依赖这些关键总线进行电力传输或数据通信。在本文中&#xff0c;我们将了解模块化仪器&#xff08;无论是PCIe…

如何在RedHat官网查询CVE漏洞信息

1.访问红帽&#xff08;Redhat&#xff09;官网 https://access.redhat.com/ 2.按照以下路径逐步访问 在官网导航栏中找到“Security”选项&#xff0c;点击进入后选择“Red Hat CVE Database” 3.搜索CVE漏洞编号 在页面的搜索框中输入具体的 CVE 漏洞编号&#xff0c;然后…