RLHF与LLM训练的碰撞:寻找最佳实践之路!

了解更多公众号:芝士AI吃鱼

在讨论大型语言模型(LLM)时,无论是在研究新闻还是教程中,经常提到一个称为“带有人类反馈的强化学习”(RLHF)的过程。由于RLHF能够将人类偏好纳入优化过程,从而提高模型的有用性和安全性,它已成为现代LLM训练流程的一个重要部分。在本文中,将逐步分解RLHF,以提供对其核心理念和重要性的理解参考。

典型的LLM训练流程

现代基于transformer的LLM,如ChatGPT或Llama 2,经历了三个步骤的训练程序:

  • 预训练
  • 有监督微调
  • 对齐

最初,在预训练阶段,模型从庞大的无标签文本数据集中吸收知识。随后的有监督微调使这些模型更好地遵循特定指令。最后,对齐阶段使LLM更有帮助和安全地响应用户提示。
请注意,这个训练流程基于OpenAI的InstructGPT论文,该论文详细描述了GPT-3的过程。这个过程被广泛认为是ChatGPT背后的方法。稍后,我们还将比较这种方法与Meta AI最新的Llama 2模型。
让我们从下面描述的初始步骤,预训练开始。

预训练通常在包含数十亿至数万亿个标记的庞大文本语料库上进行。在这个过程中,我们采用了一个简单的下一个词预测任务,其中模型从提供的文本中预测下一个单词(或标记)。

值得强调的一点是,这种类型的预训练允许我们利用大型的、未标记的数据集。只要我们可以在不侵犯版权或忽视创作者偏好的情况下使用数据,我们就可以访问大型数据集,而无需手动标记。实际上,在这个预训练步骤中,“标签”是文本中的后续单词,它已经是数据集本身的一部分(因此,这种预训练方法通常被称为自监督学习)。

接下来是有监督微调,如下图所示。


有监督微调阶段涉及另一轮下一个标记预测。然而,与前面的预训练阶段不同,我们现在使用指令-输出对,如上图所示。在这种情况下,指令是给模型的输入(有时还附加一个可选的输入文本,取决于任务)。输出代表我们期望模型产生的类似响应。

为了提供一个具体的例子,让我们考虑以下指令-输出对:

  • 指令:“写一首关于鹈鹕的打油诗。”
  • 输出:“有一个鹈鹕非常好...”

模型将指令文本(“写一首关于鹈鹕的打油诗”)作为输入,并对输出文本(“有一个鹈鹕非常好...”)进行下一个标记预测。

虽然两者都采用类似的下一个标记训练目标,但有监督微调通常使用的数据集比预训练小得多。这是因为它需要指令-输出对,而不仅仅是原始文本。为了编译这样的数据集,需要一个人(或另一个高质量的LLM)根据特定指令编写期望的输出——创建这样的数据集需要大量工作。

在这个有监督微调阶段之后,还有另一个通常被认为是“对齐”步骤的微调阶段,其主要目标是使LLM与人类偏好对齐。这就是RLHF发挥作用的地方。

在接下来的部分中,我们将深入了解基于RLHF的对齐步骤。然而,对于那些好奇它与第2步中预训练的基础模型和经过监督微调的模型的比较情况的人,我引用了InstructGPT论文中的一个图表(上图)。

上图比较了经过监督微调的175B GPT-3模型(淡点线)与其他方法。我们可以在图表底部看到基础GPT-3模型。
如果我们考虑一种提示方法,其中我们多次查询并每次选择最佳响应(“GPT-3 + 提示”),我们可以看到与基础模型(“GPT-3”)相比有所改善的表现,这是可以预期的。
将监督微调添加到GPT-3基础模型中,使性能(“GPT-3 + 监督微调”)比“GPT-3 + 提示”更好。然而,最佳性能可以从经过监督微调和RLHF的GPT-3模型中获得(“GPT-3 + 监督微调 + RLHF”)——图表顶部的两条图。 (请注意,图表顶部有两条线,因为研究人员尝试了两种不同的采样程序。)下一节将更详细地描述这个RLHF步骤。

带有人类反馈的强化学习(RLHF)

前一节讨论了像ChatGPT和Llama-2-chat这样的现代LLM背后的3步训练程序。在这一节中,我们将更详细地看看微调阶段,重点是RLHF部分。
RLHF流程采用一个预训练模型,并以监督方式微调它(前一节的第2步),然后进一步通过近似策略优化(前一节的第3步)与之对齐。
为简单起见,我们将RLHF流程分为三个单独的步骤:

  • RLHF第1步:对预训练模型进行监督微调
  • RLHF第2步:创建奖励模型
  • RLHF第3步:通过近似策略优化进行微调

RLHF第1步,如下图所示,是一个监督微调步骤,用于创建进一步RLHF微调的基础模型。
 

在RLHF第1步中,我们创建或从数据库中抽取提示,并请人类编写高质量的响应。然后,我们使用这个数据集以监督方式微调预训练的基础模型。
请注意,这个RLHF第1步与上一节“典型的LLM训练流程”中的第2步类似。我在这里再次列出它,因为它是RLHF不可或缺的一部分。

在RLHF第2步中,我们使用监督微调后的模型来创建一个奖励模型,如下图所示。

如上图所示,对于每个提示,我们从先前步骤创建的微调LLM生成四到九个响应。然后,个人根据他们的偏好对这些响应进行排序。尽管这个排序过程耗时,但可能比为监督微调创建数据集的工作量稍低。这是因为对响应进行排名可能比编写它们更简单。
在编制了这些排名的数据集之后,我们可以设计一个奖励模型,用于RLHF第3步中的后续优化阶段输出奖励分数。这个奖励模型通常来源于先前监督微调步骤中创建的LLM。我们将奖励模型称为RM,将监督微调步骤中的LLM称为SFT。要将RLHF第1步中的模型转换为奖励模型,其输出层(下一个标记分类层)被替换为一个回归层,该层具有单个输出节点。

RLHF流程的第三步是使用奖励(RM)模型来微调先前监督微调(SFT)模型,如下图所示。

在RLHF第3步的最后阶段,我们现在正在使用近似策略优化(PPO)基于我们在RLHF第2步中创建的奖励模型的奖励分数更新SFT模型。

Llama 2中的RLHF

在上一节中,我们了解了OpenAI的InstructGPT论文中描述的RLHF程序。这种方法通常被引用为开发ChatGPT所采用的方法。但是,它与Meta AI最近的Llama 2模型相比如何呢?

Meta AI在创建Llama-2-chat模型时也使用了RLHF。然而,两种方法之间存在一些区别,我在下面的注释图中进行了突出显示。

总的来说,Llama-2-chat在RLHF第1步中遵循与InstructGPT相同的指令数据上的监督微调步骤。然而,在RLHF第2步中,创建了两个奖励模型而不是一个。此外,Llama-2-chat模型通过多个阶段发展,奖励模型根据Llama-2-chat模型中出现的错误进行更新。还增加了一个拒绝采样步骤。

边际损失(Margin Loss)
上述注释图中未描述的另一个区别涉及如何对模型响应进行排名以生成奖励模型。在先前讨论的标准InstructGPT方法中,研究人员收集排名为4-9的输出响应,从中创建“k选2”比较。

例如,如果一个人类标注者对四个响应(A-D)进行排名,如A < C < D < B,这将产生“4选2”= 6个比较:

  1. A < C
  2. A < D
  3. A < B
  4. C < D
  5. C < B
  6. D < B

类似地,Llama 2的数据集基于响应的二元比较,如A < B。然而,看起来每个人类标注者在每轮标注中只被呈现2个响应(而不是4-9个响应)。

此外,新颖之处在于,每个二元排名旁边收集了一个“边际”标签(从“显著更好”到“微不足道更好”),可以选择性地用于二元排名损失中,通过附加的边际参数来计算两个响应之间的差距。

尽管InstructGPT使用了以下基于交叉熵的排名损失来训练奖励模型:

Llama 2 添加了边际“m(r)”作为偏好评级的离散函数,如下所示:

其中:

  • r_θ(x,y) 是针对提示 x 和生成的响应 y 的标量分数输出;
  • θ 是模型权重;
  • σ 是将层输出转换为0到1范围内的分数的逻辑S型函数;
  • y_c 是人类注释者选择的首选响应;
  • y_r 是人类注释者选择的被拒绝的响应。

例如,通过“m(r)”返回更高的边际会使首选响应和被拒绝响应的奖励之间的差异变小,从而导致更大的损失,进而在策略梯度更新期间产生更大的梯度,最终导致模型变化。

两个奖励模型
如前所述,Llama 2中有两个奖励模型而不是一个。一个奖励模型基于帮助性,另一个基于安全性。然后用于模型优化的最终奖励函数是这两个分数的线性组合。

拒绝采样(Rejection sampling)
此外,Llama 2的作者采用了一个迭代产生多个RLHF模型(从RLHF-V1到RLHF-V5)的训练流程。他们不仅依赖于我们之前讨论的带PPO的RLHF方法,而且还采用了两种算法进行RLHF微调:PPO和拒绝采样。
在拒绝采样中,绘制出K个输出,并在优化步骤中选择奖励最高的一个进行梯度更新,如下图所示。

拒绝采样用于在每次迭代中选择具有高奖励分数的样本。因此,与基于每次仅更新一个样本的PPO相比,模型经历了具有更高奖励的样本的微调。

在监督微调的初始阶段之后,模型仅使用拒绝采样进行训练,然后将拒绝采样和PPO结合起来。

研究人员绘制了模型在RLHF阶段的性能,表明RLHF微调的模型在无害性和有用性轴上都有所改善。

值得注意的是,研究人员在最后阶段使用了PPO,接着之前仅通过拒绝采样更新的模型。如上图所示的“RLHF-v5(带PPO)”与“RLHF-v5(无PPO)”比较表明,最后阶段使用PPO训练的模型比仅使用拒绝采样训练的模型更好。

RLHF的替代方案

现在我们已经讨论并定义了RLHF过程,这是一个相当复杂的程序,人们可能会想知道它是否值得这样的麻烦。之前从InstructGPT和Llama 2论文中展示的图表(如下所示)提供了证据,表明RLHF是值得的。

然而,许多正在进行的研究侧重于开发更高效的替代方案。下面总结了最有趣的方法。

  1. Constitutional AI: Harmlessness from AI Feedback (Dec 2022, https://arxiv.org/abs/2212.08073)

在这篇论文中,研究人员提出了一种基于人类提供的规则列表的自我训练机制。类似于之前提到的InstructGPT论文,提出的方法使用强化学习方法。

上图中研究人员使用的“红队行动”这一术语,起源于冷战时期的军事演习。在那时,“红队行动”指的是扮演苏联角色的一组人员,他们的任务是测试和挑战美国的战略及防御体系。如今,在人工智能研究的网络安全领域,这一术语被用来描述一种特殊的过程:通过模拟现实世界攻击者的战术、技术和程序,外部或内部专家扮演潜在对手的角色,挑战和测试相关系统,以此来提升这些系统的性能和安全性。

  1. The Wisdom of Hindsight Makes Language Models Better Instruction Followers (Feb 2023, https://arxiv.org/abs/2302.05206)

这篇论文表明,对LLM进行有监督的微调确实可以很好地工作。研究人员提出了一种基于重新标记的有监督方法进行微调,该方法在12个BigBench任务上胜过了RLHF。

那么,这个所提出的后见之明指令标记(HIR)是如何工作的呢?简而言之,HIR方法包括两个步骤:采样和训练。在采样步骤中,指令和提示被输入到LLM中以收集响应。在训练阶段,根据一种对齐分数,将指令在适当的情况下进行重新标记。然后,使用这些重新标记的指令和原始提示来对LLM进行微调。通过这种重新标记的方法,研究人员有效地将失败案例(即LLM产生的输出与原始指令不符的情况)转化为有监督学习的有用训练数据。

请注意,这项研究与InstructGPT中的RLHF(基于强化学习的微调)工作并不直接可比,原因在于它似乎使用了启发式方法(“然而,由于大多数基于人类反馈的数据难以收集,我们采用了一种脚本化的反馈函数...”)。尽管如此,后见之明指令标记(HIR)方法的结果仍然非常引人注目。

  1. Direct Preference Optimization: Your Language Model is Secretly a Reward Model (https://arxiv.org/abs/2305.18290, May 2023)

直接偏好优化(DPO)是RLHF和PPO的一个替代方案,研究人员表明,用于拟合RLHF中的奖励模型的交叉熵损失可以直接用于微调LLM。根据他们的基准测试,使用DPO通常比使用RLHF/PPO更高效,并且在响应质量方面也常常更受欢迎。

  1. Contrastive Preference Learning: Learning from Human Feedback without RL (Oct 2023, https://arxiv.org/abs/2310.13639)

类似于直接偏好优化(DPO),对比性偏好学习(CPL)是简化RLHF的一种方法,通过消除奖励模型学习。与DPO一样,CPL使用一种有监督的学习目标,特别是对比性损失。(在论文的附录中,作者表明DPO是CPL的一个特例。)尽管实验是基于机器人环境进行的,CPL也可以应用于LLM微调。

  1. Reinforced Self-Training (ReST) for Language Modeling (Aug 2023, https://arxiv.org/abs/2308.08998)

ReST是一种与人类反馈的强化学习(RLHF)相对的方法,用于使LLM与人类偏好对齐。ReST采用抽样方法创建改进的数据集,通过迭代训练更高质量的子集来细化其奖励函数。根据作者的说法,ReST通过离线生成其训练数据集,比标准在线RLHF方法(如带近似策略优化的RLHF,PPO)实现了更高的效率,但尚缺乏与InstructGPT或Llama 2中使用的标准RLHF PPO方法的全面比较。

  1. RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (Sep 2023, https://arxiv.org/abs/2309.00267)

最近的一项名为人工智能反馈强化学习(RLAIF)的研究表明,在强化学习中基于人类反馈的奖励模型训练(RLHF)并不一定需要由人类提供评分,而可以由大型语言模型(例如:PaLM 2)生成。人类评估者在RLAIF模型与传统RLHF模型之间的选择几乎各占一半,这意味着他们实际上并不偏好其中任何一个模型。

另一个有趣的附加观点是,无论是RLHF还是RLAIF,它们的性能都远远超过了那些仅通过有监督指令微调训练的模型。

这项研究的结果非常有用且引人注目,因为它基本上意味着我们可能能够使基于RLHF的训练更加高效和易于获取。然而,这些RLAIF模型在关注安全性和信息内容真实性的定性研究中的表现如何,仍有待观察,这些是仅通过人类偏好研究部分能够捕捉到的。

结论

这些替代方案是否在实践中值得采用,目前还有待观察,因为目前还没有真正能与Llama 2和未经RLHF训练的Code Llama规模模型相匹敌的竞争者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/310975.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

K8s Pod详解

1.Pod结构 每个Pod中都可以包含一个或者多个容器&#xff0c;这些容器可以分为两类&#xff1a; 用户程序所在的容器&#xff0c;数量可多可少 Pause容器&#xff0c;这是每个Pod都会有的一个根容器&#xff0c;它的作用有两个&#xff1a; 可以以它为依据&#xff0c;评估整个…

Redis 发布订阅

目录 1.Redis Unsubscribe 命令 - 指退订给定的频道。简介语法可用版本: > 2.0.0返回值: 这个命令在不同的客户端中有不同的表现。 示例 2.Redis Subscribe 命令 - 订阅给定的一个或多个频道的信息。简介语法可用版本: > 2.0.0返回值: 接收到的信息 示例 3.Redis Pubsub …

功能自动化测试流程

1概述 本流程是描述软件功能自动化测试过程中的步骤、内容与方法&#xff0c;明确各阶段的职责、活动与产出物。 2流程活动图 3活动说明 3.1测试计划&#xff08;可选&#xff09; 与以前的测试计划过程一致&#xff0c;只是在原来的测试计划中&#xff0c;添加对项目实施自动…

Vue+element-china-area-data实现省市区三级联动

安装依赖 npm install element-china-area-data -S cnpm install element-china-area-data -S 引用 import { provinceAndCityData, regionData, provinceAndCityDataPlus, regionDataPlus, CodeToText, TextToCode } from element-china-area-data&#xff1b; provinceAnd…

父类,父类的分类、子类 同时重写方法,调用问题

做一个猜想&#xff0c;当父类、父类的分类、子类 都写了同一个方法&#xff0c;那么在调用的时候会优先调用哪个方法呢&#xff1f;我们可以先写一个简单的demo implementation Person (void)test {NSLog("%",self.class); }end然后是Person的分类 #import "…

springBoot容器功能

一、添加组件 1、Configuration 1.1基本使用 新建一个MyConfig类 , 演示Configuration Bean的作用 &#xff0c; 即相当于spring中的beanx.xml&#xff0c; Bean 就是bean标签 此方法&#xff0c;默认是单实例&#xff0c; 即获取多少次都是同一个对象 自定义名字&#xff0…

核酸汇·2024第三届中国核酸药物与新型疫苗产业大会将于5月上海召开

近年来&#xff0c;全球上市的核酸药物数量逐年递增&#xff0c;核酸药物也逐渐成为生物医药投资的重点以及医药企业研发的热点。作为一种具有颠覆性技术的药物&#xff0c;小核酸药物具备多种优势&#xff0c;在抗击传染病、治疗罕见病和慢性病等领域具有巨大的发展潜力, 目前…

安防视频监控系统EasyCVR设备分组中在线/离线数量统计的开发与实现

安防视频监控EasyCVR系统具备较强的兼容性&#xff0c;它可以支持国标GB28181、RTSP/Onvif、RTMP&#xff0c;以及厂家的私有协议与SDK&#xff0c;如&#xff1a;海康ehome、海康sdk、大华sdk、宇视sdk、华为sdk、萤石云sdk、乐橙sdk等。EasyCVR平台可覆盖多类型的设备接入&am…

数据加工:从原始数据到有价值的信息

在当今数字化的时代&#xff0c;数据已经成为了企业和组织最宝贵的资产之一。然而&#xff0c;原始数据往往需要经过加工和处理&#xff0c;才能转化为有价值的信息和知识。数据加工是指将原始数据进行处理和分析&#xff0c;以提取有用的信息和知识的过程。数据加工的重要性不…

YOLOv8-Seg改进:轻量化改进 | MobileNetV3,轻量级骨架首选

🚀🚀🚀本文改进:MobileNetV3的创新点包括:使用自适应瓶颈宽度、借鉴SENet中的Squeeze-and-Excitation机制、引入h-swish激活函数等。 🚀🚀🚀YOLOv8-seg创新专栏:http://t.csdnimg.cn/KLSdv 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; 1)手把手教…

base64与BytesIO图片进行编码、解码;api调用

base64与BytesIO简单介绍 io.BytesIO 和 Base64 编码都是用于在内存中处理二进制数据的方法&#xff0c;但它们的目的和使用场景有所不同。 1&#xff09; io.BytesIO io.BytesIO 是 Python io 库中的一个类&#xff0c;它提供了一个在内存中处理二进制数据的接口&#xff0…

使用srs_librtmp实现RTMP推流

1、背景 由于项目有需求在一个现有的产品上增加RTMP推流的功能&#xff0c;目前只推视频流。 2、方案选择 由于是在现有的产品上新增功能&#xff0c;那么为了减少总的成本&#xff0c;故选择只动应用软件的来实现需求。 现有的产品中的第三方库比较有限&#xff0c;连个ffmp…

PPT模板,免费下载

找PPT模板、素材&#xff0c;就上这几个网站&#xff0c;免费下载。 1、菜鸟图库 https://www.sucai999.com/search/ppt/0_0_0_1.html?vNTYxMjky 菜鸟图库素材非常齐全&#xff0c;设计、办公、图片、视频等素材这里都能找到&#xff0c;PPT模板数量很可观&#xff0c;模板样…

《AI基本原理和python实现》栏目介绍

一、说明 栏目《AI基本原理和python实现》的设计目的是为了实现相关算法的python编程。因为用python实现AI需对相关的python库进行全方位了解&#xff0c;本栏目基本包含了【机器学习】相关的经典算法&#xff0c;除此之外还包括了数据分析、时间序列等一些概念和相关python代码…

斯坦福Mobile ALOHA提到的ACT之外的另两项技术:Diffusion Policy、VINN

前言 本文接上一篇文章《斯坦福机器人Mobile ALOHA的关键技术&#xff1a;动作分块ACT的算法原理与代码剖析》而来&#xff0c;当然最开始本文是作为上一篇文章的第二、第三部分的 但因为ACT太过关键&#xff0c;除了在上一篇文章中写清楚其算法原理之外&#xff0c;还得再剖…

借助文档控件Aspose.Words,使用 Java 在 Word 文档中创建表格

Microsoft Word 是一种流行的文字处理应用程序&#xff0c;用于创建各种类型的文档。这些文档可能包含多种类型的元素&#xff0c;包括文本、图像、表格和图表。当涉及到用 Java 自动创建和操作文档时&#xff0c;您可能需要一个轻松的解决方案来在 Word 文档中创建表格。因此&…

操作系统课程设计:常用页面置换算法(OPT、FIFO、LRU)的实现及缺页率的计算(C语言)

名人说&#xff1a;莫听穿林打叶声&#xff0c;何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#xff09; 目录 一、效果图二、代码&#xff08;带注释&#xff09;三、说明 一、效果图 二、代码&#xff08;带…

@RequestParam

在我们写接口的时候&#xff0c;经常会用到这个注解来标记参数&#xff0c;通过这个注解我们可以把请求的url中的参数名和值映射到被标记的参数上。 比如下方&#xff0c;这个接口是通过传入的参数来查询相关信息的 我们定义这样一个接口&#xff0c;设置了8个参数&#xff0c;…

接口测试工具:Postman的高级用法

Postman 是一款功能强大的 API 开发和测试工具&#xff0c;以下是一些高级用法的详细介绍和操作步骤。【文末有配套视频教程和免费的资料文档领取】 一、环境和全局变量 环境变量允许你设置特定于环境&#xff08;如开发、测试、生产&#xff09;的变量&#xff0c;全局变量则…

C++ Primer 6.1 函数基础

函数的形参列表 int func(int v,int v2) {int v,v2;//&#xff01;错误 } 函数返回类型 不能是数组和函数&#xff08;两者都不接受对拷&#xff09;&#xff0c;但可以是指针 局部对象 形参和函数体内部的变量称为局部变量&#xff0c;仅在函数内部可见&#xff0c;隐藏外部…