chatgpt实际是怎样工作的?

文章翻译自:
https://www.assemblyai.com/blog/how-chatgpt-actually-works/

ChatGPT 是 OpenAI 的最新语言模型,比其前身 GPT-3 有了重大改进。与许多大型语言模型类似,ChatGPT 能够为不同目的生成多种样式的文本,但具有更高的精确度、细节和连贯性。它代表了 OpenAI 大型语言模型系列的下一代产品,其设计非常注重交互式对话。

创建者结合使用监督学习和强化学习来微调 ChatGPT,但正是强化学习组件使 ChatGPT 独一无二。创作者使用一种称为人类反馈强化学习 (RLHF) 的特殊技术,该技术在训练循环中使用人类反馈来最大限度地减少有害、不真实和/或有偏见的输出。

在了解 RLHF 的工作原理和了解 ChatGPT 如何使用 RLHF 来克服这些问题之前,我们将研究 GPT-3 的局限性以及它们如何源于其训练过程。最后,我们将研究这种方法的一些局限性。

大型语言模型中的能力与对齐

在这里插入图片描述
在机器学习的上下文中,术语能力是指模型执行特定任务或一组任务的能力。模型的能力通常通过优化其目标函数的能力来评估,目标函数是定义模型目标的数学表达式。例如,设计用于预测股票市场价格的模型可能具有衡量模型预测准确性的目标函数。如果该模型能够准确预测股票价格随时间的变化,则可以认为它具有完成此任务的高水平能力。

另一方面,对齐关注的是我们实际希望模型做什么而不是训练它做什么。它问的问题是“目标函数是否符合我们的意图?” 并指模型的目标和行为与人类价值观和期望相一致的程度。举一个简单的具体例子,假设我们训练一个鸟类分类器将鸟类分类为“麻雀”或“知更鸟”,我们使用对数损失(衡量模型预测概率分布与真实分布之间的差异)作为训练客观的,即使我们的最终目标是高分类精度。该模型可能具有低对数损失,即模型的能力高,但准确性差在测试集上。事实上,对数损失与分类任务的准确性并不完全相关。这是一个错位的例子,模型能够优化训练目标,但与我们的最终目标不一致。

Models like the original GPT-3 are misaligned

大型语言模型(例如 GPT-3)根据来自互联网的大量文本数据进行训练,能够生成类似人类的文本,但它们可能并不总是产生与人类期望或理想值一致的输出。事实上,他们的目标函数是单词序列(或标记序列)的概率分布,使他们能够预测序列中的下一个单词是什么(下面有更多详细信息)。

然而,在实际应用中,这些模型旨在执行某种形式的有价值的认知工作,并且这些模型的训练方式与我们希望使用它们的方式之间存在明显差异。尽管从数学上讲,机器计算出的单词序列的统计分布可能是对语言建模的一种非常有效的选择,但作为人类,我们通过选择最适合给定情况的文本序列来生成语言,并使用我们的背景知识和常识来指导这个流程。当语言模型用于需要高度信任或可靠性的应用程序(例如对话系统或智能个人助理)时,这可能会成为一个问题。

虽然这些强大、复杂的模型在过去几年中经过大量数据训练变得非常有能力,但当用于生产系统以使人类生活更轻松时,它们往往无法发挥这种潜力。Large Language Models 中的对齐问题通常表现为:

  • 缺乏帮助:不遵循用户的明确指示。
  • 幻觉:模型编造了不存在的或错误的事实。
  • 缺乏可解释性:人类很难理解模型是如何做出特定决定或预测的。
  • 生成有偏见或有毒的输出:在有偏见/有毒数据上训练的语言模型可能会在其输出中重现该结果,即使没有明确指示这样做。

但是这个对齐问题具体是从哪里来的呢?语言模型的训练方式是否天生就容易出现错位?

语言模型训练策略如何产生错位

Next-token-prediction并且masked-language-modeling是用于训练语言模型的核心技术,例如transformers。在第一种方法中,模型被赋予一个单词序列(或“标记”,即单词的一部分)作为输入,并被要求预测序列中的下一个单词。例如,如果给模型输入句子

“The cat sat on the”

它可能会预测下一个词为“mat”、“chair”或“floor”,因为在给定先前上下文的情况下,这些词出现的可能性很高;语言模型实际上能够估计给定先前序列的每个**可能单词(在其词汇表中)**的可能性。

掩码语言建模方法是下一个标记预测的变体,其中输入句子中的某些单词被替换为特殊标记,例如[MASK]. 然后要求模型预测应该插入的正确单词来代替掩码。例如,如果模型给出了句子

“The [MASK] sat on the”

对于输入,他可能预测的单词为"cat", “dog”, or “rabbit”.

这些目标函数的一个优点是它允许模型学习语言的统计结构,例如常见的单词序列和单词使用模式。这通常有助于模型生成更自然、更流畅的文本,是每个语言模型预训练阶段必不可少的步骤。

然而,这些目标函数也会导致问题,本质上是因为模型无法区分重要错误不重要错误。举个很简单的例子,如果给模型输入句子:

“The Roman Empire [MASK] with the reign of Augustus.”

它可能会预测“began”或“ended”,因为这两个词出现的可能性都很高(事实上,这两个句子在历史上都是正确的),即使第二个选择意味着完全不同的含义。

更一般地说,这些训练策略可能会导致语言模型在某些更复杂的任务中出现偏差,因为仅经过训练以预测文本序列中的下一个词(或掩码词)的模型可能不一定会学习一些其含义的更高层次的表示。因此,该模型难以泛化到需要更深入地理解语言的任务或上下文。

研究人员和开发人员正在研究各种方法来解决大型语言模型中的对齐问题。ChatGPT 基于原始的 GPT-3 模型,但经过进一步训练,使用人工反馈来指导学习过程,具体目标是减轻模型的错位问题。所使用的具体技术,称为从人类反馈中强化学习,是基于先前的学术研究。ChatGPT 代表了第一个将这种技术用于生产模型的案例。

但是,ChatGPT 的创建者究竟是如何利用人类反馈来解决对齐问题的呢?

从人类反馈中强化学习

  1. 有监督的微调步骤:预训练语言模型在标记者策划的相对少量的演示数据上进行微调,以学习从选定的提示列表生成输出的监督策略(SFT 模型)。这表示基线模型。
  2. “模仿人类偏好”步骤:标注者被要求对相对大量的 SFT 模型输出进行投票,这样就创建了一个由比较数据组成的新数据集。在此数据集上训练了一个新模型。这称为奖励模型 (RM)。
  3. Proximal Policy Optimization (PPO) 步骤:奖励模型用于进一步微调和改进 SFT 模型。这一步的结果就是所谓的政策模型。

第一步只发生一次,而第二步和第三步可以不断迭代:在当前最好的策略模型上收集更多的比较数据,用于训练新的奖励模型,然后训练新的策略。

现在让我们深入了解每个步骤的细节!

注意:本文的其余部分基于InstructGPT 论文的内容。根据 OpenAI 的说法,ChatGPT 已经“使用与 InstructGPT 相同的方法进行训练,但数据收集设置略有不同”(来源)。不幸的是,ChatGPT 的确切定量报告尚未公开。

第 1 步:监督微调 (SFT) 模型

第一步包括收集示范数据以训练监督政策模型,称为 SFT 模型。

  • 数据收集:选择提示列表,并要求一组人工标记者写下预期的输出响应。对于 ChatGPT,使用了两种不同的提示来源:一些是直接从贴标者或开发人员准备的,一些是从 OpenAI 的 API 请求(即来自他们的 GPT-3 客户)中采样的。由于整个过程缓慢且昂贵,结果是一个相对较小的高质量精选数据集(大概有大约 12-15k 个数据点),用于微调预训练语言模型。
  • 模型选择:ChatGPT 的开发人员没有微调原始 GPT-3 模型,而是选择了所谓的GPT-3.5 系列中的预训练模型。据推测,使用的基线模型是最新的text-davinci-003,一个 GPT-3 模型,主要在编程代码上进行了微调。

因此,非常有趣的是,为了创建像 ChatGPT 这样的通用聊天机器人,开发人员决定在“代码模型”而非纯文本模型之上进行微调。

图改编自来源

由于此步骤的数据量有限,在此过程之后获得的 SFT 模型可能会输出仍然(概率上)不是很受用户关注的文本,并且通常会出现上文所述意义上的错位。这里的问题是监督学习步骤的可扩展性成本很高。

为了克服这个问题,现在的策略是让贴标签者对 SFT 模型的不同输出进行排序以创建奖励模型,而不是要求人工贴标签者创建一个更大的精选数据集,这是一个缓慢且昂贵的过程——让我们更详细地解释这一点下节详述。

第二步:奖励模型(RM)

目标是直接从数据中学习目标函数(奖励模型) 。此函数的目的是为 SFT 模型输出打分,与这些输出对人类的期望程度成正比。在实践中,这将强烈反映选定的人类标签组的特定偏好以及他们同意遵循的共同准则。最后,这个过程将从数据中提取一个应该模仿人类偏好的自动系统。

它是这样工作的:

  • 选择提示列表,SFT 模型为每个提示生成多个输出(4 到 9 之间的任意位置)。
  • 贴标签者将输出从最好到最差排序。结果是一个新的标记数据集,其中排名是标签。该数据集的大小大约是用于 SFT 模型的精选数据集的 10 倍。
  • 此新数据用于训练奖励模型 (RM)。该模型将一些 SFT 模型输出作为输入,并按优先顺序对它们进行排序。

在这里插入图片描述

对于贴标机来说,对输出进行排序比从头开始生产要容易得多,这个过程可以更有效地扩大规模。在实践中,这个数据集是从 30-40k 提示的选择中生成的,并且在排名阶段将可变数量的生成输出(对于每个提示)呈现给每个标签器。

第 3 步:通过近端策略优化 (PPO) 微调 SFT 模型

强化学习现在用于通过优化奖励模型来微调 SFT 策略。使用的特定算法称为近端策略优化(PPO),微调后的模型称为 PPO 模型。

什么是 PPO?以下是此方法的主要要点:

  • PPO 是一种用于在强化学习中训练代理的算法。之所以称为“on-policy”算法,是因为它直接从当前策略中学习和更新,而不是像 DQN(深度 Q 网络)这样的“off-policy”算法中那样从过去的经验中学习。这意味着 PPO 会根据代理正在采取的行动和收到的奖励不断调整当前策略。
  • PPO使用信任域优化的方法来训练策略,这意味着它将策略的变化限制在与先前策略的一定距离内,以确保稳定性。这与其他策略梯度方法形成对比,后者有时会对可能破坏学习稳定性的策略进行大量更新。
  • PPO 使用价值函数来估计给定状态或动作的预期回报。价值函数用于计算优势函数,它表示预期收益与当前收益之间的差异。然后使用优势函数通过比较当前策略采取的操作与先前策略将采取的操作来更新策略。这使 PPO 可以根据所采取行动的估计价值对政策进行更明智的更新。

在这一步中,PPO模型是从SFT模型初始化的,**价值函数是从奖励模型初始化的。**该环境是一个bandit 环境,它呈现随机提示并期望对提示做出响应。给定提示和响应,它会产生一个奖励(由奖励模型决定)并且这一集结束。每个代币的SFT 模型都添加了每个代币的KL 惩罚,以减轻奖励模型的过度优化。

在这里插入图片描述

绩效评估

因为该模型是在人工标注者输入上训练的,所以评估的核心部分也是基于人工输入,即它通过标注者对模型输出的质量进行评分来进行。为避免训练阶段涉及的标注者的判断过度拟合,测试集使用来自保留的 OpenAI 客户的提示,这些提示未出现在训练数据中。

该模型根据三个高级标准进行评估:

  • Helpfulness:判断模型遵循用户指令的能力,以及推断指令的能力。
  • Truthfulness:判断模型对封闭域任务产生幻觉(编造事实)的倾向。该模型在TruthfulQA 数据集上进行评估。
  • Harmlessness:标注者评估模型的输出是否合适,是否诋毁受保护类,或包含贬损内容。该模型还在RealToxicityPrompts和CrowS-Pairs数据集上进行了基准测试。

该模型还评估了传统 NLP 任务(如问答、阅读理解和摘要)的零样本性能,开发人员在其中一些任务上观察到与 GPT-3 相比的性能回归。这是一个“校准税”的例子,其中基于 RLHF 的校准程序是以降低某些任务的性能为代价的。

这些数据集的性能回归可以通过称为预训练混合的技巧大大减少:在通过梯度下降训练 PPO 模型期间,通过混合 SFT 模型和 PPO 模型的梯度来计算梯度更新。

该方法的缺点

正如InstructGPT 论文(根据其创建者所说,ChatGPT 正是基于该论文)所讨论的,该方法的一个非常明显的局限性是,在将语言模型与人类意图对齐的过程中,用于微调模型的数据受到各种错综复杂的主观因素的影响,包括:

  • 生成演示数据的标记者的偏好。
  • 设计研究和编写标签说明的研究人员。
  • 选择由开发人员制作或由 OpenAI 客户提供的提示。
  • 标记者偏差既包含在奖励模型训练(通过对输出进行排名)中,也包含在模型评估中。

作者特别指出了一个明显的事实,即参与训练过程的标注人员和研究人员可能无法代表语言模型的所有潜在最终用户。

除了这个明显的“内在”限制之外,我们还想指出该方法的其他一些可能的缺点、未明确解决的问题以及一些悬而未决的问题:

缺乏控制研究:报告的结果衡量最终 PPO 模型的性能,以 SFT 模型为基线。这可能会产生误导:我们怎么知道改进实际上是由于 RLHF?一项适当的(但昂贵的)对照研究将包括投入与用于训练奖励模型的标记工时数完全相同的时间,以创建具有高质量演示数据的更大的精选 SFT 数据集。然后,人们就可以客观地衡量 RLHF 方法与监督方法相比的性能改进。简单来说,缺乏这样的控制研究让一个基本问题完全悬而未决:RLHF 在对齐语言模型方面真的做得很好吗?

比较数据缺乏基本事实:标注者通常会对模型输出的排名持不同意见。从技术上讲,风险是在没有任何基本事实的情况下向比较数​​据添加高潜在方差。

人类偏好并不是同质的:RLHF 方法将人类偏好视为同质和静态的。假设所有人都拥有相同的价值观显然是一种延伸,至少在人类知识的大量主题上是这样。最近的一些研究开始以不同的方式解决这个悬而未决的问题。

奖励模型 (RM) 的提示稳定性测试:似乎没有实验调查奖励模型在输入提示变化方面的敏感性。如果两个提示在句法上不同但在语义上是等价的,RM 能否在模型输出的排名中显示出显着差异?简单来说,提示的质量对 RM 有多重要?

Wireheading 类型的问题:在 RL 方法中,模型有时可以学习操纵自己的奖励系统以获得预期的结果,从而导致“过度优化的策略”。这可以推动模型重新创建一些模式,这些模式由于某种未知原因使奖励模型得分高(请参阅OpenAI 这篇论文中的表 29 ,了解语言建模中这种行为的明确示例)。ChatGPT 在奖励函数中使用 KL 惩罚项对此进行了修补。请注意,有人试图优化 RM输入(即 PPO 输出)以提高其输出(奖励分数),同时限制输入本身与某些参考输入不太远(SFT 输出)。在最近的预印本中详细介绍了这种方法的局限性。

Selected references for further reading

  • The most relevant paper about the RLHF methodology used for ChatGPT is Training language models to follow instructions with human feedback, which in fact details a model called InstructGPT, referred to by OpenAI as a “sibling model” to ChatGPT.
  • Anthropic published a detailed study on the effectiveness of RLHF methods for finetuning language models to act as helpful and harmless assistants.
  • The paper Learning to summarize from Human Feedback describes RLHF in the context of text summarization.
  • Proximal Policy Optimization: the PPO algorithm paper.
  • Deep reinforcement learning from human preferences –was one of the earliest (Deep Learning) papers using human feedback in RL, in the context of Atari games.
  • Alternatives to OpenAI’s RLHF have been proposed by DeepMind in Sparrow and GopherCite papers.
  • A deep dive into the Alignment problem for language models is given in a (long) paper by Anthropic. Here’s an excellent summary by Sam Ringer. Anthropic also has an open source repository (with accompanying paper) for RLHF.

文章翻译自:

https://www.assemblyai.com/blog/how-chatgpt-actually-works/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/6379.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MBD-有感(Hall)开环BLDC控制模型(下)

目录 前面 保护策略 DC_Bus_Measurements Protection_Check 外设配置 最后 前面 上一篇已经把霍尔有感BLDC开环控制模型的主要部分分析完成了 MBD-有感(Hall)开环BLDC控制模型(上) 语雀 这一篇分析一些边边角角,但不成体系的部分。…

全网最详细,Jmeter接口测试场景-万条测试数据校验结果,循环断言(案例)

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 在工作中&#xff0…

这个ChatGPT插件可以远程运行代码,还生成图表

ChatGPT的插件使数据科学成为一种简单、愉快的体验 我们做数据分析时一般都是使用这样的流程来进行:运行jupyter notebook、安装库、解决依赖关系和版本控制,数据分析,生成图表。ChatGPT的“Code Interpreter”插件可以帮助我们进行数据分析…

【Redis】五大数据结构及其常用指令

文章目录说明String类型List类型Set类型Hash类型Sorted Set 排序集合总结说明 Redis里面的数据类型有String、List、Set、Hash、Zset。这篇文章会介绍这5种数据类型并介绍操作它们的指令. String类型 字符串是一种最基本的Redis值类型。Redis字符串是二进制安全的&#xff0…

5.1.1 Ext JS之Grid actioncolumn动作列的动态显示

在Ext JS 的 Grid中添加动作列的方式是配置一个 actioncolumn类型的动作列,这个动作列可以包含多个图表的按钮。 添加的方式如下: {xtype: actioncolumn,items:[{iconCls: x-fa fa-trash,}]}在有的时候场景中, 会根据不同行的数据来决定是否显示动作按钮, 也就是最后的效果…

关于OpenAI的DALL的一点使用心得

文章目录注册DALL使用根据描述来generate上传图片来generate也可以根据描述信息或者相似的图片来进行设计注册DALL https://openai.com/product/dall-e-2 使用 根据描述来generate surprise me 自动生成描述(因为每个月只有15个免费credits,节省起见…

java面试题(持续更新)

java面试题(持续更新) java 基础 java面向对象有哪些特征 面向对象的三大特征:封装、继承、多态 封装:隐藏了类的内部实现机制,可以在不影响使用的情况下改变类的内部结构,同时也保护了数据,…

Microsoft Dynamics 365 Business Central Planning Worksheet中Action Message状态变化

学习目标: 掌握Planning Worksheet中Action Message状态变化 学习内容: 掌握 创建物料,工作中心,工艺路线,BOM,物料和工艺路线,BOM的关联掌握 按订单的生产的物料卡片设置掌握 创建销售订单并…

二叉树的5个性质【要点:完全二叉树的性质】

只讲不会的 普通二叉树就要讲排列顺序了!!! 预备:满二叉树:1.前提是它必须是二叉树 2.每个结点(除了终端结点外)都是2个子女。 要点1:关于普通的树的结点的计算&#xff0…

【CocosCreator入门】CocosCreator组件 | Label(文本)组件

Cocos Creator 是一款流行的游戏开发引擎,具有丰富的组件和工具,其中Label组件是最常用的之一。Label 组件是一个用于显示文本的 UI 组件。在本文中,我们将探讨 Label 组件的一些技术方面,包括如何创建、配置和使用它。 目录 一、…

java的集合体系结构(以及集合的遍历方式)

文章目录java集合的体系结构遍历方式通用(三种):迭代器,增强for,lambda表达式遍历迭代器(不依赖索引,适合set集合遍历)java集合的体系结构 注意点: Col1 ection是一个接口,我们不能直接创建他的对象。 所以,现在我们学习他的方法时&#xff0…

【数据库管理】①实例与数据库

1.Oracle RDBMS 架构图 2. Oracle 体系结构 由此区分database和instance的区别 No.1.oracle serverdatabase instance2.databasedata file、control file、redo log file3.instancean instance accesses a database4.oracle memorySGA PGA(oracle的内存结构)5.instanceSGA …

用C语言写一个函数,把字符串转换成整数

这是一个很有意思的问题。请不要把这个问题想的太简单了,考虑问题时应该尽可能的全面一些。请先思考并且实现这个函数,再来看讲解。 分析一下:函数名是StrToInt,那么可以这么调用: int ret StrToInt("1234&quo…

前端后端交互系列之Jquery下的Ajax

目录前言Jquery发送Ajax请求1. 引入jquery文件2. 页面结构3. 发送get请求4. 发送post请求5. 通用方法总结前言 本篇文章讲解的是Jquery下的Ajax。Jquery到现今用的不是很多,但是会有老的项目依旧使用Jquery,所以了解用Jquery实现利用ajax进行交互是有必…

SpringCloud微服务技术栈.黑马跟学(十二)

SpringCloud微服务技术栈.黑马跟学 十二今日目标服务异步通信-高级篇1.消息可靠性1.1.生产者消息确认1.1.1.修改配置1.1.2.定义Return回调1.1.3.定义ConfirmCallback1.2.消息持久化1.2.1.交换机持久化1.2.2.队列持久化1.2.3.消息持久化1.3.消费者消息确认1.3.1.演示none模式1.3…

蓝桥杯刷题冲刺 | 倒计时6天

作者:指针不指南吗 专栏:蓝桥杯倒计时冲刺 🐾马上就要蓝桥杯了,最后的这几天尤为重要,不可懈怠哦🐾 文章目录1.凑数2.砝码称重1.凑数 题目 链接: 4941. 凑数 - AcWing题库 初始时,n0…

CesiumForUnreal实现贴地面(SurfacePolygon)效果

文章目录 1.实现目标2.实现过程2.1 材质实例2.2 Cartographic Polygon2.3 Runtime环境使用2.4 效果测试2.5 遇到的UE崩溃问题与解决3.参考资料1.实现目标 基于UE5的Cesium-Unreal插件添加在线世界地形Cesium World Terrain,在地形表面绘制Polygon面,并使其紧贴地形,实现贴地…

实验四 配置OSPF协议

目录 一、实验内容 二、实验环境 三、实验步骤 一、实验内容 在配置NAT实验的基础上,增加R0到R1的GRE VPN隧道,并将10.0.0.0/24网络和192.168.0.0/24网络通过GRE隧道192.168.2.0/24网络连通,使用OSPF协议路由,使得PC2能访问PC0…

MongoDB - 索引知识

索引简介 什么是索引 索引最常用的比喻就是书籍的目录,查询索引就像查询一本书的目录。 索引支持 MongoDB 查询的高效执行。如果没有索引,MongoDB 必须扫描集合中每一个文档,以选择与查询语句相匹配的文档。如果查询存在适当的索引&#x…

深入学习JavaScript系列(七)——Promise async/await generator

本篇属于本系列第七篇 第一篇:#深入学习JavaScript系列(一)—— ES6中的JS执行上下文 第二篇:# 深入学习JavaScript系列(二)——作用域和作用域链 第三篇:# 深入学习JavaScript系列&#xff…