GPT状态和原理 - 解密OpenAI模型训练

GPT状态和原理 - 解密OpenAI模型训练

article2025/3/29 0:40:26/文章来源:https://blog.csdn.net/u013171226/article/details/137860900

目录

1 如何训练 GPT 助手

1.1 第一阶段 Pretraining 预训练

1.2 第二阶段：Supervised Finetuning有监督微调

1.3 第三阶段 Reward Modeling 奖励建模

1.4 第四阶段 Reinforcement Learning 强化学习

1.5 总结

2 第二部分：如何有效的应用在您的应用程序

2.1 一些技巧可以提升GPT的表现

2.1.1 如果任务需要推理，不能指望 transformer 对每个标记进行太多推理，必须将推理分散到越来越多的标记上。

2.1.2 可以问它：“你完成任务了吗”，来推动它进行检查。

参考文献：

【精校版】Andrej Karpathy微软Build大会精彩演讲： GPT状态和原理 - 解密OpenAI模型训练_哔哩哔哩_bilibili

在B站上看的一个视频，简单记一下笔记。

1 如何训练 GPT 助手

训练过程分为4个阶段，其中第一个阶段属于 PreTrain，而后面3个阶段属于微调 FineTune。，在FineTune的3个阶段（Supervised FineTuning + Reward Modeling + Reinforcement Learning），模型按SFT->RM->RL的方向进化

1.1 第一阶段 Pretraining 预训练

所有计算工作基本发生的地方，是训练计算时间的 99%。

在实际训练数据之前，还需要经过一个预处理步骤即标记化

1.2 第二阶段：Supervised Finetuning有监督微调

个人理解：这个地方我的理解是，其实GPT并不是一个问答模型，它本质上还是用来预测文档的下文的，只不过我们把训练数据的文档里面写了一些问题和答案，然后这样GPT预测文档下文时就相当于是回答了我们的问题。

基础模型不是助手，他们不想回答你的问题，他们只是想完成文件，

在有监督的微调阶段，我们将收集少量但高质量的数据集。在这种情况下，将要求人工承包商收集及时和理想响应形式的数据，将收集很多，通常是上万个。

1.3 第三阶段 Reward Modeling 奖励建模

进入 RLHF，从人类反馈中强化学习，包括奖励建模和强化学习。在奖励建模中，是将数据收集转变为比较形式

transformer 会根据prompt的完成程度预测一些奖励，所以它对每个完成的质量进行了猜测。我们将其制定为损失函数，并训练模型做出与来自所有承包商比较的基本事实一致的奖励预测，这使我们能够对提示的完成程度进行评分

奖励模型本身作为助手不是很有用，但是对于下面的强化学习阶段非常有用。因为有了奖励模型，所以可以对任何给定提示的任意完成的质量进行评分

1.4 第四阶段 Reinforcement Learning 强化学习

针对奖励模型进行强化学习

1.5 总结

基础模型有很多熵

伯克利的一个团队做的排名：

2 第二部分：如何有效的应用在您的应用程序

人在写作的时候，有一个独立的过程，几乎是在检查正在写的东西，并判断它是否好，然后也许删除了，也许重新构造，也许对结果感到满意，有很多的内心独白。

但是，在训练 GPT 的时候，这样的句子是什么样的？

从 GPT 的角度，只是一个标记序列(tokens)。当GPT在接收到一个输入，比如你给出的主题。它会生成一段与输入相关的文本，GPT的目标是预测下一个词，所以它会连续生成一串词，形成一段连贯的文本。

他们不知道他们不知道什么，不知道自己擅长什么、不擅长什么，不检查任何东西。它不会纠正自己的错误，它只是产生抽样的标记序列

他们的头脑中没有单独的内心独白流，他们正在评估正在发生的事情。但他们确实有认知优势，拥有大量基于事实的知识涵盖大量领域。

prompt 只是弥补了这两种架构之间的认知差异。

2.1 一些技巧可以提升GPT的表现

2.1.1 如果任务需要推理，不能指望 transformer 对每个标记进行太多推理，必须将推理分散到越来越多的标记上。

设定步骤来引导GPT展示其工作过程（Chain of Though）

此外可以通过说“let's think step by step”，使得transformer 有点像展示它的工作

2.1.2 可以问它：“你完成任务了吗”，来推动它进行检查。

人类的工作里，可以开始写，没有成功，可以再试一次；多次尝试，选择一个最好的

而 transformer遇到死胡同则会继续走下去，即使他们知道会失败

参考文献：

【精校版】Andrej Karpathy微软Build大会精彩演讲： GPT状态和原理 - 解密OpenAI模型训练_哔哩哔哩_bilibili

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/552514.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【Linux】Linux信号

【Linux】Linux信号

目录信号的概念生活中的信号 Linux中的信号 kill命令 kill 命令的使用常见的信号命令行代码示例注意事项信号的处理方式产生信号信号的捕捉信号捕捉示意图内核如何实现信号捕捉信号的捕捉与处理小结阻塞信号信号在内核中的表示图信号集操作函数…

阅读更多...

如何学习嵌入式Linux？

如何学习嵌入式Linux？

如何去学习嵌入式 Linux 呢？嵌入式底层开发毫无疑问是一项极为关键重要的技术，其被广泛地应用于形形色色的嵌入式系统之中。伴随科技的迅猛飞速发展，嵌入式系统已然成为了我们生活中不可或缺的一个组成部分，这也极为凸显出了嵌入式…

阅读更多...

基于 Bazel 的 iOS Monorepo 工程实践

基于 Bazel 的 iOS Monorepo 工程实践

在之前很长一段时间里，哔哩哔哩 iOS 工程是使用 Polyrepo（或者说 Multirepo，即多仓库）的传统模式进行开发。但是随着业务的发展，我们的代码仓库的数量也随之膨胀，我们慢慢发现 Polyrepo 模式并不一定是适合…

阅读更多...

DDoS攻击愈演愈烈，谈如何做好DDoS防御

DDoS攻击愈演愈烈，谈如何做好DDoS防御

DDoS攻击是目前最常见的网络攻击方式之一，各种规模的企业包括组织机构都在受其影响。对于未受保护的企业来讲，每次DDoS攻击的平均成本为20万美元。可见，我们显然需要开展更多的DDoS防御工作。除考虑如何规避已发生的攻击外，更重要…

阅读更多...

手机副业赚钱秘籍：让你的手机变成赚钱利器

手机副业赚钱秘籍：让你的手机变成赚钱利器

当今社会，智能手机已然成为我们生活不可或缺的一部分。随着技术的飞速进步，手机不再仅仅是通讯工具，而是化身为生活伴侣与工作助手。在这个信息爆炸的时代，我们时常会被一种焦虑感所困扰：如何能让手机超越消磨时光的定…

阅读更多...

关于Git的一些基础用法

关于Git的一些基础用法

关于Git的一些基础用法 1. 前言2. 使用GitHub/gitee创建项目2.1 创建账号2.2 创建项目2.3 下载仓库到本地2.4 提交代码到远端仓库2.5 查看日志2.6 同步远端仓库和本地仓库 1. 前言首先说一个冷知识（好像也不是很冷），Linux和git的创始人是同…

阅读更多...

CC254X 8051芯片手册介绍

CC254X 8051芯片手册介绍

1 8051CPU 8051是一种8位元的单芯片微控制器，属于MCS-51单芯片的一种，由英特尔(Intel)公司于1981年制造。Intel公司将MCS51的核心技术授权给了很多其它公司，所以有很多公司在做以8051为核心的单片机，如Atmel、飞利浦、深联华等公…

阅读更多...

C++：类型转换

C++：类型转换

目录 1、C语言中的类型转换 2、C的四种类型转换 2.1 static_cast 2.2 reinterpret_cast 2.3 const_cast 2.4 dynamic_cast 3 RTTI 1、C语言中的类型转换如果赋值运算符左右两侧类型不同，或者形参与实参类型不匹配，或者返回值类型与接收返回值…

阅读更多...

TexStudio + MikTex 手动安装宏包

TexStudio + MikTex 手动安装宏包

遇到上面这个 “宏包安装” 提示窗口后，设置来源为本地，随后在这个网址 https://mirrors.ustc.edu.cn/CTAN/systems/win32/miktex/tm/packages/ 下载所需的宏包，放到本地仓库里，即可有三个宏包是必须要有的，它们是索…

阅读更多...

上下文输入无限制，谷歌发布Infini-Transformer

上下文输入无限制，谷歌发布Infini-Transformer

去年，百川智能发布号称全球最长的上下文窗口大模型Baichuan2-192K，一次性可输入35万字，超越GPT-4。今年3月，Kimi智能助手宣布在上下文窗口技术上突破200万字。紧追其后，国内各大互联网巨头纷纷布局升级自家大模型产…

阅读更多...

JAVA基础08- 继承，重写，super以及this

JAVA基础08- 继承，重写，super以及this

目录继承（extends） 定义说明作用方法的重写定义重写关键点方法重写与重载的区别练习练习1（方法继承与重写的简单练习） 练习2（方法继承与重写的进阶练习） This的使用定义作用以及注…

阅读更多...

Postman之版本信息查看

Postman之版本信息查看

Postman之版本信息查看一、为何需要查看版本信息？二、查看Postman的版本信息的步骤一、为何需要查看版本信息？ 不同的版本之间可能存在功能和界面的差异。二、查看Postman的版本信息的步骤 1、打开 Postman 2、打开设置项点击页面右上角的 “Set…

阅读更多...

MyBatis 源码分析 - SQL 的执行过程

MyBatis 源码分析 - SQL 的执行过程

MyBatis 源码分析 - SQL 的执行过程 * 本文速览本篇文章较为详细的介绍了 MyBatis 执行 SQL 的过程。该过程本身比较复杂，牵涉到的技术点比较多。包括但不限于 Mapper 接口代理类的生成、接口方法的解析、SQL 语句的解析、运行时参数的绑定、查询结果自动映射、延…

阅读更多...

基于SpringBoot+Vue的二手车交易系统的设计与实现（源码+文档+包运行）

基于SpringBoot+Vue的二手车交易系统的设计与实现（源码+文档+包运行）

一.系统概述如今社会上各行各业，都喜欢用自己行业的专属软件工作，互联网发展到这个时候，人们已经发现离不开了互联网。新技术的产生，往往能解决一些老技术的弊端问题。因为传统二手车交易信息管理难度大，容错率低&…

阅读更多...

Connection: keep-alive 简介

Connection: keep-alive 简介

一、在使用fiddler抓包工具会出现如下场景二、keep-alive 保持连接 "Connection: keep-alive" 是 HTTP 协议中的一个头部字段，用于指示客户端和服务器之间的连接是否保持活跃状态。当客户端发送一个 HTTP 请求给服务器时，可以在请求头部中包…

阅读更多...

阿里云4核8G云服务器价格多少钱？700元1年

阿里云4核8G云服务器价格多少钱？700元1年

阿里云4核8G云服务器价格多少钱？700元1年。阿里云4核8G服务器租用优惠价格700元1年，配置为ECS通用算力型u1实例（ecs.u1-c1m2.xlarge）4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选，CPU采用Intel(R) Xeon(R…

阅读更多...

储能系统--BMS电流采样详解

储能系统--BMS电流采样详解

一、行业标准介绍汽车电池管理系统储能电池管理系统二、BMS电流采样 （1）电流采样的作用电流传感器一般会位于动力电池系统主正或主副回路测量整个电池包的电流，电流信号会送到BMS，给BMS做充放电控制，电池SOC、SO…

阅读更多...

pip安装swig@FreeBSD

pip安装swig@FreeBSD

SWIG (Simplified Wrapper and Interface Generator) 是一个用于连接 C/C 代码与其他高级编程语言（如Python、Java、C# 等）的工具。它允许开发人员将现有的 C/C 代码封装成可以在其他语言中调用的接口，而无需手动编写大量的代码。 SWIG 的工…

阅读更多...

编程入门（三）【GPT工具的使用】

编程入门（三）【GPT工具的使用】

读者大大们好呀！！!☀️☀️☀️ 🔥 欢迎来到我的博客 👀期待大大的关注哦❗️❗️❗️ 🚀欢迎收看我的主页文章➡️寻至善的主页文章目录前言背景了解GPT工具使用技巧GPT工具在学习和工作中的应用前言背景了解 2…

阅读更多...

OpenStack云平台实战

OpenStack云平台实战

1、环境准备主机CPU数量内存硬盘IPV4发行版controller48GB100GBens33: 192.168.110.27/24 esn34: 192.168.237.131/24CentOS 7.9compute48GB200GB、100GBens33: 192.168.110.26/24 esn34: 192.168.237.132/24CentOS 7.9 1.1 虚拟机安装部署 1.1.1 创建虚拟机这里16或者17都…

阅读更多...

最新文章