GPT、GPT-2、GPT-3论文精读笔记

视频:GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili

MAE论文:把bert用回计算机视觉领域

CLIP论文:打通文本和图像

GPT

论文:Improving Language Understanding by Generative Pre-Training

半监督学习:使用没有标号的文本进行预训练一个语言模型,用有标号的数据训练一个微调模型

Bert是Transformer的encoder(既能用前面 也能用后面特征),GPT是Transformer的decoder部分(带掩码的注意力机制,因为任务是预测下一个词,只能用来自前面的特征)

Bert是带掩码的语言模型,完形填空(挖掉中间的词 用上下文来预测该词)

无标号数据上做预训练

目标函数1:

给定 k 个词 预测下一个词,如何预测:

和Bert的区别不只是编码器解码器,更主要的区别是目标函数的选取,GPT的目标函数更难

有标号数据上做微调

标准的分类目标函数2:

将语言模型作为微调的辅助,得到的目标函数:

接下来考虑怎么把NLP中很多不一样的子任务表示成序列+标号的形式,调整数据而不调整模型,预训练好Transformer模型后 在做下游任务时候不需要改变模型结构(GPT跟以往相比的特点)

实验部分

12层Transformer的decoder 每层维度768(跟bert-base一样)

在预训练语言模型时是在自然文本上训练,但在下游任务时对其输入进行了构造(开始 结束 分隔符)

GPT-2

论文:Language Models are Unsupervised Multitask Learners

改进对每一个下游任务都需要微调(在每一个任务上还要提供部分样本用于训练)的缺点,好处是训练一个模型 在任何地方都能用

zero-shot

做到下游任务时,不需要任何标注信息,也不需要训练模型,使用 prompt

采样策略

预测出下一个词的概率,不一定选择概率最大的 可能希望具有多样性

参数 Temperature、Top k、Top p

Temperature = 1:不变,softmax 选出概率最大的数

Temperature越大,越多样

Top k:采样前k个词

Top p:累加概率 达到该概率就停止采样,一般95%

GPT-3

论文:Language Models are Few-Shot Learners

在做下游任务时不做任何梯度更新

核心的下游任务方式:

  • Zero-shot
  • One-shot:给出一个参考的问题和回答,要GPT根据给出的参考回答一个新问题
  • Few-shot

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/184370.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android开发从0开始(Activity篇)

Activity的生命周期 对应解释: startActivity(new Intent(源页面.this,目标页面.class)) 结束当前活动页面finish(); Activity的启动模式 App先后打开两个活动,此时活动会放入栈内。 (Android:launchMode”standard”)默认 &am…

全自动洗衣机什么牌子好?内衣洗衣机推荐

现在洗内衣内裤也是一件较麻烦的事情了,在清洗过程中还要用热水杀菌,还要确保洗衣液是否有冲洗干净,还要防止细菌的滋生等等,所以入手一款小型的烘洗全套的内衣洗衣机是非常有必要的,专门的内衣洗衣机可以最大程度减少…

实时语音克隆:5 秒内生成任意文本的语音 | 开源日报 No.84

CorentinJ/Real-Time-Voice-Cloning Stars: 43.3k License: NOASSERTION 这个开源项目是一个实时语音克隆工具,可以在5秒内复制一种声音,并生成任意文本的语音。 该项目的主要功能包括: 从几秒钟的录音中创建声纹模型根据给定文本使用参考…

聚类笔记/sklearn笔记:Affinity Propagation亲和力传播

1 算法原理 1.1 基本思想 将全部数据点都当作潜在的聚类中心(称之为 exemplar )然后数据点两两之间连线构成一个网络( 相似度矩阵 )再通过网络中各条边的消息( responsibility 和 availability )传递计算出各样本的聚类中心。 1.2 主要概念 Examplar聚类中心similarity S(i…

GitHub桌面版

GitHub桌面版 一、GitHub 桌面版二、clone 仓库三、更新仓库 一、GitHub 桌面版 二、clone 仓库 三、更新仓库

GDPU 数据结构 天码行空11

文章目录 数据结构实验十一 图的创建与存储一、实验目的二、实验内容三、【实验源代码】🍻 CPP版🍻 c 语言版🍻 java版 四、【实验结果】五、【实验总结】 数据结构实验十一 图的创建与存储 一、实验目的 1、 理解图的存储结构与基本操作&a…

mac电脑系统活动监控:iStat Menus 中文 for Mac

iStat Menus是一款Mac操作系统上的系统监控工具,它提供了实时的系统状态和性能数据,让用户可以方便地监控和管理自己的电脑。iStat Menus以菜单栏图标的形式显示各种系统指标,用户可以轻松访问和查看这些信息。 以下是iStat Menus软件的一些…

基于SSM安全生产培训管理平台设计与实现 毕业设计源码26918

赠送源码-毕业设计:SSM 安全生产培训平台https://www.bilibili.com/video/BV1gH4y1z7c6/?vd_source72970c26ba7734ebd1a34aa537ef5301 目录 摘 要 Abstract 第1章 前 言 1.1 研究背景 1.2 研究现状 1.3 系统开发目标 第2章 系统开发环境 2.1 JAVA简介…

VOC数据集转换为COCO数据集

VOC数据集格式 get_list.py import os import random import shutil# 设置随机种子 random.seed(1000)# 判断Annotations和JpegImages是否对应 train_precent=0.8 label_path= "../../Annotations" print(os.path.abspath(label_path)) save="../Main" pr…

服务号升级成订阅号容易弄吗

服务号和订阅号有什么区别?服务号转为订阅号有哪些作用?一、文章推送的篇数不同服务号在文章的推送篇数上是有所限制的(每月推4次)订阅号则每天可推送一篇文章。二、定义不同服务号主要是为关注用户提供服务使用的;订阅…

千兆光模块和万兆光模块的发展趋势

千兆光模块和万兆光模块是一种高速光电子器件,以其高速传输、长距离传输和高可靠性而广受关注。光模块是光学通讯系统中极为重要的组成部分之一。不同类型的光模块由于其不同的特性,可以适用于不同的应用场景。下面我们将着重介绍千兆光模块和万兆光模块…

数据结构与算法之美学习笔记:25 | 红黑树(上):为什么工程中都用红黑树这种二叉树?

目录 前言什么是“平衡二叉查找树”?如何定义一棵“红黑树”?为什么说红黑树是“近似平衡”的?解答开篇 前言 本节课程思维导图: 二叉查找树是最常用的一种二叉树,它支持快速插入、删除、查找操作,各个操作…

了解冶金行业MES系统的重要性与优势

冶金行业生产工艺极为复杂,冶金行业生产的产品种类多而繁复,并且每种企业生产的产品差异性极大,加上该行业生产需要各种大型生产设备,导致其工艺流程繁琐复杂,也因此在其生产过程中存在许多不安全的因素,若…

uniapp打包的ipa上架到appstore的傻瓜式教程

​ 转载:uniapp打包的ipa上架到appstore的傻瓜式教程 uniapp打包 在HBuilder X编辑器中打开需要打包的项目,然后点击上面菜单栏中 发行 > 原生App-云打包,对以下弹出的弹窗进行内容填写 ​ 填写完成以后,点击打包操作 ​ ​ …

rk3588配置uac功能,android13使能uac及adb的复合设备

最近,因新增需求需要在现有产品上增加UAC的功能,查阅并学习相关知识后,在rk3588 SOC硬件平台搭载android13系统平台上成功配置了uac及uac&adb的复合设备。基于开源共享精神希望给大家提供些参考。 1.技术可行性预研 (1&#…

什么是 TLS/SSL 握手

TLS/SSL 握手是一个加密过程,每当客户端(如浏览器)与服务器建立连接时,都会在后台进行,此握手协议有助于客户端和服务器之间的安全连接,从而促进隐私、数据完整性和机密性。 TLS/SSL 握手何时发生 每当客…

Android笔记(十四):JetPack Compose中附带效应(一)

在Android应用中可以通过定义可组合函数来搭建应用界面。应用界面的更新往往是与可组合函数内部定义的状态值相关联的。当界面的状态值发生变更,会导致应用界面进行更新。在Android笔记(九):Compose组件的状态,对Compo…

数据库实验五 数据库设计

数据库实验五 数据库设计 一、实验目的二、实验内容三、实验内容四、验证性实验五、设计性实验 一、实验目的 1.了解E-R图构成要素以及各要素图元。 2.掌握概念模型E-R图的绘制方法。 3.掌握概念模型向逻辑模型的转换原则和步骤。 4.运用sql编程实现 二、实验内容 1.选取一个…

TCP 重传、滑动窗口、流量控制、拥塞控制的剖析

TCP 是一个可靠传输的协议,那它是如何保证可靠的呢? 为了实现可靠性传输,需要考虑很多事情,例如数据的破坏、丢包、重复以及分片顺序混乱等问题。如不能解决这些问题,也就无从谈起可靠传输。 那么,TCP 是…

使用骨传导耳机会伤耳朵吗?一文读懂骨传导耳机有哪些优点

首先说明,如果是正确的使用骨传导耳机是不会伤耳朵。 一、骨传导耳机的传声原理是什么? 声音的传播需要介质,传统的耳机是通过空气来进行传播,也被称为“空气传导耳机”,而骨传导耳机最大的特别之处就在于&#xff0…