Language Models are Unsupervised Multitask Learners,GPT-2详细讲解

在这里插入图片描述
在这里插入图片描述
1542M=1.542B=15.42亿个

背景和动机
1.GPT-1在特定自然语言理解任务标注较少情况下,通过利用大量无标注数据,取得较强性能
2.BERT性能超越GPT-1,GPT-2通过构建更大数据集和模型,同时在zero-shot的多任务学习场景中展示不错性能

创新
GPT-2创新: 1.实现zero-shot 的多任务学习 2.创建WebText数据集: 百万级文本数据集800万个文档,40GB(训练数据大且更加多样化,包含不同领域知识)
GPT-2在做下游任务时,无需任何标注信息,无需任何参数或架构的修改,无监督的语言模型直接进行下游任务,不受数据分布改变的影响
GPT-2模型本身没有太大变化和创新,适配各种任务的方式是比较大的突破,prompt

zero-shot情况下,如何实现不同任务下游任务?
GPT-1在下游任务finetune时,构建结构化指令,如Start和Extract识别符,用以区分不同任务。
在这里插入图片描述
GPT-2中没有finetune阶段,无各种特殊字符,那么怎么区分不同下游任务呢?提示prompt

作者认为,下游任务(有监督训练)可以视为预训练(无监督训练)的一个自己。无监督目标的全局最优解也是有监督训练的全局最优解。
当预训练模型足够大时,无监督训练任务训练好了,有监督的下游任务即不再需要额外训练,即所谓的“zero-shot”。
足够大的语言模型能够在无监督的预训练后做下游任务,但学习速度比显示监督方法慢得多。

怎么做下游任务:下游任务预先告之模型,“translate English to Chinese”,即给模型一个提示,prompt(可以被认为是一个特殊的分隔符)。

为什么加入prompt就可以理解不同任务了?
加入prompt能zero-shot完成下游任务。原因是在预训练模型的输入数据中,可能就包括一些和下游任务 Prompt 很像的文本。例如,如果预训练模型的输入数据中有
“你好”翻译成英文是 Hello,那么,在下游任务中,将 Prompt 设为“翻译成英文”,模型就能理解下游任务是要做什么了。

GPT-2模型结构
在这里插入图片描述
GPT1&GPT2
自回归工作方式
目标函数来最大化:
在这里插入图片描述

k 是上下文窗口的大小,模型看到前面 k 个词,然后预测下一个词是什么,再根据真实的下一个词来计算误差,并使用随机梯度下降来训练。
GPT-1、GPT-2的模型结构基于Transformer decoder,GPT-2变化:
(1)调整Transformer的decoder: 将归一化层移动到block的输入位置并且在最后一个self-attention之后加了一层归一化Layer Normalization,顺序为LN、self-attention、LN。
(2)改进初始化方法:考虑残差路径和模型深度的累积。初始化将residua layers的权重按照1/sqrt(N)因子进行缩放,N为residua layers数量。

(3)数据量扩增:GPT1:约5GB,GPT2:40GB,并且质量更高。
(4)词典被扩展到了50257,context的维度从512提高到了1024,并且batchsize采用了512。

(5)去掉了Fine-tune部分:使用了完全的无监督训练。这样使得预训练和Fine-tuning的结构完全一致。

(6)堆叠的层数增加:GPT-1使用的12层,GPT2分别使用了GPT-2 Small:12、GPT-2 Medium:24、GPT-2 Large:36、GPT-2 Extra Large:48层。

实验
通过8个方面的评估
(1) Language Modeling
语言建模的一个主要目标就是在zero-shot情况下提升表现,GPT-2系列的模型在8个zero-shot数据集中7个达到了sota。
(2)Children’s Book Test
儿童图书测试(CBT)检验语言模型在不同类别的词上的表现,比如命名实体、名词、动词和介词。主要是以完型填空的形式,让语言模型去预测10个选项中哪个最可能是正确的。GPT-2的做法是预测每个选项为这个空缺的概率,并取概率最高的为预测选项。
(3)LAMBADA
LAMBADA数据集测试模型对文本中长期依赖关系的建模能力。任务是预测最后一个单词,对于人来说想要预测准确必须了解至少50个token的context。
(4)Winograd Schema Challenge
Winograd Schema挑战旨在通过测量模型解决文本中的歧义的能力来衡量其进行常识推理的能力。
(5)Reading Comprehension
CoQA数据集由7个不同领域的文档和关于文档的自然语言对话组成,测试阅读理解能力和模型回答依赖于对话历史的问题的能力。
(6)Summarization
摘要标题。
(7)Translation
英语->法语、法语->英语。
(8)Question Answering
Natural Questions dataset问答能力测试。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977725.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ultralytics导出engine之后,用tensorrt c++ api加载报Serialization failed

一。问题复现 1.生成engine 在安装了ultralytics之后,或者直接用源码也一样。运行如下代码 (或者用命令行也行:yolo taskdetect modeexport model/home/kv183/tensorrt_starter/ultralytics-main/weights/yolov8s.pt formatengine ) from…

Milvus x DeepSeek 搭建低成本高精度 RAG 实战

为什么手握海量数据,却用不出真正的“智能”?要么 AI 模型学艺不精,答非所问;要么技术门槛太高,让普通开发者望而却步。现在,使用阿里云 Milvus 向量检索服务、DeepSeek 大模型和 PAI LangStudio 开发工具&…

Unity Shader 学习13:屏幕后处理 - 使用高斯模糊的Bloom辉光效果

目录 一、基本的后处理流程 - 以将画面转化为灰度图为例 1. C#调用shader 2. Shader实现效果 二、Bloom辉光效果 1. 主要变量 2. Shader效果 (1)提取较亮区域 - pass1 (2)高斯模糊 - pass2&3 (3&#xff…

学习路程五 向量数据库Milvus操作

前序 前面安装好了docker且成功拉取Milvus镜像,启动。通过python成功连接上了数据。接下来就继续更多Milvus的操作 在开始之前,先来简单了解一下向量数据库内一些东西的基本概念 概念描述数据库(Database)类似与MySQL的database…

pycharm安装教程-PyCharm安装破解步骤【MAC版】

pycharm安装教程-PyCharm2023安装破解步骤【MAC版】 破解安装安装包获取 今天来给大家分享 Mac 系统安装 PyCharm,附带资源 破解安装, PyCharm 相关就不叙述了,直接开始安装! 破解安装 打开下载的安装包 PyCharm2023.dmg&#x…

简单介绍 SSL 证书类型: DV、OV、EV 的区别

SSL证书类型DV、OV、EV 区别: DV(域名验证型)SSL证书 OV(组织验证型)SSL证书 EV(扩展验证型)SSL证书

NLP的预处理数据

处理文本数据的主要工具是Tokenizer。Tokenizer根据一组规则将文本拆分为tokens。然后将这些tokens转换为数字,然后转换为张量,成为模型的输入。模型所需的任何附加输入都由Tokenizer添加。 如果您计划使用预训练模型,重要的是使用与之关联的…

[Web 安全] PHP 反序列化漏洞 —— PHP 序列化 反序列化

关注这个专栏的其他相关笔记:[Web 安全] 反序列化漏洞 - 学习笔记-CSDN博客 0x01:PHP 序列化 — Serialize 序列化就是将对象的状态信息转化为可以存储或传输的形式的过程,在 PHP 中,通常使用 serialize() 函数来完成序列化的操作…

国科大——数据挖掘(0812课程)——课后作业

前沿: 此文章记录了2024年度秋季学期数据挖掘课程的三次课后作业,答案仅供参考。 第一次作业 1 假定数据仓库中包含4个维:date, product, vendor, location;和两个度量:sales_volume和sales_cost。 1)画…

从电子管到量子计算:计算机技术的未来趋势

计算机发展的历史 自古以来人类就在不断地发明和改进计算工具,从结绳计数到算盘,计算尺,手摇计算机,直到1946年第一台电子计算机诞生,虽然电子计算机至今虽然只有短短的半个多世纪,但取得了惊人的发展吗,已经经历了五代的变革。计算机的发展和电子技术的发展密切相关,…

Redis核心数据结构与底层实现

5种基础数据结构 String 字符串list 列表hash 字典set 集合zset 有序集合 deepseek的回答 String 内部编码 redis根据当前值的类型和长度决定使用哪种内部编码&#xff0c;共3种内部编码&#xff1a; int &#xff1a;value为整数时embstr : 短字符串&#xff08;长度<…

【我的Android进阶之旅】Android Studio SDK Update Site 国内的腾讯云镜像配置指南

一、腾讯云的镜像 https://mirrors.cloud.tencent.com/AndroidSDK/ 二、 打开 Android Studio‌的SDK Manager 路径:Tools–>SDK Manager 在右侧找到 SDK Update Sites 列表‌‌,添加如下链接,像下面一样,一个一个添加 将下面几个链接都加上去 https:

C++知识整理day9——继承(基类与派生类之间的转换、派生类的默认成员函数、多继承问题)

文章目录 1.继承的概念和定义2.基类与派生类之间的转换3.继承中的作用域4.派生类的默认成员函数5.实现一个不能被继承的类6.继承与友元7.继承与静态成员8.多继承和菱形继承问题8.1 继承分类及菱形继承8.2 虚继承 1.继承的概念和定义 概念&#xff1a; 继承(inheritance)机制是⾯…

OpenCV计算摄影学(2)图像去噪函数denoise_TVL1()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 原始-对偶算法是用于解决特定类型变分问题&#xff08;即&#xff0c;寻找一个函数以最小化某个泛函&#xff09;的算法。特别地&#xff0c;图像…

【Kimi】自动生成PPT-并支持下载和在线编辑--全部免费

【Kimi】免费生成PPT并免费下载 用了好几个大模型&#xff0c;有些能生成PPT内容&#xff1b; 有些能生成PPT&#xff0c;但下载需要付费&#xff1b; 目前只有Kimi生成的PPT&#xff0c;能选择模板、能在线编辑、能下载&#xff0c;关键全部免费&#xff01; 一、用kimi生成PP…

SQL注入(order by,limit),seacms的报错注入以及系统库的绕过

1&#xff1a;如果information_schema被过滤了&#xff0c;该怎么绕过 1.1&#xff1a;介绍一下information_schema这个库 information_schema 是一个非常重要的系统数据库&#xff0c;它在SQL标准中定义&#xff0c;并且被许多关系型数据库管理系统&#xff08;RDBMS&#x…

猿大师播放器:交通水利、公安消防Web端Vue网页播放20路RTSP H.265 1080P监控视频流

随着互联网技术的飞速发展&#xff0c;视频监控已成为各行各业不可或缺的一部分。无论是交通物流、公安消防&#xff0c;还是水利农业、园区校园&#xff0c;视频监控都扮演着至关重要的角色。然而&#xff0c;传统的视频监控解决方案往往依赖于特定的客户端软件&#xff0c;这…

Vue3 + Spring WebMVC 验证码案例中的跨域问题与解决方法

最近在基于vue3 SpringWebMVC前后端分离的开发环境中实现一个验证码的案例&#xff0c;在开发过程中遇到了一些复杂的跨域问题&#xff0c;现已解决&#xff0c;故将解决方法分享&#xff0c;希望能帮到有需要的人。 出现的问题&#xff1a; 对于验证码的实现&#xff0c;我选…

Mac 版 本地部署deepseek ➕ RAGflow 知识库搭建流程分享(附问题解决方法)

安装&#xff1a; 1、首先按照此视频的流程一步一步进行安装&#xff1a;(macos版&#xff09;ragflowdeepseek 私域知识库搭建流程分享_哔哩哔哩_bilibili 2、RAGflow 官网文档指南&#xff1a;https://ragflow.io 3、RAGflow 下载地址&#xff1a;https://github.com/infi…

蛋白质研究常用数据库系列1

一系列常用的蛋白质研究数据库 一 蛋白综合数据库 1.1 Uniprot UniProt&#xff08;Universal Protein Resource&#xff0c;https://www.uniprot.org/&#xff09;是一个免费开放的综合性蛋白质数据库。该数据库蛋白信息来源于EMBL、GenBank、DDBJ等公共数据库&#xff08;非…