论文笔记--GPT-4 Technical Report

论文笔记--GPT-4 Technical Report

  • 1. 报告简介
  • 2. 报告概括
  • 3 报告重点内容
    • 3.1 Predictable Scaling
    • 3.2 Capabilities
    • 3.3 limitations
    • 3.3 Risks & mitigations
  • 4. 报告总结
  • 5. 报告传送门
  • 6. References

1. 报告简介

  • 标题:GPT-4 Technical Report
  • 作者:OpenAI
  • 日期:2023
  • 期刊:arxiv preprint

2. 报告概括

  本文是OpenAI发布的GPT-4的技术报告,主要针对GPT-4的能力、局限和风险性等方面进行测评。GPT-4是个多模态模型,支持文本和图像格式的输入。但OpenAI并没有公布GPT-4实现的技术细节,仅在一些场景给出了推理时的prompt,可供用户参考。

3 报告重点内容

3.1 Predictable Scaling

  首先,文章对GPT-4的整体损失进行了分析。根据最近的研究成果,模型的损失和模型的计算量(compute)满足幂律关系。为了判断GPT-4是否满足该关系,文章首先用和GPT-4相同的训练方法(未交代具体方法)训练参数/计算量更小的模型,得到一组compute VS loss的数据对(如下图中的实心黑点),再用这些数据拟合一个幂律模型: L = a C b + c L=aC^b + c L=aCb+c(下图中的虚线)。可以看到GPT-4(绿色原点)恰好在该幂律模型上,说明GPT-4的loss是可以被精准预测的。
  PS:查了很多资料,才明白x轴的单位分别是

  • 1 p = 1 p i c o = 1 0 − 12 1p=1pico = 10^{-12} 1p=1pico=1012
  • 1 n = 1 n a n o = 1 0 − 9 1n=1nano = 10^{-9} 1n=1nano=109
  • 1 μ = 1 m i c r o = 1 0 − 6 1\mu=1micro = 10^{-6} 1μ=1micro=106
    所以下图中的横轴分别对应 1 0 − 10 , 1 0 − 8 , 1 0 − 6 , 1 0 − 4 , 1 0 − 2 , 1 10^{-10}, 10^{-8}, 10^{-6}, 10^{-4}, 10^{-2}, 1 1010,108,106,104,102,1,分别表示参数量与GPT-4的参数量的比值(GPT-4所在点 x = 1 x=1 x=1)。
    predictable loss
      接下来,文章采用类似的方法评估GPT-4在代码生成任务上的loss拟合情况。文章选用Codex[1]论文中提出的编程问题数据集HumanEval,可以评估模型生成Python函数的能力。文章发现模型的平均通过率也可以通过下述方式你和幂律定理: − E P [ log ⁡ ( pass _ rate ( C ) ) ] = α ∗ C − k -E_P[\log (\text{pass}\_\text{rate}(C))] = \alpha * C^{-k} EP[log(pass_rate(C))]=αCk,其中 α > 0 , k > 0 \alpha>0, k>0 α>0,k>0是两个常数,即将上述的损失函数替换成了代码的平均对数通过率。下图展示了平均对数通过率 VS compute的拟合情况。predictable loss code
      此外,文章在ISP提出的一些其它任务上进行loss 拟合,和一些近期研究得到了一致的结论:GPT-4给出了相反的准确率走势。如下图所示,在GPT-4之前的几个模型随着参数增加,准确率反倒降低(Inverse Scaling),但最大的GPT-4模型的准确率是最高的。
    predictable loss ISP

3.2 Capabilities

  在评估GPT-4的能力之前,文章首先对各个待评估的数据集(eval set)分别进行了重复校验:对eval set中的每个样例,我们随机选择它3个字符大小为50的子字符串,如果训练集中某条数据包含3条中任意1条,则认为该数据和eval set是重复的。重复校验之后,文章会剔除训练集中和eval set重复的所有数据重新训练一个模型,记作GPT-4(no contam),用GPT-4和GPT-4(no contam)分别评估eval set。
  GPT-4是一个多模态模型,但我们的对比模型GPT-3.5仅接受文字输入。为此OpenAI训练了两个模型来进行对比:GPT-4和GPT-4(no vision)。
  文章在多个领域测试了GPT-4的能力:

  1. 考试:文章考虑的考试包括两种形式的问题,分别为多选题和自由回答题。针对多选题,模型采用few-shot learning,即提供几个和考试格式相似的样例和解释作为测试用例的上下文输入模型;针对自由作答提目,模型采用自由作答的prompt直接输入模型,针对其中涉及到写作质量的考核问题,我们会随机采样一个高质量的GRE文章放入prompt生成回答。首先,一系列数值实验表明,GPT-4和GPT-4(no contam)差异不大,即重复的数据集对结果表现影响不大;GPT-4和GPT-4(no vision)差异不大,即训练集中增加图像对文本类结果表现影响不大。然后,OpenAI测试了GPT-4、GPT-3.5在UBE上考试的结果。如下图,GPT-4的表现优于GPT3.5。注意到每个bar的100%是以人类未通过的百分比计算的。比如在AP biology科目中,GPT-4得到了最高分(5/5),但该项图中bar的顶点为85%,是因为人类评估结果中有15%的比例得到满分。总结下来,GPT-4的考试能力显著高于其它LLM,且在所有参加考试的人中得分Top10%。
    UBE-res
      为了证明GPT-4在其它语言上的能力,文章将MMLU benchmarks翻译为多种语言。注意到这里文章使用了其它翻译器(Azure Translation)进行翻译。文章对指令、问题和回答选项都进行了翻译,只保留英语的"Answers: "和"A), B), C), D)"选项的标志,如下表所示。实验表明,GPT-4在几乎所有测试语言上的考试能力都超过了GPT-3.5在英文上的表现。
    mmlu-trans
  2. 图像输入:GPT-4可同时输入文本和图像,最后返回文本格式。实验证明,GPT-4对包括截图、照片、图表等各种图像输入的理解能力都很不错。下图是 一个GPT-4处理多模态数据的示例
    visual input

3.3 limitations

  类似GPT-3.5,GPT-4也有一些局限。但相比于GPT-3.5,GPT-4显著减少了hallucinations且提升了factuality[2]:
factuality
  GPT-4仍存在很多其它问题:如在TruthfulQA上模型对“找出正确的事实”仍会判断错误,但RLHF之后在该数据集上表现相比于GPT-3.5有显著提升;GPT-4大部分数据都是来自2021年9月之前,对此后的知识储备薄弱;GPT-4可能会犯一些简单的推理错误;GPT-4易被用户的一些错误陈述影响;GPT-4在一些复杂问题上解决能力有限…

3.3 Risks & mitigations

  类似InstructGPT[2],文章测试了GPT-4的潜在风险。为了提升模型的安全性,文章通过RLHF将GPT-4对齐人类意图,并通过基于规则的奖励模型RBRMs(一系列zero-shot GPT-4分类器)对RLHF提供奖励机制。简单来说,当模型不拒绝安全的请求时,RBRMs会奖励模型;当模型拒绝危险的请求时,RBRMs会奖励模型。实验证明,相比于GPT-3.5,GPT-4的安全性又了显著提升。

4. 报告总结

  报告给出了GPT-4的一些能力、风险实验结果,展示了GPT-4在多个NLP任务中优于GPT3.5等现存的LLMs,且安全性有很大幅度的提升。但GPT-4仍存在很多缺点和安全隐患,如数据大部分为2021年之前的语料,OpenAI会致力于继续提升GPT系列模型的能力。

5. 报告传送门

GPT-4 Technical Report

6. References

[1] 论文笔记–Evaluating Large Language Models Trained on Code
[2] 论文笔记–Training language models to follow instructions with human feedback

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/31388.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【ABAP】数据类型(四)「类型组TYPE-POOL」

💂作者简介: THUNDER王,一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学本科在读,同时任汉硕云(广东)科技有限公司ABAP开发顾问。在学习工作中,我通常使用偏后端的开发语言ABAP,SQL进行任务的完成,对SAP企业管理系统,SAP ABAP开发和数据库具有较…

Mac安装chromedriver

一、chromedriver下载 1、打开chrome浏览器输入:chrome://settings/help 查看当前chrome版本     2、下载对应的chromedriver版本 下载地址:http://chromedriver.storage.googleapis.com/index.html 选择mac系统的chromedriver 直接解压该文件 3、…

SpringBoot使用MockMVC单元测试Controller

前言: 在SpringBoot应用程序中,Controller是接受客户端请求并返回响应数据的核心组件。为了保证Controller的正确性和稳定性,我们可以使用MockMVC框架进行单元测试。MockMVC是Spring框架提供的一个HTTP客户端,用于模拟HTTP请求和响…

华为云“企业快成长大数据与微服务技术创新论坛”成功举办

6月16日,由华为云、msup、厦门火炬大学堂、厦门市行业软件协会联合主办的“企业快成长大数据与微服务技术创新论坛”在厦门成功举办。本次活动汇聚了华为云、珍爱网等知名企业的CTO和技术专家,通过技术案例解析了大数据平台构建、微服务演进等内容&#…

Golang笔记:使用json包处理JSON数据

文章目录 目的Decoding(解析数据)Encoding(创建数据)总结 目的 JSON 是一种非常流行的数据交换格式,是JavaScript中原生支持的一种数据,因为其简单方便,所以也经常用在不同程序、不同语言间数据…

【FPGA入门】第七篇、FPGA实现VGA接口驱动

目录 第一部分、实验结果 1、横的三色彩条效果 2、竖的三色彩条效果 第二部分、VGA驱动基本知识 1、VGA分辨率问题 2、VGA驱动波形 2.1、工业标准的时序波形图 2.2、比上面那张图更容易理解的图 2.3、每个区域对应的时间 2.4、不同分辨率的表格 3、VGA扫描范…

【Vue全家桶高仿小米商城】——(四)项目基础架构

第四章:项目基础架构 此章节全力讲解前端基本项目架构,通过此章节可搭建一个通用性的前端架构,内容涵盖跨域方案、路由封装、错误拦截等。 文章目录 第四章:项目基础架构一、前端跨域解决什么是前端跨域?怎么解决前端…

项目调研丨多区块并行处理公链 Transformers 研究报告

目录 一、项目简介 二、项目愿景 三、特色和优势 (1)速度 (2)安全 (3)可扩展性 (4)高度定制 (5)不可篡改 (6)所有数据公开透…

自然语言处理从入门到应用——动态词向量预训练:双向语言模型

分类目录:《自然语言处理从入门到应用》总目录 对于给定的一段输入文本 w 1 w 2 ⋯ w n w_1w_2\cdots w_n w1​w2​⋯wn​,双向语言模型从前向(从左到右)和后向(从右到左)两个方向同时建立语言模型。这样做…

论文阅读 - SegFormer

文章目录 1 概述2 模型说明2.1 总体结构2.2 Hierarchical Transformer Encoder2.3 Lightweight All-MLP Decoder 3 SegFormer和SETR的比较参考资料 1 概述 图像分割任务和图像分类任务是非常相关的,前者是像素级别的分类,后者是图像级别的分类。基于分类…

ARM、ARM架构、ARM架构芯片

ARM是一种基于精简指令集(RISC)的处理器架构,它由英国的ARM公司设计和授权。 ARM芯片具有低功耗、高性能、高集成度等特点,广泛应用于嵌入式系统、移动设备、物联网、服务器等领域。本文将介绍ARM的各类芯片,包括其特…

卷积神经网络中池化层的详细介绍

卷积神经网络自2012年,到2023年经历了翻天覆地的变化。最早的卷积神经网络由卷积层、池化层和全连接层所构成。其中卷积层用于提取图像的特征,池化层削减特征数量,全连接层用于对特征进行非线性组合并预测类别。然而在transformer横行的年代&…

基于卡尔曼滤波进行四旋翼动力学建模(SimulinkMatlab)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

笔记本电脑介绍:记录生活,激发灵感

笔记本电脑是一种轻便、便携的电脑,它的出现改变了人们的工作和生活方式,它的优势在于它的小巧、轻便、便携性,可以满足用户的不同需求。本文将从笔记本电脑的结构、功能、优势和应用四个方面进行详细阐述。 一、笔记本电脑的结构 笔记本电…

十八、网络基础(一)

文章目录 一、协议(一)前置(二)协议分层1.软件分层2.协议分层3.OSI七层模型4.TCP/IP五层(或四层)模型(1)物理层:(2)数据链路层:(3)数据链路层:(4&…

Golang每日一练(leetDay0104) 最小高度树、戳气球

目录 310. 最小高度树 Minimum Height Trees 🌟🌟 312. 戳气球 Burst Balloons 🌟🌟🌟 🌟 每日一练刷题专栏 🌟 Rust每日一练 专栏 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一…

普通单目相机标定

前言 这里我们还是以普通相机为例(非鱼眼相机)来进行后续的相关标定操作,再回顾下相机的成像模型如下所示。 已知相机内参(fx,fy,u0,v0),畸变系数[k1,k2,k3,p1,p2],相机外参[R|T]。世界坐标系中点Pw(Xw,Yw,Zw),投影至像素坐标系点p(u,v)的计算过程如下。 1)由世…

Qt下使用QPainter实现界面上饼状图、圆环图的绘制

文章目录 前言一、示例讲解二、圆环图绘制步骤三、设置圆环图数据四、示例完整代码五、下载链接总结 前言 前面的文章有讲述使用Qt下的Charts 模块来进行饼图的绘制:QChart实现ui界面上指定位置饼状图、圆环图的绘制,但是使用过程中并不能很好的实现自己…

【LeetCode】动态规划 刷题训练(二)

文章目录 62. 不同路径题目解析状态转移方程完整代码 63. 不同路径 II题目解析状态转移方程完整代码 剑指 Offer 47. 礼物的最大价值题目解析状态转移方程完整代码 62. 不同路径 点击查看:不同路径 一个机器人位于一个 m x n 网格的左上角 (起始点在下图…

数据库架构是否该随着公司估值一起变化?

原文|The growing pains of database architecture 作者|Tim Liang, Software Engineer at Figma 2020 年,因为 Figma 不断加入新功能,筹备第二条产品线和用户不断增长导致数据库流量每年以 3x 速度增长,我们的基础设…