大模型相关:ChatGPT的原理与架构

一、大模型面临的挑战

1.1 Transformer模型的缺陷:

与RNN相比Transformer面临以下挑战:

  1. 并行计算能力不足。RNN需要按序处理序列数据中的每个时间步,这限制了它在训练过程中充分利用现代GPU的并行计算能力,从而影响训练效率。
  2. 长程依赖问题。尽管LSTM和GRU在处理长程依赖上比基本的RNN更为出色但在处理非常长的序列时,它们依然存在困难。
  3. 模型容量限制。LSTM和GRU的模型容量相对较小,这在大语言模型训练中限制了模型的规模,使获取更丰富的语义信息和构建更复杂的表示变得困难。

Transformer模型的结构如下图所示:
Transformer模型结构

1.2 大模型发展的三个瓶颈

算力瓶颈

  • 预训练阶段:chatGPT 3.5参数量1750亿以上,显存占用350G~500G,预训练需要1000个以上的A100 GPU算力。单次训练成本500万美元
  • 推理与部署阶段1750亿,假设有1300万个日活跃用户,每个GPU每小时成本1美元,日均计算硬件成本69万美元,每次查询成本0.69美分

数据瓶颈

  • LLaMA使用数据集4.6TB
  • GPT-3使用数据集45TB(文本)
  • 全球最大中文语料库WuDaoCorpora:3TB,公开200G

工程瓶颈

专业研究人员和工程师的技能标准要求高、培养和雇佣成本高

二、大模型的评估

GPT-4的智能水平可从以下几个关键方面进行评估:

  1. 任务表现
  2. 知识理解与应用
  3. 泛化能力
  4. 自主学习和推理能力

三、大模型的演变和架构

3.1 GPT-1

GPT-1的模型架构如下图所示:
在这里插入图片描述

3.2 GPT-2

GPT-2模型的自回归过程:
在这里插入图片描述

3.3 GPT-3

GPT-3的模型架构示意图:
在这里插入图片描述

3.4 GPT系列

总结GPT的技术栈和模型结构。
大语言模型的技术栈如下图所示:
在这里插入图片描述
GPT系列的模型架构示意图:

3.5 应用流程

在这里插入图片描述

四、大模型的未来发展

在探索GPT-5及后续版本的可能性与发展前景时,有几个关键因素必须予以重点考数据量数据质量以及数据来源。这些可能决定了GPT-5及后续版本是否能够接近虑:或超越人类智能的关键要素

4.1 数据量

有媒体开始预测GPT-5的发布日期,并预测GPT-5在多模态处理能力方面将有重大突破。据现有资料表明,GPT-5可能会在约25000个GPU的规模上进行训练。据TechRadar的报道,ChachiBT已经在10000个性能超越A100 GPU的NVIDIA GPU上进行了训练。对于GPT-5的发布时间,GeordieRybass的预测可以作为参考,他预测GPT-5或类似模型可能在2024年春末或初夏发布。
一项对 DeepMind研究的总结指出,模型的参数规模与训练数据量之间存在一种优化平衡。例如,GPT-3和Palm 等模型的参数数量远超出其实际需求,它们实际上更需要大量高质量的数据。
因此,GPT-4需要1万亿参数的说法似乎并不准确。事实上,GPT-5的参数可能与GPT-4相同,甚至可能更少。根据2022年7月的一篇LessWrong博客文章,当前的语言建模性能主要受到数据量的限制,而不是模型规模。只要获得足够多的数据,就无须运行拥有5000亿参数,甚至1万亿或更大规模参数的模型。

4.2 数据质量

在GPT模型的提升过程中,数据质量至关重要,然而,获取高质量的数据仍然是一个挑战。目前,GPT-3和其他一些模型在大约3000亿个token上进行了训练。考虑到DeepMind的 Chinchila模型在大约1.4万亿个token上进行了训练,GPT-5在数据量方面可能会有显著的提升。高质量数据的已知来源包括科学论文、书籍、网络爬取的内容新闻、代码以及维基百科。目前已知的高质量数据大约在4.6万亿17万亿个词之间。这表明距离耗尽高质量数据仅有一个数量级的距离,这种情况可能出现在2023-2027年,对人工智能的近期发展将产生深远影响。

4.3 数据来源

此外,数据来源的不确定性仍是一个问题。例如,Google和OpenAI并未透露他们的数据来源,可能是为了避免所有权和补偿的争议。同时,随着AI图像生成等领域的法律问题日益突出,确定数据来源将成为重要议题。尽管如此,GPT-5仍然会借鉴过去的经验,尽可能获取更多的高质量数据。自GPT-4交给微软以来,在没有进一步提高数据利用或提取效率的情况下,高质量数据的存量每年增长约10%

4.4 技术突破

除数据问题以外,GPT-5在各方面都有可能取得技术突破。一方面,研究者或许能发现从质量较低的数据源中提取高质量数据的方法。另一方面,引入自动化链式思维引导(ChainofThoughtPrompting)策略,有望显著提升模型的表现。尽管性能和成本因素可能限制模型训练,但多轮利用同一数据训练模型是行之有效的策略。人工生成并筛选数据集也是一个提升模型在复杂数学问题等方面表现的有效方法。
如果GPT-5能有效利用9万亿高质量token数据,其性能预期将实现数量级的提升这可能对就业市场产生深远影响。在阅读理解、逻辑和批判性思考、高中物理以及数学等领域,GPT-5有望超过人类评估者。并且,随着文本到语音、图像到文本、文本到图像以及文本到视频虚拟形象等技术的进步,AI教师的出现可能近在咫尺。然而,GPT-5的发布时间尚不确定,其中一个原因是它的发布可能取决于OpenAl内部的安全研究进展。OpenAI的首席执行官Sam Altman表示,只有在完成对齐工作、进行安全考量并与外部审计机构合作之后,相关模型才会发布。

参考文献

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程 程戈 著 机械工业出版社 2023年12月

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/694018.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FastAPI给docs/配置自有域名的静态资源swagger-ui

如果只是要解决docs页面空白的问题,可先看我的这篇博客:FastAPI访问/docs接口文档显示空白、js/css无法加载_fastapi docs打不开-CSDN博客 以下内容适用于需要以自用域名访问swagger-ui的情况: 1. 准备好swagger-ui的链接,如&am…

STM32H750启动和内存优化(分散加载修改)

前些日子有个朋友一直给我推荐STM32H750这款芯片,说它的性价比,说它多么多么好。于是乎,这两天试了试,嚯,真香!我们先看看基本配置 这里简单总结下,cortex-m7内核,128k片内flash …

htb-linux-6-beep

nmap web渗透 目录扫描 漏洞关键词 shell py脚本执行 flag root 目前的权限 nmap root

Django 视图类

在Django框架中,视图类(Class-based views,简称CBVs)提供了一个面向对象的方式来定义视图。这种方式可以让你通过创建类来组织视图逻辑,而不是使用基于函数的视图(Function-based views,简称FBV…

109、python-第四阶段-6-多线程编程

单线程: import threading import timedef sing():while True:print("我在唱歌")time.sleep(1) def dance():while True:print("我在跳舞")time.sleep(1) if __name__"__main__":sing()dance()多线程: import threading…

嵌入式学习——Linux高级编程复习(进程)——day39

1. 进程 进程是计算机科学中的一个核心概念,它是操作系统进行资源分配和调度的基本单位,代表了一个正在执行中的程序实例。当一个程序被加载到内存并开始执行时,它就变成了一个进程。 1. 程序:存放在外存中的一段代码的集合 2. 进…

Java并发编程:线程生命周期

Java并发编程专栏 文章收录于Java并发编程专栏 线程生命周期 线程是Java并发编程的核心概念,理解线程生命周期对于编写高效的并发程序至关重要。本文将详细介绍 Java 线程的六种状态以及状态之间的转换关系,帮助读者更好地理解线程的行为。   在Java中…

mysql8.0中的mysql.ibd

mysql8.0版本中多了一个mysql.ibd的文件。5.7版本则没有这个文件。 MySQL5.7: .frm文件 存放表结构信息 .opt文件,记录了每个库的一些基本 信息,包括库的字符集等信息 .TRN,.TRG文件用于存放触发器的信 息内容。 在MySQL 8.0之前&#xff0…

2002NOIP普及组真题 4. 过河卒

线上OJ 地址: 【02NOIP普及组】过河卒 核心思想: 对于此类棋盘问题,一般可以考虑 dp动态规划、dfs深搜 和 bfs广搜。 解法一:dp动态规划 方法:从起点开始逐步计算到达每个位置的路径数。对于每个位置,它…

数 据 类 型

概述 Java 是强类型语言。 每一种数据都定义了明确的数据类型,在内存中分配了不同大小的内存空间(字节)。 Java 中一共有 8 种基本类型(primitive type),包括 4 种整型、2 种浮点型、1 种字符类型&#…

HikariCP连接池初识

HikariCP的简单介绍 hikari-光,hikariCP取义:像光一样轻和快的Connetion Pool。这个几乎只用java写的中间件连接池,极其轻量并注重性能,HikariCP目前已是SpringBoot默认的连接池,伴随着SpringBoot和微服务的普及&…

【ai】pycharm远程ssh开发

方式1: gateway的方式是远程放一个pycharm 专业版,经常下载失败 方式2: 类似vs,源码本地,同步到远程进行运行。 参考大神的分享: Pycharm远程连接服务器(2023-11-9) Pycharm远程连接服务器(windows下远程修改服务器代码)[通俗易懂] cpolar 建议同时内网穿透 选 远程开…

详解 Flink 的状态管理

一、Flink 状态介绍 1. 流处理的无状态和有状态 无状态的流处理:根据每一次当前输入的数据直接转换输出结果的过程,在处理中只需要观察每个输入的独立事件。例如, 将一个字符串类型的数据拆分开作为元组输出或将每个输入的数值加 1 后输出。…

Pycharm中import torch报错解决方案(Python+Pycharm+Pytorch cpu版)

pycharm环境搭建完毕后,编写一个py文件demo,import torch报错,提示没有。设置python解释器: 选择conda环境,使用现有环境,conda执行文件找到Anaconda安装路径下Scripts文件夹内的conda.exe,最后…

程控直流电源:助力企业实现绿色转型与可持续发展

一、程控直流电源发展趋势 1. 程控直流电源的高效节能 在全球能源紧张、环境污染严重的背景下,高效节能成为电源行业的重要发展方向。程控直流电源采用先进的电源管理技术,实现了高效率、低功耗的目标。未来,随着技术的不断进步&#xff0c…

英语学习笔记33——A fine day

A fine day 风和日丽 词汇 Vocabulary day n. 日子,白天 复数:days 常见节日:Mothers’ Day 母亲节      Fathers’ Day 父亲节      Teachers’ Day 教师节      Children’s Day 儿童节      Women’s Day 妇女节 c…

IO流字符流(FileReader与FileWriter)

目录 FileReader 空参read方法 带参read方法👇 FileWriter void write(intc) 写出一个字符 void write(string str) 写出一个字符串 void write(string str,int off,int len) 写出一个字符串的一部分 void write(char[] cbuf) …

入门matlab

常识 如何建一个新文件 创建新文件,点击新建,我们就可以开始写代码了 为什么要在代码开头加入clear 假如我们有2个文件,第一个文件里面给x赋值100,第二个文件为输出x 依次运行: 结果输出100,这是因为它们…

less---20-28

less-20 这关登陆成功会显示cookie,所以抓包在cookie处注入 less-21 这关登陆成功会显示cookie,所以抓包在cookie处注入,发现不成功,查看代码发现被编码 先对注入语句进行base64编码再注入 less-22 闭合字符",同21关 less-23 这关查看代码发现…

高并发ping多台主机IP

简介 社区或者是大型公司往往有成千上万或者几百台设备,保持设备始终在线对网络运维人员来说至关重要,然而一个一个登录检查,或者一个一个ping并不明智,累人且效率极低,并出错率高。花钱买检测服务当我没说。 shell编…