翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

  1. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
  2. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
  3. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  4. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
  5. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
  6. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六
    在这里插入图片描述

同样,词的嵌入方式是通过数据学习的。
在这里插入图片描述

这个嵌入矩阵揭示了每个词的变化过程,
在这里插入图片描述

它是我们模型中的第一批权重,
在这里插入图片描述

根据GPT-3,其词汇量具体为50,257 tokens,
在这里插入图片描述

但请注意,它实际上并不指单词本身,而是指tokens。
在这里插入图片描述

嵌入维度为12,288。
在这里插入图片描述

将两者相乘,我们得到大约6.17亿个权重。
在这里插入图片描述

我们将这个数字添加到我们的累计计数中,最终,我们应该得到1750亿个权重。
在这里插入图片描述

当你谈论transformers时,你会想到这些嵌入在空间中的向量不仅代表单个单词。

它们还携带有关单词位置的信息,我们将在后面更详细地解释。
但更重要的是,这些向量吸收并反映上下文。
在这里插入图片描述

例如,一个最初代表"king"的向量可能会随着它与网络中各个点的交互而逐渐变化,所以最后,它指向一个更具体、更微妙的方向,
在这里插入图片描述

以某种方式编码了一个生活在苏格兰的国王,他在杀死前任国王后获得了这个位置,并以充满莎士比亚语言的方式被描绘。
在这里插入图片描述

想想你对一个词的理解通常是如何形成的。
在这里插入图片描述

这个词的意义在很大程度上取决于它所处的上下文,
在这里插入图片描述

有时甚至来自遥远的上下文。
在这里插入图片描述

因此,在构建预测下一个词的模型时,关键目标是使其能够有效地整合上下文信息。
在这里插入图片描述

需要明确的是,在第一步中,当我们根据输入文本创建一个向量数组时,每个向量都是直接从嵌入矩阵中挑选出来的。
在这里插入图片描述

这意味着,起初,每个向量只代表一个词的意义,并不涉及其周围的信息。
在这里插入图片描述

但我们的主要目标是让这些向量通过网络,
在这里插入图片描述

使每个向量获得比单个词更丰富、更具体的含义。
在这里插入图片描述

这个网络一次只能处理一定数量的向量,这被称为上下文大小(context size)。
在这里插入图片描述

对于GPT-3,它的训练上下文大小为2048,这意味着当数据流经网络时,它总是看起来像一个有2048列的数组,每列有12,288个维度。
在这里插入图片描述

这个上下文大小2048限制了Transformer在预测下一个词时可以包含的文本量。
在这里插入图片描述

这解释了为什么,如果你与某些聊天机器人(如早期版本的ChatGPT)进行长时间对话,你可能会感觉机器人在对话中迷失了方向,特别是如果对话持续时间过长。

我们将在适当的时候更详细地讨论注意力机制,但让我们简要地看一下最后阶段。
请记住,最终目标是生成一个概率分布,预测下一个可能的token。
在这里插入图片描述

例如,如果最后一个词是"professor",
在这里插入图片描述

并且上下文包含诸如"Harry Potter"之类的词,
在这里插入图片描述

后面跟着"least favorite teacher",如果我可以稍微玩一下的话,假设tokens是完整的单词。
在这里插入图片描述

那么,一个训练有素、了解哈利波特世界的网络很可能会给单词"Snape"一个很高的权重。

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/587846.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

UnityWebGL使用sherpa-ncnn实时语音识别

k2-fsa/sherpa-ncnn:在没有互联网连接的情况下使用带有 ncnn 的下一代 Kaldi 进行实时语音识别。支持iOS、Android、Raspberry Pi、VisionFive2、LicheePi4A等。 (github.com) 如果是PC端可以直接使用ssssssilver大佬的 https://github.com/ssssssilver/sherpa-ncn…

unity入门——按钮点击了却无法调用函数

查阅了一番都没有解决问题,最后发现问题是由button的Onclick()事件绑定了代码脚本而不是游戏对象导致的。 如果Onclick()事件绑定的是代码脚本,则下拉框里没有函数,但是点击MonoScript后能手动填入函数名(本以为这样就能实现调用…

使用Python的Tkinter库创建你的第一个桌面应用程序

文章目录 准备工作创建窗口和按钮代码解释运行你的应用程序结论 在本教程中,我们将介绍如何使用Python的Tkinter库创建一个简单的桌面应用程序。我们将会创建一个包含一个按钮的窗口,点击按钮时会在窗口上显示一条消息。 准备工作 首先,确保…

【Python】常用数据结构

1、熟悉字典和列表 2、使用条件判断语句 3、list列表中计算 1、从键盘输人一个正整数列表,以-1结束,分别计算列表中奇数和偶数的和。 (1)源代码: # 初始化奇数和偶数的和为0 odd_sum 0 even_sum 0 #输入 while True:num int(input(&qu…

java+jsp+Oracle+Tomcat 记账管理系统论文(二)

⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️ ➡️点击免费下载全套资料:源码、数据库、部署教程、论文、答辩ppt一条龙服务 ➡️有部署问题可私信联系 ⬆️⬆️⬆️​​​​​​​⬆️…

分布式链路追踪工具Sky walking详解

1,为什么要使用分布式链路追踪工具 随着分布式系统和微服务架构的出现,且伴随着用户量的增加,项目的体量变得十分庞大,一次用户请求会经过多个系统,不同服务之间调用关系十分复杂,一旦一个系统出现错误都可…

微软如何打造数字零售力航母系列科普06 - 如何使用微软的Copilot人工智能

如何使用微软的Copilot人工智能? Copilot和ChatGPT有很多相似之处,但微软的聊天机器人本身就有一定的优势。以下是如何对其进行旋转,并查看其最引人注目的功能。 ​​​​​​​ (资料来源:Lance Whitney/微软&…

C++ | 类和对象(中) (构造函数 | 析构函数 | 拷贝构造函数 | 赋值运算符重载 | 取地址 | const取地址)

目录 默认成员函数 构造函数 构造函数是什么 构造函数特征 什么是默认构造函数 注意事项 编译器自动生成的默认构造 缺省值 对象如何传值给构造函数 初始化列表 析构函数 析构函数的特征 编译器默认生成的析构函数 总结 拷贝构造函数 拷贝构造函数的使用场景 拷…

使用ipxe安装现有的装机环境

iPXE和传统PXE区别 iPXE和传统PXE(Pre-boot Execution Environment,预启动执行环境)的主要区别在于它们的功能和协议支持。以下是两者的主要区别: 协议支持: PXE仅支持TFTP(trivial file transfer protoco…

【linuxC语言】空洞文件

文章目录 前言一、空洞文件1.1 空洞文件的介绍1.2 用途 二、示例代码总结 前言 在 Linux 系统编程中,空洞文件是一种特殊类型的文件,它包含了逻辑上的空洞,也就是说文件中的某些部分并没有实际写入数据。尽管文件在逻辑上可能非常大&#xf…

向eclipse中的项目导入jdk、tomcat

前言: 有些项目无法正常启动可能是因为他的基础配置不正确或者没配置,eclipse中的javaweb项目常见的配置就是jdk、tomcat,这三者配置的方式大概相同,以下是相关操作。我的环境是eclipse2018。 一、jdk 在项目上右键选中propert…

java-Spring-mvc-(请求和响应)

目录 📌HTTP协议 超文本传输协议 请求 Request 响应 Response 🎨请求方法 GET请求 POST请求 📌HTTP协议 超文本传输协议 HTTP协议是浏览器与服务器通讯的应用层协议,规定了浏览器与服务器之间的交互规则以及交互数据的格式…

Swiper轮播图

版本&#xff1a;“swiper”: “^6.8.4”, 处理每分钟重新请求数据后&#xff0c;播放卡顿&#xff0c;快速闪&#xff0c;没按照设置时间播放等bug 以下是直接vue2 完整的组件代码 使用&#xff1a; <SwiperV :imgList“swiperList” / <template><div class"…

键盘更新计划

作为 IT 搬砖人&#xff0c;一直都认为键盘没有什么太大关系。 每次都是公司发什么用什么。 但随着用几年后&#xff0c;发现现在的键盘经常出问题&#xff0c;比如说调节音量的时候通常莫名其妙的卡死&#xff0c;要不就是最大音量要不就是最小音量。 按键 M 不知道什么原因…

hadoop学习---基于hive的聊天数据分析报表可视化案例

背景介绍&#xff1a; 聊天平台每天都会有大量的用户在线&#xff0c;会出现大量的聊天数据&#xff0c;通过对聊天数据的统计分析&#xff0c;可以更好的对用户构建精准的用户画像&#xff0c;为用户提供更好的服务以及实现高ROI的平台运营推广&#xff0c;给公司的发展决策提…

50. 【Android教程】xml 数据解析

xml 是一种标记扩展语言&#xff08;Extension Mark-up Language&#xff09;&#xff0c;学到这里大家对 xml 语言一定不陌生&#xff0c;但是它在 Android 中的运用其实只是冰山一角。抛开 Android&#xff0c;XML 也被广泛运用于各种数据结构中。在运用 xml 编写 Android 布…

自动化机器学习——网格搜索法:寻找最佳超参数组合

自动化机器学习——网格搜索法&#xff1a;寻找最佳超参数组合 在机器学习中&#xff0c;选择合适的超参数是模型调优的关键步骤之一。然而&#xff0c;由于超参数的组合空间通常非常庞大&#xff0c;手动调整超参数往往是一项耗时且困难的任务。为了解决这个问题&#xff0c;…

Meditron:基于 Llama 完全开源的医学大语言模型

健康危机就在眼前&#xff0c;当医疗资源有限时&#xff0c;每一秒钟都至关重要&#xff01;Meditron 就像一位忠实的医疗助手&#xff0c;提供基于证据的护理建议和情境意识的推荐&#xff0c;帮助医疗工作者在诊断和治疗过程中做出更准确的决策。 在资源有限的医疗环境中&am…

CTFHub-Web-文件上传

CTFHub-Web-文件上传-WP 一、无验证 1.编写一段PHP木马脚本 2.将编写好的木马进行上传 3.显示上传成功了 4.使用文件上传工具进行尝试 5.连接成功进入文件管理 6.上翻目录找到flag文件 7.打开文件查看flag 二、前端验证 1.制作payload进行上传发现不允许这种类型的文件上传 …

React | React.cloneElement 的使用

我看到同事的代码里有 cloneElement&#xff0c;于是去了解了一下这个函数。 就跟它的名字一样&#xff0c;克隆元素&#xff0c;可以基于一个元素创建一个新的元素&#xff0c;并且为新元素添加新的属性或者覆盖已有的属性。 下面是一个简单例子&#xff1a; .node1 {backg…