Attention Is All You Need若如爱因斯坦的相对论，Transformer模型则堪称E=MC^2之等量公式

Attention Is All You Need若如爱因斯坦的相对论，Transformer模型则堪称E=MC^2之等量公式

article2025/4/3 2:08:29/文章来源:https://blog.csdn.net/ank1983/article/details/136996863

Transformer模型已经成为当前所有自然语言处理NLP的标配，如GPT，Bert，Sora，LLama，Grok等。假如《Attention Is All You Need》类比为爱因斯坦的侠义相对论，Transformer模型则堪称E=MC^2之等量公式。

看过论文之后，我们按照输入输出顺序重新梳理一遍这个模型：

论文中的6层encoder和decoder

论文中的transformer架构

各个组件简介：

1，Inputs：论文中是为了英德翻译，inputs就是英文

2，input embedding：文本嵌入，将文本中词汇转为张量表示。

3，positional encoding：位置编码器，将位置信息加入到文本嵌入张量。

4，encoder：编码器，提取特征值。论文中有6层，N=6；每个encoder里面有2个子层：

Multi-Head attention：多头注意机制，这个是transformer的核心，下文细讲
Feed forward：前馈全连接，担心Multi-Head attention的拟合结果不够，增加全连接网络提高拟合能力。
子层连接结构add&norm：
1. add：残差连接（跳跃连接），把原来的输入跟输出又并到一起。
2. norm：规范化层的主要作用：在一定的网络层数之后，对数值进行规范化，使得特征数值保持在合理的范围内。这样，可以有效地解决参数过大或过小的问题，提高模型的稳定性和收敛速度。

5，outputs（shifted right）：论文中是为了英德翻译，outputs就是德文。

6，output embedding：文本嵌入，将文本中词汇转为张量表示。

7，decoder：解码器，使用特征值预测输出。论文中有6层，N=6；decoder里面有3个子层，跟encode大体相同，下面只讲不同的地方

Masked Multi-Head attention：在encode里面的MHA，因为是训练阶段，所以知道输入的所有信息，计算了所有输入的注意力；而decoder是要预测输出，只能根据已有的输入，不能预知未来。所以需要Masked未知的输出。
中间的Multi-Head attention：把encode里的输出K和V（英文）注入到MHA，用来拟合英德翻译。

8，linear：线性层，转化维度。

9，softmax：使最后一维向量缩放到0-1之间。

10，output Proabilities：输出的就是概率。

encoder/decoder动画

GIF图片引用：

https://blog.research.google/2017/08/transformer-novel-neural-network.htmlhttps://blog.research.google/2017/08/transformer-novel-neural-network.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/485186.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

IDEA Android新建项目基础

IDEA Android新建项目基础

title: IDEA Android基础开发 search: 2024-03-16 tags: “#JavaAndroid开发” 一、构建基本项目在使用 IDEA 进行基础的Android 开发时，我们可以通过IDEA自带的新建项目功能进行Android应用开发基础架构的搭建，可以直接找到 File --> New --> …

阅读更多...

数据库管理开发工具Navicat for MySQL Mac版下载

数据库管理开发工具Navicat for MySQL Mac版下载

Navicat for MySQL（Mac版）是一款强大的数据库管理开发工具，专为MySQL设计。它提供直观的用户界面，支持数据建模、查询构建、数据传输等功能，帮助用户轻松管理数据库。其特点包括高效的数据处理能力、安全的数据传输机制…

阅读更多...

【算法与数据结构】 C语言实现单链表队列详解

【算法与数据结构】 C语言实现单链表队列详解

文章目录 📝队列🌠 数据结构设计🌉初始化队列函数 🌠销毁队列函数🌉入队函数 🌠出队函数🌉获取队首元素函数 🌠获取队尾元素函数🌉 判断队列是否为空函数🌉获…

阅读更多...

HTTPS：原理、使用方法及安全威胁

HTTPS：原理、使用方法及安全威胁

文章目录一、HTTPS技术原理1.1 主要技术原理1.2 HTTPS的工作过程1.2.1 握手阶段1.2.2 数据传输阶段 1.3 HTTPS的安全性二、HTTPS使用方法三、HTTPS安全威胁四、总结 HTTPS（全称：Hyper Text Transfer Protocol over Secure Socket Layer）&am…

阅读更多...

ARM：按键中断

ARM：按键中断

key_inc.c #include"key_inc.h"void key1_it_config(){//使能GPIOF外设时钟RCC->MP_AHB4ENSETR | (0x1<<5);//将PF9设置为输入模式GPIOF->MODER & (~(0x3<<18));//设置由PF9管脚产生EXTI9事件EXTI->EXTICR3 & (~(0XFF<<8));EXTI…

阅读更多...

【HarmonyOS】ArkUI - 页面路由

【HarmonyOS】ArkUI - 页面路由

一、概念页面路由是指在应用程序中实现不同页面之间的跳转和数据传递。案例：第一次使用某个购物应用，打开时肯定会是一个登录页，在登录成功以后，会跳转到首页，然后可能会去搜索，就会进入到搜索列表页&am…

阅读更多...

掌握Python中re模块的正则表达式应用与技巧【第155篇—正则表达式】

掌握Python中re模块的正则表达式应用与技巧【第155篇—正则表达式】

👽发现宝藏前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。掌握Python中re模块的正则表达式应用与技巧 Python 中的 re 模块是用于处理正则表达式的强…

阅读更多...

[SAP MM] 名词专业术语解释

[SAP MM] 名词专业术语解释

采购凭证采购凭证通常是一种证明文件，用于记录和跟踪特定时间点的采购活动采购凭证是指企业在采购物品或服务时所开立的一种凭证，用于记录采购的信息和流程采购凭证通常包括采购申请、采购订单、采购合同等，其中采购订单是最常用的采购…

阅读更多...

PCB中常用电子器件封装学习——【一网打尽】

PCB中常用电子器件封装学习——【一网打尽】

‘ 上图是这个世界上大概所有的封装种类，当然我们日常硬件电路设计肯定用不到这么多，接下来我将介绍几种工程上常用的封装，配以图片方便大家理解学习。在电子器件选型的时候，避免选择到一些非常难以焊接的封装电子器件。

阅读更多...

Acrobat Pro DC ----专业PDF编辑与管理

Acrobat Pro DC ----专业PDF编辑与管理

Acrobat Pro DC 2023是一款功能强大的PDF处理软件，它提供了丰富的编辑工具，支持创建、编辑、合并、分割PDF文件，以及高质量的PDF到其他格式的转换功能。同时，该软件集成了最新的OCR技术，可将扫描文档或图片转换成可编辑…

阅读更多...

Godot 学习笔记(5)：彻底的项目工程化，解决GodotProjectDir is null+工程化范例

Godot 学习笔记(5)：彻底的项目工程化，解决GodotProjectDir is null+工程化范例

文章目录前言GodotProjectDir is null解决方法解决警告问题根本解决代码问题测试引用其实其它库的输出路径无所谓。工程化范例环境命名规范Nuget项目结构架构代码ISceneModelIOC服务测试GD_Extension 通用扩展TestUtils GD_ProgramTestServiceMainSceneModel Godot对应的脚本…

阅读更多...

mac 解决随机出现的蓝色框

mac 解决随机出现的蓝色框

macbookair为什么打字的时候按空格键会出现蓝色框? - 知乎

阅读更多...

t-rex2开放集目标检测

t-rex2开放集目标检测

论文链接：http://arxiv.org/abs/2403.14610v1 项目链接：https://github.com/IDEA-Research/T-Rex 这篇文章的工作是基于t-rex1的工作继续做的，核心亮点： 是支持图片/文本两种模态的prompt进行输入，甚至进一步利用两…

阅读更多...

配置git公钥

配置git公钥

电脑重置重新配置公钥记录一下供自己观看打开git bash 输入生成ssh公钥命令 ssh-keygen -t rsa -C your-email 一直回车直到出现输入查看公钥命令 cat ~/.ssh/id_rsa.pub 复制公钥，打开git设置，找到ssh公钥添加(标题随便命名) 配置完后就可以正常使…

阅读更多...

【DataWhale学习】灵境Agent开发——Agent介绍

【DataWhale学习】灵境Agent开发——Agent介绍

【DataWhale学习】灵境Agent开发——Agent介绍这次我参加了 DataWhale 的灵境Agent开发者训练营，第一次开发了一款属于自己的Agent，整体体验下来，操作还是非常方便的。灵境Agent和Coze上面创建的bot差不多，零代码开发可以仅仅…

阅读更多...

QT常见布局器使用

QT常见布局器使用

布局简介为什么要布局？通过布局拖动不影响鼠标拖动窗口的效果等优点.QT设计器布局比较固定，不方便后期修改和维护；在Qt里面布局分为四个大类 ： 盒子布局：QBoxLayout 网格布局：QGridLayout 表单布局&am…

阅读更多...

双指针（滑动窗口）-算法刷题

双指针（滑动窗口）-算法刷题

一.移动零（. - 力扣（LeetCode）） 算法思想 ： 设置两个指针left,right，将数组分为三块[0,left]为不为0的元素，[left1,right-1]为0元素，[right,num.size()-1]为未扫描的区域&#xff0c…

阅读更多...

Notepad++ 如何调整显示字面大小

在 Notepad 上，可以使用 ctrl 加上鼠标的左键来滚动来进行调整。如何恢复默可以使用 Ctrl 加数字键盘上的 / 键来恢复默认设置。当然也可以通过菜单栏上 view 菜单下的 Zoom 选项。上面的界面中可以看到我们的在 Notepad 中使用的选项。 Notepad 如何调整显示…

阅读更多...

stm32知识总结--简单复习各部件

stm32知识总结--简单复习各部件

目录内部结构部件介绍配置步骤之前学了很多部件，配置了很多参数，但是没有很系统地把他们连接在一起，今天这个图里简洁描述了资源与资源之间的关系。内部结构部件介绍黑框部分为CPU、内部有一个内核专门处理事件，所有的…

阅读更多...

Android Studio 无法下载 gradle-7.3.3-bin.zip

Android Studio 无法下载 gradle-7.3.3-bin.zip

下载新的Android Studio，然后创建新的工程时，出现报错：Could not install Gradle distribution from https://services.gradle.org/distributions/gradle-7.3.3-bin.zip 或者超时，我们可以复制：https://services.grad…

阅读更多...

最新文章