【遇见Transformer】Transformer代码、原理全方位解析,相信我,看这一篇就够了!

目录

前言

预备知识

本章代码环境

关注我,不迷路 !

Transformer模型的结构​编辑

Transformer模型的基本原理

注意力机制

自注意力机制 

 两者的区别

多头注意力机制

Transformer模型的训练

Transformer模型的应用

论文地址


前言

预备知识

在开始本章节之前可能需要学习以下知识:
什么是自然语言处理(NLP)

什么是循环神经网络(RNN、LSTM【长短期记忆循环】、GRU【门控循环】)

什么是大模型(具有较大规模和复杂性的模型)

了解OpenAI、谷歌、等相关公司、企业

本章代码环境

操作系统:不限

python:3.8

框架:pytorch(torch==1.10.2)

是否需要GPU:无要求

关注我,不迷路 !

QQ:1757093754 

公众号:(搜“我叫人工智能”)


Transformer模型的结构

  1. 位置编码(Positional Encoding)

    • Transformer没有明确的序列结构概念,因此需要通过添加位置编码来为模型提供输入序列中单词的相对位置信息。位置编码是可学习的或预定义的。
    • Transformer中的位置编码的表示:(pos表示位置,i表示向量维度的索引)

  2. 多头自注意力机制(Multi-Head Attention)

    • 这是Transformer的核心机制之一。通过多个注意力头,模型能够在不同子空间中学习不同的关系。自注意力机制使模型能够对输入序列的不同位置分配不同的注意力权重。
    • 多头自注意力机制机制的步骤:
      • 输入变换(Input Transformation):对输入序列进行线性变换,分别产生多组投影矩阵,用于后续每个注意力头的计算。这个投影过程涉及三个权重矩阵:Query(查询): 将输入序列通过一个可学习的线性变换,得到Query矩阵。Key(键): 将输入序列通过另一个可学习的线性变换,得到Key矩阵。Value(值): 将输入序列通过第三个可学习的线性变换,得到Value矩阵。
      • 多头并行计算(Parallel Computation)对于每个注意力头,计算注意力权重。这是通过将Query和Key进行点积运算,然后应用缩放操作(为了稳定训练,一般会除以特征维度的平方根),最后使用Softmax函数得到的注意力分布来完成的。将每个头的注意力权重与对应的Value矩阵相乘,得到每个位置的加权和。这个过程实际上就是每个头对输入序列进行关注的结果。
      • 头的拼接(Concatenation of Heads):将多个注意力头的输出拼接在一起,形成一个更高维的输出向量。这样,模型能够同时捕捉多个不同方面的关系。

      • 输出变换(Output Transformation):将拼接后的结果通过一个可学习的线性变换(通常是矩阵乘法和加法),生成最终的多头自注意力机制的输出。

  3. 残差连接(ADD)(Residual Connection)

    • 在每个子层(如自注意力层和前馈神经网络层)之后都添加了残差连接,有助于缓解梯度消失问题,并使训练更加稳定。
    • 残差连接存在的原因(NEW!!!):
      • 梯度消失:在深度神经网络中,通过多个层传播的梯度可能会变得非常小,甚至趋近于零。这导致在训练较深的网络时,底层的权重更新几乎没有贡献,使得网络学习变得非常缓慢或停滞。残差连接通过提供跨层的捷径,允许梯度直接通过跳跃连接传播,从而减轻了梯度消失问题。
      • 梯度爆炸:另一方面,梯度也可能因为某些原因变得非常大,导致权重更新过大,网络不稳定。残差连接通过提供一个额外的路径,使得梯度能够绕过较深层,从而有助于缓解梯度爆炸问题。

  4. 层归一化(Norm)(Layer Normalization)

    • 在每个子层输出后应用层归一化,以规范化激活值,促进模型的稳定性。
    • LayerNorm:

  5. 前馈神经网络(Feedforward Neural Network)

    • 在每个编码器和解码器层中,都有一个前馈神经网络。它对每个位置的向量进行独立的变换,包括一个隐藏层和一个激活函数。
    • 这里的前馈神经网络通常使用的是基于全连接层的神经网络(Linear+Relu)
  6. 编码器(Encoder)和解码器(Decoder)

    • Transformer模型分为编码器和解码器两个部分。编码器用于处理输入序列,解码器用于生成输出序列。每个部分都包含多个相同的层。
    • 注意区分的是,编码器部分(Encoder)使用的是多头自注意力机制,而解码器部分(Decoder)使用的是多头掩码自注意力机制
  7. 注意力掩码(Attention Masking)

    • 在解码器的自注意力层中,为了防止信息泄漏,通常会使用注意力掩码来使模型只能关注到当前位置及其之前的位置。

Transformer模型的基本原理

注意力机制

1.QK相乘(通常情况下)得到S,求相似度

2.softmax归一化

3.SV相乘得到注意力

自注意力机制 

 两者的区别
  • 注意力机制:

    • Query 和 Key 来自不同的位置或序列。
    • 适用于一般的关系建模任务,可以处理输入序列和上下文之间的关系。
  • 自注意力机制:

    • Query、Key 和 Value 来自同一个序列。
    • 主要用于处理序列内部的关系,能够在序列内部不同位置之间建立关联。
多头注意力机制


Transformer模型的训练

显卡:8张 NVIDIA P100

训练时间:3.5天

数据集:WMT 2014 English-German dataset


Transformer模型的应用

  1. 机器翻译:

    • 利用 Transformer 模型的编码器-解码器结构,机器翻译系统能够在不同语言之间进行高质量的翻译。Transformer 在机器翻译任务上的性能远超传统方法。
  2. 语言建模和文本生成:

    • Transformer 模型在语言建模任务中表现出色,能够学习并生成高质量的文本。这种能力被广泛应用于自动摘要、文本生成、对话系统等领域。
  3. 问答系统:

    • Transformer 模型在问答任务中取得了显著的成功,包括阅读理解和开放域问答。模型能够从文本中提取信息并回答用户提出的问题。
  4. 图像处理:

    • Transformer 模型也被成功应用于计算机视觉任务,例如图像分类、目标检测、图像生成等。Vision Transformer(ViT)是一种将 Transformer 应用于图像处理的变种。
  5. 语音识别:

    • Transformer 模型在语音识别领域也有所应用,能够处理音频序列并提取关键信息。这对于自然语言处理和语音交互任务非常重要。
  6. 推荐系统:

    • Transformer 模型在推荐系统中被用于学习用户和物品之间的关系,从而提高推荐的准确性。它可以处理序列数据和用户行为序列。
  7. 化学和生物信息学:

    • Transformer 模型被用于分子生成、化合物性质预测等化学和生物信息学任务。它能够学习分子结构之间的复杂关系。

论文地址

[1706.03762] Attention Is All You Need (arxiv.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/320065.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

学习python仅此一篇就够了(文件操作:读,写,追加)

python文件操作 文件编码 编码技术即:翻译的规则,记录了如何将内容翻译成二进制,以及如何将二进制翻译回可识别内容。 计算机中有许多可用编码: UTF-8 GBK BUG5 文件的读取操作 open()函数 在pyth…

数据库锁表原因、排查、解决

一.场景 场景1场景2二.原因三.排查四.解决方案 一.场景 场景1 锁表通常发生在DML( insert 、update 、delete ) A操作进行全量数据同步,对整个表的粒度进行上锁,导致B操作只能等待A操作完成才能进入插入数据。此时就出现了锁表…

【分布式技术】监控平台zabbix介绍与部署

目录 一、为什么要做监控? 二、zabbix是什么? 三、zabbix有哪些组件? ​编辑Zabbix 6.0 功能组件: ●Zabbix Server ●数据库 ●Web 界面 ●Zabbix Agent ●Zabbix Proxy ●Java Gateway 四、zabbix的工作原理&#xf…

test Property-based Testing-04-junit-quickcheck

拓展阅读 开源 Auto generate mock data for java test.(便于 Java 测试自动生成对象信息) 开源 Junit performance rely on junit5 and jdk8.(java 性能测试框架。性能测试。压测。测试报告生成。) junit-quickcheck:基于 JUnit 风格的属性驱动测试库 junit-qu…

对C语言的理解

1.计算机语言 就是我们人类与计算机进行交流的媒介。我们可以使用编程语言对计算机下达命令,从而让计算机完成我们所需要的功能。 语言 语法 逻辑 计算机语言有很多种。如:C 、C、Java、Go、JavaScript、Python,Scala等。 2.计算机语言简史…

Java基础之并发篇(二)

1、前言 本篇主要基于Java基础之并发篇(一)继续梳理java中关于并发相关的基础只是。本篇基于网络整理,和自己编辑。在不断的完善补充哦。 2、synchronized 的原理是什么? synchronized是 Java 内置的关键字,它提供了一种独占的…

Linux CentOS 7.6安装JDK详细保姆级教程

一、检查系统是否自带jdk java --version 如果有的话,找到对应的文件删除 第一步:先查看Linux自带的JDK有几个,用命令: rpm -qa | grep -i java第二步:删除JDK,执行命令: rpm -qa | grep -i java | xarg…

【AI的未来 - AI Agent系列】【MetaGPT】2. 实现自己的第一个Agent

在MetaGPT中定义的一个agent运行示例如下: 一个agent在启动后他会观察自己能获取到的信息,加入自己的记忆中下一步进行思考,决定下一步的行动,也就是从Action1,Action2,Action3中选择执行的Action决定行动…

时间序列数据的季节性检测

时间序列分析是统计学和数据科学的一个基本研究领域,它为理解和预测序列数据中的模式提供了一个强大的框架。特别是时间序列数据,它捕获连续时间间隔内的信息,使分析师能够揭示趋势,季节性模式和其他时间依赖性。在时间序列分析的…

Django教程第6章 | web开发实战-文件上传(导入文件、上传图片)

专栏系列&#xff1a;Django学习教程 导入文件 目标&#xff1a;导入部门清单excel&#xff0c;解析excel数据存储到数据库。 1.准备要导入的excel文件 2.编写模板HTML <div class"panel panel-default"><!-- Default panel contents --><div class…

第 7 章 排序算法

文章目录 7.1 排序算法的介绍7.3 算法的时间复杂度7.3.1 度量一个程序(算法)执行时间的两种方法7.3.2 时间频度7.3.3 时间复杂度7.3.4 常见的时间复杂度7.3.5 平均时间复杂度和最坏时间复杂度 7.4 算法的空间复杂度简介7.4.1 基本介绍 7.5 冒泡排序7.5.1 基本介绍7.5.2 演示冒泡…

Python——VScode安装

⼀、下载安装 [root192 ~]# rpm --import https://packages.microsoft.com/keys/microsoft.asc[root192 ~]# sh -c echo -e "[code]\nnameVisualStudio Code\nbaseurlhttps://packages.microsoft.com/yumrepos/vscode\nenabled1\ngpgcheck1\ngpgkeyhttps://packages.mi…

企业级大数据安全架构(三)修改集群节点hostname

作者&#xff1a;楼高 在后续安装FreeIPA的过程中&#xff0c;要求机器名必须包含完整的域名信息。如果之前在Ambari集群节点上的机器名不符合这个要求&#xff0c;可以按照以下步骤在Ambari上修改所有节点的机器名&#xff1a; 1.部署节点说明 本次测试是三台 ambari 节点&…

polar CTF CB链

一、题目 二、解答 1、通过jar包&#xff0c;可以看到/user路由下有反序列化操作 看到存在commons-beanutils依赖且版本为1.9.2&#xff0c;可利用CB链Getshell。 使用ysoserial项目中的CommonsBeanutils1链写一个POC&#xff0c;注意确保ysoserial项目中的pom.xml中的comm…

编程艺术之Unix哲学

Unix 哲学不算是一种正规设计方法&#xff0c;它并不打算从计算机科学的理论高度来产生理论上完美的软件。那些毫无动力、松松垮垮而且薪水微薄的程序员们&#xff0c;能在短短期限内&#xff0c;如神灵附体般开发出稳定而新颖的软件——这只不过是经理人永远的梦呓罢了。 1 Un…

[ACM题目练习] 前后手

题目1 A为了让数字总和最大&#xff0c;但是B想让数字总和最小。 题解 因为A先操作B后操作&#xff0c;所以B的策略一定是把当前剩下的数字中前1到 x 大的元素给乘上-1&#xff0c;那么A的策略是怎样的(通常这种题A没有策略&#xff0c;都是遍历所有的情况) (再接着优化&#…

如何基于 Gin 封装出属于自己 Web 框架?

思路 在基于 Gin 封装出属于自己的 Web 框架前&#xff0c;你需要先了解 Gin 的基本用法和设计理念。 然后&#xff0c;你可以通过以下步骤来封装自己的 Web 框架&#xff1a; 封装路由&#xff1a;Gin 的路由是通过 HTTP 方法和 URL 路径进行匹配的&#xff0c;你可以根据自己…

力扣 第 121 场双周赛 解题报告 | 珂学家 | 数位DP

前言 整体评价 T3, T4 都是典题 T1. 大于等于顺序前缀和的最小缺失整数 思路: 模拟 class Solution { public:int missingInteger(vector<int>& nums) {set<int> s(nums.begin(), nums.end());int acc nums[0];for (int i 1; i < nums.size(); i) {if …

Java--业务场景:在Spring项目启动时加载Java枚举类到Redis中(补充)

文章目录 前言步骤测试结果 前言 通过Java–业务场景&#xff1a;在Spring项目启动时加载Java枚举类到Redis中,我们成功将Java项目里的枚举类加载到Redis中了&#xff0c;接下来我们只需要写接口获取需要的枚举值数据就可以了&#xff0c;下面一起来编写这个接口吧。 步骤 在…

OSPF : 区域 / 为什么非骨干互访需要经过骨干

概述 OSPF系列第二篇 , 今天来围绕着区域这个概念展开写一篇博客 分区背景 先来讨论一下技术背景 , 也就是为什么要分区 ? 所有设备都在一个区域不行吗 会有什么问题呢 . 首先明确一个知识点 : 正常状态下一个区域内的所有设备的LSDB都是一样的.区域内的路由器必须为所属的…