论文 学习 Transformer : Attention Is All You Need

目录

概述:

对摘要的理解:

框架解析

按比例缩放的点积注意力

多头注意力机制

前馈神经网络与位置编码 


概述:

 

transformer 是一个encoder ——decoder 结构的用于处理序列到序列转换任务的框架,是第一个完全依赖自注意力机制,计算其输入输出表示的转换模型,核心是采用了注意力机制用于捕获输入序列不同位置之间的依赖关系,帮助模型在生成输出时能够关注到与当前任务最相关的信息,优势是能够捕获长距离依赖关系,并且对于输入序列的长度没有固定的限制,在处理长文本和复杂语言结构时表现出色,在编码器解码器框架中,编码器负责将输入系列转换成一个固定大小的表示(上下文向量)解码器根据这个表示,生成输出序列,transformer 能够并行化处理整个序列,从而大大提高了训练速度和效率

self—attention 机制:

注意力模型的本质思想:从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略不重要的信息。

transfomer 注意力的计算方法采用了Scaled Dot-Product Attention

注意力机制采用了multi head self Attention

框架中 使用了三种不同形式的的 多头注意力机制

 

对摘要的理解:

主流的序列转换模型基于复杂的循环或卷积神经网络,这些网络包括一个编码器和一个解码器。性能最佳的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种全新的简单网络架构,即Transformer,它完全基于注意力机制,完全摒弃了循环和卷积。

序列转换模型(Sequence Transduction Models)指将一个序列转换为另一个序列的模型。序列转换模型可以通过编码器(Encoder)和解码器(Decoder)两个主要部分实现。编码器使用循环神经网络(RNN)或其变种(如长短时记忆网络LSTM、门控循环单元GRU)对输入序列进行建模,得到上下文信息;利用编码器输出的上下文信息生成目标序列

注意力机制:处理一个任务时,我们不会平等地对待所有的信息,而是会将注意力集中在某些关键的部分。例如,当我们阅读一段文本时,我们会更关注与当前任务相关的词汇和句子,而忽略其他不相关的信息。注意力机制就是模拟这种行为,让模型在处理数据时能够自动地关注到更重要的部分。

框架解析

transformer 使用编码器和解码器堆叠自注意力和逐点全连接层

每个编码器由6个相同的层组成,每个层有两个子层他们分别是 掩码多头注意力层和全连接前馈神经网络 ,模型技巧(trick)有采用了残差链接和层归一化每个子层的输出是LayerNorm(x + Sublayer(x)),具体来说,1 首先对x进行嵌入编码 然后和位置编码相加 2 编码后的向量输入进多头注意力机制,3 残差链接层归一化,4  Position-wise Feed-Forward Networks 5 残差连接 层归一化

每个解码器由6个相同的层组成,每个层有三个子层他们分别是1 掩码多头注意力层(why mask:防止解码器在生成序列时查看未来的信息,即在解码时 只希望模型 看到当前词 和当前词 前面的部分 所以要对后面的单词进行mask 处理 方法是 设为很大的负数)   2  encoder-decoder 多头注意力机制和3全连接前馈神经网络 ,模型技巧(trick)有采用了残差链接和层归一化每个子层的输出是LayerNorm(x + Sublayer(x)),具体来说,1 首先对x进行嵌入编码 然后和位置编码相加 2 编码后的向量输入进掩码多头注意力机制,3 残差链接层归一化, encoder-decoder 多头注意力机制 (q 来自掩码多头注意力的输出 kv 来自编码器的输出) 残差链接层归一化4  Position-wise Feed-Forward Networks 5 残差连接 层归一化

按比例缩放的点积注意力

 

为什么使用按比例缩放的 点积注意力?

缓解输入向量维度对注意力权重的影响:在点积计算中,如果输入向量的维度非常高,那么点积的结果可能会非常大,导致后续的softmax函数进入饱和区,使得梯度变得非常小,从而难以训练。按比例缩放可以解决这个问题,使得点积的结果在合理的范围内,避免softmax函数进入饱和区。

点积 可以计算向量之间的余弦相似度,并且可以进行矩阵运算加快计算速度和效率

多头注意力机制

 

 为什么要采取多头注意力机制?

多头注意力机制则允许模型在多个不同的表示子空间上并行计算注意力权重,从而能够更全面地捕捉输入序列中的依赖关系。通过将不同的注意力头组合在一起,模型能够学习到更复杂的表示,并更准确地预测目标序列

文心一言 是这样回答的

transformer 采取多头注意力机制(Multi-Head Attention)主要有以下几个原因:

  1. 多样性:多头注意力机制允许模型同时关注不同的位置和语义信息。每个头可以学习不同的注意力分布,从而捕捉输入序列中的不同依赖关系。如果只使用一个头,模型可能会错过某些重要的依赖关系。
  2. 更丰富的表示:通过多头注意力机制,模型可以并行学习多个自注意力表示。这使得模型能够更好地抓住输入数据的局部和全局信息,提供更丰富、更强大的表示。在自然语言处理任务中,这种丰富的表示往往导致更好的性能。
  3. 并行计算:多头注意力机制可以充分利用现代硬件并行计算的能力,例如 GPU。多个头可以在一次计算中同时进行处理,这样可以显著提高计算效率。
  4. 学习到不同维度的特征和信息:由于每个注意力头都是一个独立的self-attention,它们可以通过产生QKV矩阵来学习数据特征。每个self-attention最终会产生一个维度上的输出特征,因此当使用多头注意力机制时,模型可以学习到多维度的特征信息,从多个维度更好地理解数据。
  5. 提高模型容量和泛化能力:多头注意力机制增加了模型的容量,使得模型能够学习到更复杂的表示。由于能够从多个角度分析输入数据,模型的泛化能力得到提升。

总的来说,多头注意力机制通过提供多样性、更丰富的表示、并行计算能力以及学习不同维度特征的能力,帮助Transformer模型在处理序列数据时获得更好的性能。

多头注意力机制的多头是怎么实现的?

不是使用 dmodel 维键、值和查询执行单个注意力函数,e而是 将查询、键和值分别线性投影到 dk、dk 和 dv 维。在每个查询、键和值的每个投影版本上,然后我们并行执行注意力函数,产生 dv 维输出值

  1. 分割嵌入向量:首先,输入的嵌入向量(例如词嵌入向量)被分割成多个较小的部分,每个部分对应一个注意力“头”。假设输入的嵌入向量维度为D,注意力头数为h,则每个头处理的向量维度为D/h。这一步是为了让模型在更细粒度上学习数据的表示。
  2. 线性变换:对于每个分割后的部分(也就是每个头),应用三个不同的线性变换(全连接层),分别生成查询(Q)、键(K)和值(V)向量。每个线性变换的权重矩阵维度为(D/h)×(D/h)。
  3. 注意力计算:在每个头中,计算查询和键的点积,然后应用softmax函数得到注意力权重。最后,将注意力权重与值向量相乘,得到加权后的值向量。
  4. 拼接与线性变换:将所有头的加权后的值向量拼接起来,形成一个更大的向量。然后,再应用一个线性变换(全连接层),将拼接后的向量转换回原始嵌入向量的维度D。


 前馈神经网络与位置编码 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/614767.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

写了 1000 条 Prompt 之后,我总结出了这 9 个框架【建议收藏】

如果你对于写 Prompt 有点无从下手,那么,本文将为你带来 9 个快速编写 Prompt 的框架,你可以根据自己的需求,选择任意一个框架,填入指定的内容,即可以得到一段高效的 Prompt,让 LLM 给你准确满意…

再谈毕业论文设计投机取巧之IVR自动语音服务系统设计(信息与通信工程A+其实不难)

目录 举个IVR例子格局打开,万物皆能IVR IVR系统其实可盐可甜。还能可圈可点。 戎马一生,归来依然IVR。 举个IVR例子 以下是IVR系统的一个例子。 当您拨打电话进入IVR系统。 首先检验是否为工作时间。 如是,您将被送入ivr-lang阶段&#xff0…

python3如何安装bs4

在python官网找到beautifulsoup模块的下载页面,点击"downloap"将该模块的安装包下载到本地。 将该安装包解压,然后在打开cmd,并通过cmd进入到该安装包解压后的文件夹目录下。 在该文件目录下输入"python install setup.py&quo…

程序人生 | 人生如棋,落子无悔

人生的开始,始于哭声,浮浮沉沉几十年。终了,一声长叹,在一片哭声中撒手离去。 人生的道路虽然漫长,但是关键就是那么几次机会的选择,可以决定此后几十年的光阴。 有个故事讲:古代有个人去砍柴…

搭建一个Xx431?

搭建一个Xx431? 嘿uu们!刚结束了一周六天班感觉如何? 我的状态倒还行,工作生活总能找到乐子,本周整活就是用纸巾和蛋糕托做的油灯,另外想制冷片做个温水冷水可调的杯托,但我还不会搞3d,希望今年能搞起来. 题外话就说到这,这个选题也是因为实际遇到的问题需要这玩意,下班路…

基于Matplotlib的模型性能可视化工作

一、项目简介 本项目是科技考古墓葬识别工作的中间过程,因为需要大量复用所以另起一章好了。 主要涉及到数据读取、数据可视化和少量的数据处理过程。 二、相关知识 PandasMatplotlib 三、实验过程 1. 数据探索性分析 1.1 准备工作–导入模块 import pandas…

【Python系列】Python中列表属性提取

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【Java orm 框架比较】十一 新增 原生jdbc对比

迁移到(https://gitee.com/wujiawei1207537021/spring-orm-integration-compare) orm框架使用性能比较 比较mybatis-plus、lazy、sqltoy、mybatis-flex、easy-query、mybatis-mp、jpa、dbvisitor、beetlsql、dream_orm、wood、hammer_sql_db、原生jdbc…

OpenCv中cv2.subtract(image,blurred)与(image-blurred)的区别

目录 一、cv2.subtract()函数二、cv2.subtract(image,blurred)和(image-blurred)处理效果对比2.1 代码2.2 输出结果 三、总结 一、cv2.subtract()函数 cv2.subtract是OpenCV库中的一个函数,用于进行图像减法运算。它可以很方便地进行两个图像…

LeetCode/NowCoder-链表经典算法OJ练习1

目录 说在前面 题目一:移除链表元素 题目二:反转链表 题目三:合并两个有序链表 题目四:链表的中间节点 SUMUP结尾 说在前面 dear朋友们大家好!💖💖💖数据结构的学习离不开刷题…

【C/C++笔试练习】DNS设置文件、应用层、Dos攻击、DNS服务、DNS、子网划分、http状态、路由设置、TCP连接、HTTP状态码、剪花布条、客似云来

文章目录 C/C笔试练习选择部分(1)DNS设置文件(2)应用层(3)Dos攻击(4)DNS服务(5)DNS(6)子网划分(7)http状态&am…

网络运维故障排错思路!!!!!(稳了!!!)

1 网络排错的必备条件 为什么要先讲必备条件?因为这里所讲的网络排错并不仅仅是停留在某一个小小命令的使用上,而是一套系统的方法,如果没有这些条件,我真的不能保证下面讲的这些你可以听得懂,并且能运用到实际当中&a…

Navicat 17:先睹为快

官方声明:Navicat 17(英文版)目前处于测试阶段中,并计划 5 月 13 日发布! 如果你觉得 Navicat 16 已经推出很多令人兴奋的新功能,那么这次你可能要好好看看 Navicat 17,本次升级涵盖了更多的内容…

ASP.NET WebApi 如何使用 OAuth2.0 认证

前言 OAuth 2.0 是一种开放标准的授权框架,用于授权第三方应用程序访问受保护资源的流程。 OAuth 2.0 认证是指在这个框架下进行的身份验证和授权过程。 在 OAuth 2.0 认证中,涉及以下主要参与方: 资源所有者(Resource Owner&…

【算法】动态规划之背包DP问题(2024.5.11)

前言: 本系列是学习了董晓老师所讲的知识点做的笔记 董晓算法的个人空间-董晓算法个人主页-哔哩哔哩视频 (bilibili.com) 动态规划系列 【算法】动态规划之线性DP问题-CSDN博客 01背包 步骤: 分析容量j与w[i]的关系,然后分析是否要放…

iLogtail 社区开源之夏活动来了!

作者:玄飏 在这个充满活力的夏日,随着阳光一同灿烂的是开源精神的光辉与创新的火花。iLogtail 社区高兴地宣布,我们正式加入开源之夏 2024 的行列,诚邀每一位怀揣梦想与激情的学生开发者,共同开启一场探索技术前沿、贡…

WP All Import Pro插件下载 - 一键导入,无限可能

在当今快节奏的数字时代,网站内容的更新和管理是每个网站管理员和开发者的日常工作。但是,传统的手动更新方法不仅耗时,而且容易出错。现在,有了WP All Import Pro,这一切都将改变。 WP All Import Pro 是一款专为Wor…

完美撤离暗区突围测试资格获取指南 超简单的暗区突围资格申请

完美撤离!暗区突围测试资格获取指南 超简单的暗区突围资格申请! 最近游戏圈关注度最高的一件事莫过于暗区突围国际服的上线,随着暗区突围PC端的上线,这款游戏的测试资格申请成为了玩家们心头的一个大问题,许多玩家爱不…

SpringBoot实现统一返回值+全局异常处理

在这里首先感谢的就是程序员老罗&#xff0c;从他的项目里面学到了这些东西。 首先就是去创建一个SpringBoot项目&#xff0c;这里我就不多做赘述了 封装一个统一返回对象 package com.example.demo.vo;public class ResponseVO<T> {private String status;private In…

YOLOv5-7.0改进(四)添加EMA注意力机制

前言 关于网络中注意力机制的改进有很多种&#xff0c;本篇内容从EMA注意力机制开始&#xff01; 往期回顾 YOLOv5-7.0改进&#xff08;一&#xff09;MobileNetv3替换主干网络 YOLOv5-7.0改进&#xff08;二&#xff09;BiFPN替换Neck网络 YOLOv5-7.0改进&#xff08;三&…