Transformer系列专题(一)——self-attention自注意力机制如何计算

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、总述
  • 二、如何计算self-attention
  • 三、softmax归一处理
  • Attention整体计算流程


前言

自注意力机制的原理相当于一个词在其上下文中的联系,即将这一个词赋予这一句话中将每个词乘以不同的权重,即是这一个词对上下文的关系程度。
I am a student将本句话中的a对上下文的关系程度即为,将上下的词分别乘以不同的权重赋予到a词中,这就是a对上下问的关系程度。
接下来详细介绍自注意力机制如何计算?


一、总述

  • input输入thinking和machines两个词作为样例
  • 先对输入经过Embedding编码得到词向量
  • 想得到当前词语上下文的关系,可以当作是加权
  • 最后构建三个矩阵分别来查询当前词跟其他词的关系,以及特征向量的表达。

在这里插入图片描述

二、如何计算self-attention

  • 三个需要训练的矩阵
    • Q:query,要去查询的
    • K:key,等着被查的
    • V:value,实际的特征信息

在这里插入图片描述

即设X矩阵有x1和x2两个向量,经过各自的权重矩阵相乘后得到各自的特征矩阵。
在这里插入图片描述

  • q与k的内积表示有多少匹配度
  • 输入两个向量得到一个分值
  • K:key,等着被查的
  • V:value,实际的特征信息

在这里插入图片描述

  • 其中上述的q1 × \times ×k1和q1 × \times ×k2内积的结果分别为第一个词和第一个词的匹配程度和第一个词与第二个词的匹配程度,这两个都是对第一个词的计算不是第二个的。

三、softmax归一处理

  • softmax函数是一种将多分类问题转化为每一类是多少概率的函数,范围在 0 − 1 0-1 01
  • 首先回忆一下以前的softmax。softmax又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类!假设我们有一个数组,V,Vi表示V中的第i个元素,那么这个元素的softmax值就是
    在这里插入图片描述
    在这里插入图片描述
    那么在本文中softmax的计算和作用如下:
  • 将第二步的最终得分经过softmax就是最终上下文结果
  • Scaled Dot-Product Attention 不能让分值随着向量维度的增加而增大
  • 本文的计算公式如下:
    在这里插入图片描述
  • 最后输出结果如下图:
    计算一句话中一个词与本句话中所有词的关系程度也就是内积然后进行softmax归一化,将得到的这个词对每个词的关系概率乘以各自的V向量最终输出本词的Attention Value。
    在这里插入图片描述

Attention整体计算流程

  • Attention计算流程
  • 每个词的Q都会跟每一个K计算得分
  • Softmax后得到整个的加权结果(假设下面的词的维度为64维)
  • 此时每个词看的不只是它前面的序列而是整个输入序列
  • 同以时间计算出所有词的表示结果
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/636552.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

linux-----环境变量

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 常见的环境变量: PWD:记录当前工作目录 PATH : 指定命令的搜索路径 HOME : 指定用户的主工作目录(即用户登陆到Linux系统中时,默认的…

毫米波雷达深度学习方法和技术-概述

深度学习方法和技术—在毫米波雷达解决方案的进展 前言 雷达已经从复杂的高端军事技术演变为相对简单的低端解决方案,渗透到工业、汽车和消费市场领域。这种快速发展是由硅的进步和使用深度学习算法来利用传感器数据的全部潜力所驱动的。雷达传感器的使用已经增长了…

Visual Studio 下的Qt工程无法打开 “xxx.ui“ 文件和LNK1104 无法打开文件“Qt5Cored.lib”错误

一、问题: VS下Qt环境准备好后,创建了Qt工程然后点击 Form Files 下的 “xxx.ui” 文件,在弹出 Qt 设计师 界面后闪退并显示如下错误: 二、解决 1、工具栏处依次点击:扩展 一> Qt VS Tools 一> options 弹出选…

windows2008修改远程桌面端口,如何果断修改远程桌面端口,确保系统安全无忧!

在数字化时代的浪潮中,Windows 2008系统以其卓越的稳定性和可靠性,赢得了众多企业和个人的青睐。然而,随着网络安全问题的日益严峻,如何确保远程桌面连接的安全,成为了摆在我们面前的一道难题。今天,我将为…

【HMGD】STM32/GD32 I2C DMA 主从通信

STM32 I2C配置 主机配置 主机只要配置速度就行 从机配置 从机配置相同速度,可以设置第二地址 因为我的板子上面已经有了上拉电阻,所以可以直接通信 STM32 I2C DMA 定长主从通信代码示例 int state 0; static uint8_t I2C_recvBuf[10] {0}; stat…

Python图像处理:从基础到高级的全方位指南

目录 第一部分:Python图像处理基础 1.1 图像处理概念 1.2 Python图像处理常用库 1.3 实战案例:图像显示与保存 1.4 注意事项 第二部分:Python图像处理高级技巧 2.1 图像变换 2.2 图像增强 2.3 图像复原 第三部分:Python…

注意力机制,代码简析

2017年Google在论文《Attention is All You Need》中提出了Transformer模型,并成功应用到NLP领域。该模型完全基于自注意力机制Attention mechanism实现,弥补了传统的RNN模型的不足。宏观层面,Transformer可以看成是一个黑箱操作的序列到序列…

SpringCloud Alibaba的相关组件的简介及其使用

Spring Cloud Alibaba是阿里巴巴为开发者提供的一套微服务解决方案,它基于Spring Cloud项目,提供了一系列功能强大的组件,包括服务注册与发现、配置中心、熔断与限流、消息队列等。 本文将对Spring Cloud Alibaba的相关组件进行简介&#xff…

Unity3D读取Excel表格写入Excel表格

系列文章目录 unity工具 文章目录 系列文章目录👉前言👉一、读取Excel表格👉二、写入Excel表格👉三、Fileinfo和Directoryinfo的操作👉四、壁纸分享👉总结 👉前言 有时候难免会遇到读取文件写…

【实验内容-1】自定义异常类的应用

目录 【任务介绍】 【任务目标】 【任务分析】见具体任务介绍 【任务实现】 【实验结果(包括输入数据和输出结果)】 【任务介绍】 1.写一个抽象类:账户类(Account) 包含属性: id:账户号码 name:账户姓名 balance:账户余额 deposit…

基于Matlab实现声纹识别系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景与意义 声纹识别,也称为说话人识别,是一种通过声音判别说话人身份的生物识别技…

线段(线性dp)

题目链接:[TJOI2007] 线段 - 洛谷 思路: f[i][0]表示走完第i行且停在第i行的左端点最少用的步数 f[i][1]同理,停在右端点的最少步数。 那么转移就很简单了,走完当前行且停到左端点,那么一定是从右端点过来的&#x…

“腾讯云 AI 代码助手”体验

一、“腾讯云 AI 代码助手”体验 1、注册账号并进行实名认证 2、进入开发环境 3、体验javascript简单函数 代码如下: //请写一个两个日期计算的函数 function dateDiff(date1, date2) {return date2.getTime() - date1.getTime(); } var date1 new Date("2…

Elastic Cloud Serverless 定价和打包

作者:来自 Elastic Clint Scott 借助 Elastic Cloud Serverless,我们通过针对安全性、可观察性和 Elasticsearch 的新解决方案特定定价和打包来简化并提供更高的灵活性。 Elastic Cloud 定价的演变 Elastic Cloud 长期以来一直是使用 Elastic Stack 的最…

# 分布式链路追踪_skywalking_学习(1)

分布式链路追踪_skywalking_学习(1) 一、APM 系统概述 1、什么是 APM 系统? APM :全称 Application Performance Management 即应用性能管理系统。是对企业系统即时监控以实现对应用程序性能管理和故障管理的系统化的解决方案。…

【leetcode】排序算法总结

第 11 章 排序 - Hello 算法动画图解、一键运行的数据结构与算法教程https://www.hello-algo.com/chapter_sorting/ 堆排序 #include <iostream> #include <vector>using namespace std;/* 堆的长度为 len &#xff0c;从节点 i 开始&#xff0c;从顶至底堆化 *…

【vue部署】Apache部署vue项目

Apache部署vue项目 Apache 下载安装(windows)1. 下载2. 安装3. 启动服务 vue 部署配置1. 基础配置2. 解决页面刷新问题 Apache 下载安装(windows) 1. 下载 Apache 2.4.59 下载地址&#xff1a;httpd-2.4.59-240404-win64-VS17.zip Visual C Redistributable for Visual Studi…

Python解析网页-XPath

目录 1、什么是XPath 2、安装配置 3、XPath常用规则 4、快速入门 5、浏览器XPath工具 1.什么是XPath XPath&#xff08;XML Path Language&#xff09;是一种用于在XML文档中定位和选择节点的语言。 它是W3C&#xff08;World Wide Web Consortium&#xff09;定义的一种标…

Springboot+Element_分页+显示+搜索+完整版

目录 显示效果 新建项目时选择的依赖 文件的目录结构 一、准备工作 1、配置文件 2、pom增加PageHelper 3、在idea中建立数据库连接&#xff0c; 4、新建peom表&#xff08;如已建好&#xff0c;则忽略本条&#xff09; 二、新建前端页面index.html&#xff08;未连后端…

Redis --学习笔记

Redis简介 一个基于内存的key-value结构数据库。Redis 是互联网技术领域使用最为广泛的存储中间件 特点&#xff1a; 基于内存存储&#xff0c;读写性能高 适合存储热点数据&#xff08;热点商品、资讯、新闻&#xff09; 企业应用广泛 Redis默认端口号为6379 Redis是用…