Transformer1--self attention

目录

  • 一、 Vector set as 输入
  • 二、 模型输出(三种)
    • 1 **n-to-n**
    • 2 n-to-1
    • 3 n-to-m
  • 三、self-attention
    • 1、问题引入
    • 2、self-attention
    • 3 self-attention 原理介绍

一、 Vector set as 输入

一段声音讯号:
在这里插入图片描述
图结构(graph):输入向量(vector={性别,身高})
在这里插入图片描述
分子结构:vector={元素类别}
在这里插入图片描述

二、 模型输出(三种)

1 n-to-n

在这里插入图片描述
应用:文字处理
在这里插入图片描述
语音识别:
在这里插入图片描述

2 n-to-1

在这里插入图片描述
应用:正负评论分类、语音辨认
在这里插入图片描述

3 n-to-m

在这里插入图片描述
应用:翻译

三、self-attention

以n-to-n为例。
在这里插入图片描述

1、问题引入

不考虑上下文的情况下,模型认为两个"saw"是一样的,会输出相同的两个结果。
在这里插入图片描述
使用Window局部考虑上下文:
在这里插入图片描述
使用Windows考虑上下文,无法考虑整个序列的上下,如果想要考虑较长的上下文信息,需要大的Window,这样就增加计算复杂度。
————————————————————————————————————————
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
————————————————————————————————————————

2、self-attention

Transformer是一个经典的self-attention 论文,
在这里插入图片描述

3 self-attention 原理介绍

找出任意两个输入的相关性 α \alpha α
在这里插入图片描述
计算 α \alpha α(两种方式:1 dot product, 2 additive):
在这里插入图片描述
有了 α \alpha α的计算方式,接下来计算输入之间的关联性:
在这里插入图片描述
获得 a 1 a_1 a1与其他输入向量的相关性: α 1 = [ α 1 , 1 ′ α 1 , 2 ′ α 1 , 3 ′ α 1 , 4 ′ ] \alpha_1=[\alpha' _{1,1} \alpha' _{1,2} \alpha' _{1,3} \alpha' _{1,4}] α1=[α1,1α1,2α1,3α1,4],接下来利用关系向量作为权重乘上输入向量 [ a 1 , a 2 , a 3 , a 4 ] [a^1,a^2,a^3,a^4] [a1,a2,a3,a4],得到考虑上下文的 a 1 a^1 a1,即 b 1 b^1 b1
在这里插入图片描述
接下来,就能计算 [ b 1 , b 2 , b 3 , b 4 ] [b^1,b^2,b^3,b^4] [b1,b2,b3,b4]在这里插入图片描述
[ b 1 , b 2 , b 3 , b 4 ] [b^1,b^2,b^3,b^4] [b1,b2,b3,b4]并不是串行计算,而是通过矩阵乘法进行并行计算:
在这里插入图片描述
对于 [ q 1 , q 2 , q 3 , q 4 ] [q^1,q^2,q^3,q^4] [q1,q2,q3,q4], K 1 , k 2 , k 3 , k 4 K^1,k^2,k^3,k^4 K1,k2,k3,k4, v 1 , v 2 , v 3 , v 4 v^1,v^2,v^3,v^4 v1,v2,v3,v4,可以通过矩阵乘法实现并行计算:
在这里插入图片描述
接下来我们就可以使用得到的Q,K,V计算相关性系数 α \alpha α。同样也可以使用矩阵乘法来实现并行计算,即 K T ∗ Q K^T*Q KTQ
在这里插入图片描述
在这里插入图片描述
得到相关性矩阵 A A A之后,就可以计算考虑上下文的特征向量 b b b
在这里插入图片描述
所以self-attention的计算过程被总结为如下的矩阵乘法:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/729777.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

店员顾客起纠纷?EasyCVR+AI视频监控管理平台,助力连锁门店安全运营

近日,某品牌咖啡店店员与顾客起冲突登上了新闻热搜,一时间引发大量关注。随着门店完整的监控视频录像公开,大家才了解事情的原委,而并非网传的那样。 随着社会的进步和科技的发展,视频监控已成为各行各业不可或缺的安全…

红军九大技战法

一、动态对抗,线上社工持续信息追踪 发起攻击前,发起攻击前,尽可能多的搜集攻击目标信息,做到知己知彼,直击目标最脆弱的地方。攻击者搜集关于目标组织的人员信息、组织架构、网络资产、技术框架及安全措施信息&#x…

一分钟了解中小企业数字化转型如何进行?「建议收藏」

关于“中小企业数字化转型方法论”,其实网上已经有不少文章给出了一些方式方法,那么这里我再系统性的讲解一下。 一、中小企业为什么要实现数字化转型 首先要知道,中小企业为什么要实现数字化转型?当前,世界经济数字化…

社区团购系统智慧门店物流配送系统开发,支持小程序公众号。

目录 前言: 一、为什么要做社区团购小程序? 二、怎么做一个社区团购小程序? 三、制作属于自己的社区团购小程序有什么好处? 总结: 前言: 社区团购是针对小区居民或群体开发的在线购物平台,…

深入解析 Python dataclass:类属性与类方法解释

文章目录 dataclass实例属性和类属性自动设置属性 实例方法静态方法(staticmethod)和 类方法(classmethod)静态方法类方法 dataclass dataclass 是 Python 3.7 引入的一个装饰器,用于简化类的定义。 使用 dataclass …

AcWing 1801:蹄子剪刀布 ← 模拟题

【题目来源】https://www.acwing.com/problem/content/1803/【题目描述】 你可能听说过“石头剪刀布”的游戏。 这个游戏在牛当中同样流行,它们称之为“蹄子剪刀布”。 游戏的规则非常简单,两头牛相互对抗,数到三之后各出一个表示蹄子&#x…

玩玩大模型:总结归纳可以,策划创新拉垮

最近身边的人都在研究大模型。太深入的理解不了,有一些人会讲讲promt提示,学了几招。 比如: #角色 你是一个美食博主 #条件 我只有xxx元,在xxx.... #任务 找一家好吃的当地特色餐馆... 多试几次,有些结果很有参考价值…

函数栈帧的创建和销毁,带动图详细解析,带你大致分析汇编代码

目录 1.什么是函数栈帧 2.理解函数栈帧有什么用? 3.函数栈帧的创建和销毁解析 3.1什么是栈? 3.2 认识相关寄存器和汇编指令 3.3函数栈帧的创建和销毁解析过程 3.4函数的调用 3.5汇编代码 3.5.1函数栈帧的创建 3.5.2main函数部分 3.5.3Add函数…

策略模式编程

接口定义&#xff1a; public interface ProcessParserStrategy { List<ProcessInfo> parser(String osType, String processInfo); String getApp(); } public interface ConfigParserStrategy { List<ConfigInfo> parser(String configInfo); String getConfigT…

谷歌Chrome浏览器排查js内存溢出

1. 打开谷歌浏览器检查台 2. 点击memory 3. 点击开始快照录制&#xff0c;时隔一会儿录一次&#xff0c;多录几次 4. 进行快照对比

vue+element-plus完美实现跨境电商商城网站

目录 一、项目介绍 二、项目截图 1.项目结构图 2.首页 3.中英文样式切换 4.金钱类型切换 5.商品详情 6.购物车 7.登录 ​编辑 8.注册 9.个人中心 三、源码实现 1.项目依赖package.json 2.项目启动 3.购物车页面 四、总结 一、项目介绍 本项目在线预览&am…

[网络安全产品]---EDR

写在前面 前端时间看抖音&#xff0c;刷到周鸿祎介绍360为什么这么厉害&#xff0c;他提到一点就是360是全球第一个提出云查杀概念的公司&#xff0c;相比较传统的基于病毒特征库终端杀毒&#xff0c;360依托积累的庞大的信息数据能有效应对APT攻击。 然后又特意找了一下云查…

世界是软件定义的 - 正如硬件公司所证明的那样

很难相信&#xff0c;马克安德森&#xff08;Marc Andressen&#xff09;在13年前写下了他著名的博客&#xff0c;题为“软件正在吞噬世界”。在这篇文章中&#xff0c;他谈到了现代软件组织对传统企业造成的破坏。 十三年后&#xff0c;即使面对英伟达的平流层估值&#xff0…

openGauss开发者大会、华为云HDC大会举行; PostgreSQL中国技术大会7月杭州开启

重要更新 1. openGauss Developer Day本周五于北京举行&#xff0c;大会聚集了相关行业专家、用户、伙伴和开发者&#xff0c;分享给予openGauss的联合创新成果和实践案例。([2] ) &#xff1b;华为云 HDC 2024本周五于东莞松山湖举行&#xff0c;主题演讲主要覆盖鸿蒙、AI ([3…

IntelliJ IDEA 2024 mac/win版:编程利器,智慧之选

IntelliJ IDEA 2024是一款由JetBrains精心打造的集成开发环境(IDE)&#xff0c;专为Java等编程语言量身打造&#xff0c;同时支持多种其他语言&#xff0c;为开发者提供了卓越的开发体验。 IntelliJ IDEA 2024 mac/win版获取 这款IDE凭借其出色的智能化和高效性&#xff0c;赢…

【Python高级编程】新手小白必须得学会的文本文件操作,资料资源均可分享!

文件读取处理 使用 read()&#xff1a; # 使用 read 方法读取文件的所有内容 with open(resources/training_log.txt, r) as file:content file.read()print(content)# 报错处理版本 # 使用 read 方法读取文件的所有内容 # 使用 utf-8 编码方式打开文件 with open(resources…

车载模块负载基础认识

车载模块负载是指车辆上的各种电子设备和系统&#xff0c;如导航系统、音响系统、空调系统、安全气囊等。这些设备和系统在车辆运行过程中需要消耗一定的电能&#xff0c;以保证其正常工作。车载模块负载的基础认识主要包括以下几个方面&#xff1a; 1. 负载类型&#xff1a;车…

GaussDB关键技术原理:高性能(一)

引言 对数据库性能进行优化是令人激动的&#xff0c;无论是对其进行性能需求分析、性能需求设计、性能问题定个位都是富于变化又充满挑战的工作&#xff0c;本章围绕“数据库性能”进行全面系统化的介绍&#xff0c;首先从数据库在现代软件栈中所处的位置出发&#xff0c;介绍…

vue+echarts ----中国地图 下拉选择省份地图中的省份区域高亮显示以及飞线图的效果

vueecharts ----中国地图 下拉选择省份地图中的省份区域高亮显示以及飞线图的效果 1、父组件核心代码&#xff1a;【/utils/area的详细数据】、【/utils/china详细数据】 <template><div class"center"><div class"digital"><el-se…

canvas实现画布拖拽效果 适配Uniapp和Vue (开箱即用)

需求:我司是做AIGC项目最近和地铁项目有关需要实现海报效果图&#xff0c;并且需要使用画布拖拽和修改上传删除等等功能 当时连续加班花了10个工作日搓出来 实现挺简单的但是Canvas数据处理还是挺麻烦的 大概功能如图下 首先我们需要引入Fabric.js 这个库封装好了原生的Canva…