位置编码的具体计算方式(公式解释)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
公式 (10.6.2) 描述了位置编码的具体计算方式,这种位置编码基于正弦和余弦函数,用于在自注意力机制中引入位置信息。下面我们详细解释公式和代码。

公式 (10.6.2)

公式 (10.6.2) 的目的是为输入序列中的每个词元添加一个位置编码,以保留序列的位置信息:

[
\begin{split}
\begin{aligned}
p_{i, 2j} &= \sin\left(\frac{i}{10000^{2j/d}}\right), \
p_{i, 2j+1} &= \cos\left(\frac{i}{10000^{2j/d}}\right).
\end{aligned}
\end{split}
]

这里:

  • ( p_{i, 2j} ) 是位置编码矩阵 (\mathbf{P}) 的第 (i) 行、第 (2j) 列的元素。
  • ( p_{i, 2j+1} ) 是位置编码矩阵 (\mathbf{P}) 的第 (i) 行、第 (2j+1) 列的元素。
  • ( i ) 表示词元在序列中的位置。
  • ( j ) 表示编码维度的索引。
  • ( d ) 是词元向量的维度。

这些位置编码使用不同频率的正弦和余弦函数,较小的频率用于较低的维度,较大的频率用于较高的维度。

在这里插入图片描述
在这里插入图片描述
让我们详细解释一下为什么在公式 (10.6.2) 中使用 ( i ) 和 ( 2j ),为什么是 ( 10000^{2j/d} ),以及为什么选择正弦和余弦函数。

1. 为什么是 ( i ) 和 ( 2j )

  • ( i ): 表示词元在序列中的位置。
  • ( 2j ) 和 ( 2j+1 ): 表示编码维度的索引。位置编码矩阵的每个词元的每个维度都有两个值,一个是正弦函数值,另一个是余弦函数值。

在位置编码矩阵中,维度 ( 2j ) 存储正弦函数值,维度 ( 2j+1 ) 存储余弦函数值。这种交替存储方式允许位置编码同时捕捉到不同频率的周期信息。

2. 为什么是 ( 10000^{2j/d} )

  • ( 10000^{2j/d} ): 这是一个缩放因子,确保不同维度的频率不同。具体来说,随着 ( j ) 的增加,频率会指数级地增加。

    • 当 ( j ) 较小时, ( \frac{2j}{d} ) 也较小,这意味着 ( 10000^{2j/d} ) 较小,从而使 ( \frac{i}{10000^{2j/d}} ) 较大,结果是低频率。
    • 当 ( j ) 较大时, ( \frac{2j}{d} ) 也较大,这意味着 ( 10000^{2j/d} ) 较大,从而使 ( \frac{i}{10000^{2j/d}} ) 较小,结果是高频率。

这种设计保证了不同维度上位置编码的频率不同,从而捕捉到多种粒度的位置信息。

3. 为什么选择正弦和余弦函数

选择正弦和余弦函数的主要原因是它们的周期性和相位特性。这些函数可以捕捉到序列中的相对位置关系:

  • 正弦函数和余弦函数的周期性: 位置编码利用了正弦和余弦函数的周期性,能够捕捉到词元在序列中的相对位置。因为这些函数是周期性的,模型可以通过这些位置编码了解词元之间的相对距离。

  • 正弦和余弦的互补性: 正弦函数和余弦函数是相位差90度的互补函数,组合在一起可以更全面地描述位置信息。

总结

结合以上几点,公式 (10.6.2) 的位置编码设计利用了正弦和余弦函数的周期性特性,通过不同的频率和相位捕捉序列中词元的相对位置,从而增强了模型对序列顺序信息的理解。

这就是为什么公式 (10.6.2) 被设计成这个样子:通过 ( i ) 来表示位置,通过 ( 10000^{2j/d} ) 来控制频率,通过正弦和余弦函数来捕捉不同频率的位置信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/783629.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

厦门大学-中央空调分户计费预付费管理系统案例

厦门大学-中央空调分户计费预付费管理系统案例 实现中央空调节能与舒适的双重目标随着社会的发展和人们生活水平的提高,空调已成为现代建筑中不可或缺的设备。传统的集中计费方式已无法满足多样化的用户需求和节能减排的市场趋势。中央空调如何公平、公正、合理的收…

笔记本电脑投屏怎么操作?一看就会!

日常工作或办公都会用到笔记本电脑,但很多新手用户不知道笔记本电脑的投屏要怎么操作?接下来系统之家给大家介绍三种简单的操作方法,帮助大家轻松完成笔记本电脑投屏投屏操作,从而满足自己的办公或学习使用需求。 方法一 1. 直接W…

解决Ubuntu虚拟机卡死的一种可能情况:文件系统可用率不足

Ubuntu虚拟机卡死 界面挂在/dev/sda3上开不了机了,情况可能的很多,由于我这里是虚拟机,给内存才分配了20G,我一猜就是硬存炸了,果不其然。。。 进入recovery mode 我们进入recovery mode先,在VM虚拟机开…

IOC、DI<4> Unity

IOC():控制反转,把程序上层对下层的依赖,转移到第三方的容器来装配 是程序设计的目标,实现方式包含了依赖注入和依赖查找(.net里面只有依赖注入) DI:依赖注入&#xff0c…

【Mathematical14.0最新进阶教学】-1-基础计算拓展

我在真正使用Mathematica后,才发觉这个软件的神奇,但是又有对于不知道如何使用这个神奇软件,因此我将我学习《The Student’s Introduction to Mathematica and the Wolfram Language (Bruce F. Torrence, Eve A. Torrence) 》的一些心得进行…

【Go】常见的变量与常量

变量 常见的变量声明方式 一、声明单个变量的多种方式 1.声明一个变量初始化一个值 //声明变量 默认值是0,var a int//初始化一个值a 1fmt.Println(a) 2. 在初始化的时候省去数据类型,通过值自动匹配当前的变量的数据类型 var b 2fmt.Println(&quo…

分享四种CAD图纸加密方法,防止盗图!

保护CAD图纸不受盗用和非法传播是设计行业中的一个重要课题,以下四种CAD图纸加密方法可以帮助防止图纸被未授权使用。 1.使用专业的加密软件(最安全的方法) 专门的加密软件,如安企神软件,可以提供更高级别的保护。它使…

【Java伴学笔记】Day-01 命令行|环境|编译解释运行|Java的相关分支|Java的特性|字面量

一、关于命令行 图形化界面的缺点 需要加载图片等一系列资源 效率较低 命令行 CMDMicrosoft Learn-CMDWindows CMD常用命令大全(值得收藏) 二、环境 什么是JDK JDK是Java Development Kit的缩写,意为Java开发工具包。它是一个用于开发Java应用…

httpd目录显示乱码问题

vim /etc/httpd/conf/httpd.conf 在<Directory “/var/www/html”>下添加&#xff1a; IndexOptions CharsetUTF-8重启httpd: systemctl restart httpd.service还是不好看&#xff0c;调整下显示宽度&#xff0c;还是这个位置&#xff1a; <Directory “/var/www/ht…

Qt使用sqlite数据库及项目实战

一.sqlite使用介绍 在Qt中使用SQLite数据库非常简单&#xff0c;SQLite是一个轻量级的嵌入式数据库&#xff0c;不需要单独的数据库服务器&#xff0c;完全使用本地文件来存储数据。 当在Qt中使用SQLite数据库时&#xff0c;需要涉及到一些SQL语句以及Qt中的相关函数&#xf…

glide加载mp4 源码堆栈调用核心代码分析

load 数据走的httpurlfetcher 的loaddata 从MultiLoader 调用而来 load到inputstream流后的处理 核心 图片是glide 首先创建解释器的时候 加了videodecoder 然后这里会从流中加载对应帧的图片保存在手机cache目录中 将这个file 作为bitmap传递 然后加载 private static final…

2024人工智能大会_强化学习论坛相关记录

求解大规模数学优化问题 规划也称为优化 四要素&#xff1a;数据、变量、目标、约束 将一个简单的数学规划问题项gpt进行提问&#xff0c;GPT给了一个近似解&#xff0c;但不是确切的解。 大模型的训练本身就是一个优化问题。 大模型是如何训练的&#xff1f;大模型训练通常使…

vue3+ el-tree 展开和折叠,默认展开第一项

默认第一项展开: 展开所有项&#xff1a; 折叠所有项&#xff1a; <template><el-treestyle"max-width: 600px":data"treeData"node-key"id":default-expanded-keys"defaultExpandedKey":props"defaultProps"…

java-数据结构与算法-02-数据结构-03-递归

1. 概述 定义 计算机科学中&#xff0c;递归是一种解决计算问题的方法&#xff0c;其中解决方案取决于同一类问题的更小子集 In computer science, recursion is a method of solving a computational problem where the solution depends on solutions to smaller instances…

codeforces 1633A

文章目录 1. 题目链接2. 题目代码正确代码错误代码 3. 题目总结 1. 题目链接 Div. 7 2. 题目代码 正确代码 #include<iostream> using namespace std; int main(){int testCase;cin >> testCase;while(testCase --){int ingeter;cin >> ingeter;if(!(inget…

Python: 分块读取文本文件

在处理大文件时&#xff0c;逐行或分块读取文件是很常见的需求。下面是几种常见的方法&#xff0c;用于在 Python 中分块读取文本文件&#xff1a; 1、问题背景 如何分块读取一个较大的文本文件&#xff0c;并提取出特定的信息&#xff1f; 问题描述: fopen(blank.txt,r) quot…

专家指南:如何为您的电路选择理想的压敏电阻或热敏电阻

保护和维持电路功能需要两种设备&#xff1a;压敏电阻和热敏电阻。这两个电气元件有时会因后缀相似而混淆&#xff0c;但它们具有不同且重要的用途。 由于这种混淆&#xff0c;我们需要准确地了解这些组件是什么&#xff0c;这就是本文将要讨论的内容——应用程序、作用、优点…

SAP 无权限的解决

在进行SAP操作过程中&#xff0c;经常会出现无权限的情况&#xff0c;如客户说没有“ABAAL计划外折旧”权限 但是在查看SU01的时候&#xff0c;已经有角色分配了 解决&#xff1a;1、ABAA之后&#xff0c;SU53查看2、 2、PFCG查找到角色手动添加权限对象S_TCODDE,之后更新&…

Jhipster实战中遇到的知识点-开发记录

利用Jhipster开发的网站天赋吉星终于上线啦&#xff0c;本文介绍了在开发过程中遇到的各种小的知识点和技巧&#xff0c;绝对干货&#xff0c;供你参考。大家可以直接点击天赋吉星&#xff0c;看到网站效果。 首先介绍一下项目技术选型&#xff0c;JHipster 版本:8.1.0, 项目类…

谷粒商城学习笔记-逆向工程错误记录

文章目录 1&#xff0c;Since Maven 3.8.1 http repositories are blocked.1.1 在maven的settings.xml文件中&#xff0c;新增如下配置&#xff1a;1.2&#xff0c;执行clean命令刷新maven配置 2&#xff0c;internal java compiler error3&#xff0c;启动逆向工程报错&#x…