NLP学习记录十一:位置编码

目录

一、位置编码的意义        

二、位置编码方法

三、代码实现


一、位置编码的意义        

        在标准的注意力机制中,每个查询都会关注所有的键-值对并生成一个注意力输出,模型并没有考虑到输入序列每个token的顺序关系。


        以["我",“爱”,“你”]["你",“爱”,“我”]为例,假如输入序列为:["我",“爱”,“你”],这个输入序列经过embedding层编码后的向量为:

  • "我" → [1, 0]

  • "爱" → [0, 1]

  • "你" → [0, 0]

        接下来,模型会计算每个词与其他词的相似度。例如,计算“爱”对“我”和“你”的注意力权重(缩放点积)时:

  • "爱" vs "我": (0*1) + (1*0) = 0

  • "爱" vs "你": (0*0) + (1*0) = 0

        此时,模型可能认为“爱”和“我”“你”都无关(相似度为0),但显然不合理,因为“爱”在序列中的位置(中间)应该关联前后词。如果我们变换“我”“你”的位置,相似度依然会是0,说明此时在模型眼中,“我爱你”“你爱我”并没有差别。


        如果我们在embedding层编码时同时加入各个token的位置信息(位置编码):

  • 位置0("我") → [0.1, 0.2]

  • 位置1("爱") → [0.3, 0.4]

  • 位置2("你") → [0.5, 0.6]

        新的词表示(embedding层编码结果 + 位置编码结果):

  • "我" → [1+0.1, 0+0.2] = [1.1, 0.2]

  • "爱" → [0+0.3, 1+0.4] = [0.3, 1.4]

  • "你" → [0+0.5, 0+0.6] = [0.5, 0.6]

        重新计算注意力权重(以“爱”为中心):

  • "爱" vs "我": (0.3*1.1) + (1.4*0.2) = 0.33 + 0.28 = 0.61

  • "爱" vs "你": (0.3*0.5) + (1.4*0.6) = 0.15 + 0.84 = 0.99

        此时,“爱”“你”的注意力权重更高,符合“爱”在中间位置时更关注后面的“你”。如果交换“我”“你”的位置,因为位置关系变化了,计算得到的注意力权重也会发生变化,也就说明此时模型能够区分“我爱你”“你爱我”的语义差别了。

        从上面的例子可以看出,位置编码可以帮助注意力模型理解输入序列中各个token的顺序关系。

二、位置编码方法

        假设embedding层输出的词嵌入矩阵为X,token个数为n,向量长度为d,即;位置编码输出矩阵为P,。P中第i行,第2j列和第2j+1列的元素为:

        最终将使用X+P作为整个编码流程的输出结果。

        至于为什么要用上面的公式来进行位置编码,感觉自己还是一知半解,后面学会了再记录下来。

三、代码实现

import torch
from torch import nn
"""位置编码"""
class PositionalEncoding(nn.Module):
    # 参数max_len >= 每个batch的token个数n;参数num_hiddens对应于编码向量长度d
    def __init__(self, num_hiddens, dropout, max_len=1000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(dropout)

        # 位置编码矩阵P
        self.P = torch.zeros((1, max_len, num_hiddens))

        # 分子
        molecule = torch.arange(max_len, dtype=torch.float32).reshape(-1, 1)

        # 分母
        denominator = torch.pow(10000, torch.arange(0, num_hiddens, 2, dtype=torch.float32) / num_hiddens)

        X = molecule / denominator

        # 从索引0开始,每隔两个元素取一个值(即取所有偶数索引的元素)
        self.P[:, :, 0::2] = torch.sin(X)

        # 从索引1开始,每隔两个元素取一个值(即取所有奇数索引的元素)
        self.P[:, :, 1::2] = torch.cos(X)

    def forward(self, X):
        X = X + self.P[:, :X.shape[1], :].to(X.device)
        return self.dropout(X)
if __name__ == "__main__":
    encoding_dim, num_steps = 32, 60
    pos_encoding = PositionalEncoding(encoding_dim, 0)
    pos_encoding.eval()

    # 模拟embedding层输出的词嵌入矩阵,(batch_size, 查询个数, 向量长度) -> (1, 60, 32)
    X = torch.zeros((1, num_steps, encoding_dim))

    # embedding+位置编码的结果,(batch_size, 查询个数, 向量长度) -> (1, 60, 32)
    X = pos_encoding(X)

    # 仅位置编码的结果,(batch_size, 查询个数, 向量长度) -> (1, 60, 32)
    P = pos_encoding.P[:, :X.shape[1], :]


参考链接:

《动手学深度学习》 — 动手学深度学习 2.0.0 documentationhttps://zh-v2.d2l.ai/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/979367.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

杉岩数据陈坚受邀参加工联院DeepSeek研究与工业应用研讨会

为深入实施党的二十大和二十届二中、三中全会关于加快新型工业化的战略部署,共同探讨DeepSeek在工业领域的创新实践与行业应用路径,推动科技创新赋能新质生产力发展,2月25日,“DeepSeek研究与工业应用研讨会”在工业互联网大数据技…

Tinker热修复集成

官方链接 GitHub Tencent/tinker 文档 - Shiply 腾讯平台解决方案 开发集成环境 Android Studio Ladybug Feature Drop | 2024.2.2 Patch 1Gradle Version:7.4AGP Version 7.2.2Tinker:1.9.15.1compileSdk:33,targetSdk&#xf…

【SpringBoot】【log】 自定义logback日志配置

前言:默认情况下,SpringBoot内部使用logback作为系统日志实现的框架,将日志输出到控制台,不会写到日志文件。如果在application.properties或application.yml配置,这样只能配置简单的场景,保存路径、日志格…

Activiti 5 + Spring Boot全流程开发指南

目录 一、环境搭建(Spring Boot 2.x) 1.1 依赖配置 1.2 配置文件 二、流程定义与部署 2.1 创建BPMN文件(leave.bpmn) 2.2 流程部署服务 三、流程操作核心实现 3.1 启动流程实例 3.2 查询待办任务 四、审批流程处理 4.1 …

conda环境管理 kernel注册到jupyter notebook

本文核心目的:解决jupyter notebook找不到自己想要的指定conda环境 首先安装anaconda,在win搜索框打开anaconda prompt 按下ctrlc终止操作的时间很长。需要输入y来确认操作。 国内镜像源不能使用代理服务访问。要尝试代理服务的打开与关闭 下面是cond…

遗传算法详解及在matlab中的使用

遗传算法分析 一 遗传算法概述1 算法概念2 基本特点3 启发式算法 二 原理与方法1 实现步骤1.1 个体编码1.2 种群初始化1.3 适应度计算1.4 选择运算1.5 交叉运算1.6 变异运算 2 总结 三 应用实例1 GA工具使用教程2 设置目标函数3 搜索最小值4 搜索最大值 一 遗传算法概述 本章简…

哈希封装unordered_map/unordered_set

前言 看这篇博客之前请先看: C | 哈希表-CSDN博客 💓 个人主页:普通young man-CSDN博客 ⏩ 文章专栏:C_普通young man的博客-CSDN博客 ⏩ 本人giee: 普通小青年 (pu-tong-young-man) - Gitee.com 若有问题 评论区见&#x1f4dd…

绕过information_schema与order by注入以及seacsmv9注入

一:information_schema绕过 1,、sys数据库包含了许多视图,这些视图整合了来自information_schema和performance_schema的数据,攻击者可以利用这些视图来获取数据库结构信息。 -- 获取所有数据库名 SELECT DISTINCT table_schema FROM sys.schema_table_…

编程题 - 汽水瓶【JavaScript/Node.js解法】

‌“学如逆水行舟,不进则退。”‌ ——《增广贤文》 目录 汽水瓶 题目:解答分析:js代码解答 -ACM模式:代码通过:题解分析:简洁思路代码: 汽水瓶 题目: 某商店规定:三个空…

【Java SE】Java中String的内存原理

参考笔记: Java String 类深度解析:内存模型、常量池与核心机制_java stringx、-CSDN博客 解析java中String的内存原理_string s1 new string("ab");内存分析-CSDN博客 目录 1.String初识 2.字符串字面量 3.内存原理图 4. 示例验证 4.…

(0)阿里云大模型ACP-考试回忆

这两天通过了阿里云大模型ACP考试,由于之前在网上没有找到真题,导致第一次考试没有过,后面又重新学习了一遍文档才顺利通过考试,这两次考试内容感觉考试题目90%内容是覆盖的,后面准备分享一下每一章的考题,…

1.2.3 使用Spring Initializr方式构建Spring Boot项目

本实战概述介绍了如何使用Spring Initializr创建Spring Boot项目,并进行基本配置。首先,通过Spring Initializr生成项目骨架,然后创建控制器HelloController,定义处理GET请求的方法hello,返回HTML字符串。接着&#xf…

013作用域

一、基本概念 C语言中,标识符都有一定的可见范围,这些可见范围保证了标识符只能在一个有限的区域内使用,这个可见范围,被称为作用域(scope)。 软件开发中,尽量缩小标识符的作用域是一项基本原…

IP段转CIDR:原理Java实现

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

使用PDFMiner.six解析PDF数据

PDF(可移植文档格式)文件是由Adobe创建的一种灵活的文件格式,它允许文档在不同的软件、硬件和操作系统中一致地显示。每个PDF文件都包含对固定布局文档的全面描述,包括文本、字体、图形和其他必要的显示元素。pdf通常用于文档共享…

DeepSeek后训练:监督微调和强化学习

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】 文章目录 DeepSeek大模型技术系列十二DeepSeek大模型技术系列十二》DeepS…

蓝桥杯好题推荐----高精度乘法

🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” 题目链接 P1303 A*B Problem - 洛谷https://www.luogu.com.cn/problem/P1303 解题思路 这道题的思路,其实和前面差不多,我们主要说一下最为关键的部分&…

【实战 ES】实战 Elasticsearch:快速上手与深度实践-1.3.2Kibana可视化初探

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 10分钟快速部署Kibana可视化平台1. Kibana与Elasticsearch关系解析1.1 架构关系示意图1.2 核心功能矩阵 2. 系统环境预检2.1 硬件资源配置2.2 软件依赖清单 3. Docker快速部…

low rank decomposition如何用于矩阵的分解

1. 什么是矩阵分解和低秩分解 矩阵分解是将一个矩阵表示为若干结构更简单或具有特定性质的矩阵的组合或乘积的过程。低秩分解(Low Rank Decomposition)是其中一种方法,旨在将原矩阵近似为两个或多个秩较低的矩阵的乘积,从而降低复…

算法题(81):询问学号

审题: 需要我们根据给出的n值确定录入数据个数,然后根据给出的数据存储学号。再根据m值确定需要输出的学号个数,然后根据数组内容输出学号 思路: 我们可以利用数组进行数据顺序存储,以及随机读取完成本题 由于学号最大为1e9&#…