Transformer的前世今生 day02(神经网络语言模型、词向量)

神经网络语言模型

  • 使用神经网络的方法,去完成语言模型的两个问题,下图为两层感知机的神经网络语言模型:
    在这里插入图片描述
  • 假设词典V内有五个词:“判断”、“这个”、“词”、“的”、“词性”,且要输出P(w_next | “判断”、“这个”、“词”、“的”)的概率,即要解决哪一个词放在这句话后面的概率最大的问题。
  • 输入为:W1、W2、W3、W4(前四个单词的独热编码),分别乘随机矩阵,再将结果拼接起来得到C,如下:
    在这里插入图片描述
  • 再经过两层隐藏层,最后通过一个softmax函数,得到输出结果为词库中所有词,分别填在这个位置的概率。得出最大概率的就是最后一个词“词性”,如下:
    在这里插入图片描述

词向量

  • 用一个向量表示一个单词,独热编码也属于词向量,但是独热编码有两个缺点:尺寸大,不好计算相似度。
  • 但是词向量通过随机矩阵Q可以解决这两个缺点。
  • 获得词向量的过程如下:
    在这里插入图片描述
  • 假设c1的计算过程如下:
    在这里插入图片描述
  • 由于之前我们拿独热编码来表示单词,但是我们将独热编码乘Q(随机矩阵)得到的一个向量,也可以表示这个单词
  • 且由于我们的Q矩阵是一个参数,可以学习,即随着模型训练的越来越好,通过Q得到的向量也就越能准确的代表这个单词。
  • 同时我们可以通过矩阵Q来控制输出向量的大小
  • 如上图,c1就是“判断”这个词的词向量
  • 同时,由于两个词的独热编码之间不好计算相似度(有很多0),如采用余弦相似度,结果也为0。但是我们转换成词向量后,结果不再是0,那么就可以一定程度上描述两个词之间的相似度,例如下图:
    在这里插入图片描述

以下为预备知识

单层感知机

  • 单层感知机是一个线性模型,可以用下图来表示:输入经过全连接层(可以有一层或多层,但是多层线性函数最后可以看作是一层线性函数)得到输出,即Y=Wx+b
    在这里插入图片描述
  • 线性层 / 全连接层 / 稠密层:最好叫他为全连接层,因为有时层内会包含非线性函数
  • 假设输入有n个,输出有m个,则w、b、y的个数如下:
    在这里插入图片描述

多层感知机

  • 多层感知机使用了隐藏层和激活函数,是非线性模型
    • 隐藏层是对于输出层来说的,只有最后一层全连接层对于输出层是可见的,且最后一层的全连接层一般不带激活函数,所以其他全连接层叫隐藏层
    • 激活函数是放在隐藏层中,用来拟合非线性的,常用的激活函数是Sigmoid,Tanh,ReLU,下图为有一层隐藏层的多层感知机:
      请添加图片描述

独热编码

  • 目的是让计算机认识单词
  • 用矩阵的形式,存储所有单词。且在矩阵中,每一个元素都代表一个单词,这就要求矩阵的行列等于单词数,如下图:
    在这里插入图片描述
  • 独热编码有两个缺点:
    • 矩阵的尺寸很容易过大,因为他需要行列等于单词数
    • 相似单词之间的独热编码没有任何关联,通常使用余弦相似度来计算文本之间的相似度,但是现实世界中相似单词之间是有关联的

参考文献

  1. 05 神经网络语言模型(独热编码+词向量的起源)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/477683.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux东方通下载及使用

把压缩包拖进去 解压文件 mkdir /usr/local/java

新品发布 | Ftrans FIE文件安全导入导出系统

关于飞驰云联 飞驰云联是中国领先的数据安全传输解决方案提供商,长期专注于安全可控、性能卓越的数据传输技术和解决方案,公司产品和方案覆盖了跨网跨区域的数据安全交换、供应链数据安全传输、数据传输过程的防泄漏、FTP的增强和国产化替代、文件传输自…

加速您的 AI 开发:NVIDIA AI Workbench 正式发布

加速您的 AI 开发:NVIDIA AI Workbench 正式发布 NVIDIA AI Workbench 是一款面向 AI 和 ML 开发人员的工具包,现已普遍提供免费下载。 它具有自动化功能,可以消除新手开发人员的障碍并提高专家的工作效率。 无论技能水平如何,开…

使用倒模耳机壳UV树脂胶液制作舞台监听耳返入耳式耳机壳有哪些优点?

使用倒模耳机壳UV树脂胶液制作舞台监听耳返入耳式耳机壳有很多优点,具体如下: 高音质表现:通过倒模工艺制作的耳机壳能够更好地贴合耳朵,减少声音散射和反射,提高声音的清晰度和质感。这对于舞台监听来说非常重要&…

【漏洞复现】福建科立迅通信指挥调度平台down_file.php sql注入漏洞

漏洞描述 福建科立迅通信调度平台 20240318 以及之前版本存在一个严重漏洞,影响了文件 api/client/down_file.php 的一个未知功能。攻击者可以通过操纵参数 uuid 发起 SQL 注入攻击。攻击者可以远程发起攻击。 免责声明 技术文章仅供参考,任何个人和组织使用网络应当遵守…

OpenGL学习笔记【3】—— GLAD配置

一、为什么用GLAD 由于OpenGL驱动版本众多,它大多数函数的位置都无法在编译时确定下来,需要在运行时查询。所以任务就落在了开发者身上,开发者需要在运行时获取函数地址并将其保存在一个函数指针中供以后使用。取得地址的方法因平台而异&…

Redis 大 Key 对持久化有什么影响?

资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) Redis 的持久化方式有两种:AOF 日志和 RDB 快照。 所以接下来,针对这两种持久化方式具体分析分析 大 Key 对 AOF 日志的影响 先说说 AOF 日志三种写回磁盘的策略 Redis 提供了 3…

如何让 string 型的字符串变成 int 型的整数

之前我们讲过了如何裁剪字符串和如何反转字符串&#xff0c;具体情况可以看看我前几期发的博客&#xff0c;今天我们就来讲讲怎么将 string 型的字符串变成 int 型的整数。 我们可以使用在 <bits/stdc.h> 中的 atoi 函数来处理这种形式转变&#xff0c;如下&#xff1a;…

如何使用Android平板公网访问本地Linux code-server

文章目录 1.ubuntu本地安装code-server2. 安装cpolar内网穿透3. 创建隧道映射本地端口4. 安卓平板测试访问5.固定域名公网地址6.结语 1.ubuntu本地安装code-server 准备一台虚拟机,Ubuntu或者centos都可以&#xff0c;这里以VMwhere ubuntu系统为例 下载code server服务,浏览器…

设计模式之单例模式解析

单例模式 1&#xff09;动机 对于软件系统的某些类&#xff0c;无须创建多个实例&#xff0c;如 Windows 系统的任务管理器&#xff0c;重复对象会浪费系统资源。 2&#xff09;概述 1.定义 确保某个类只有一个实例&#xff0c;而且自行实例化&#xff0c;并向整个系统提供…

vue中循环数据,添加展开、收起操作

1.在data中定义变量 expandedIndex&#xff0c;默认展开第一条 expandedIndex:0,2.标题栏展开、收起显示判断&#xff0c;并填加点击事件 toggleVisibility <h5 class"titleLine">{{item.checkPart}} <span click"toggleVisibility(index)">…

【GPT概念04】仅解码器(only decode)模型的解码策略

一、说明 在我之前的博客中&#xff0c;我们研究了关于生成式预训练转换器的整个概述&#xff0c;以及一篇关于生成式预训练转换器&#xff08;GPT&#xff09;的博客——预训练、微调和不同的用例应用。现在让我们看看所有仅解码器模型的解码策略是什么。 二、解码策略 在之前…

【LVGL-按钮按钮矩阵部件】

LVGL-按钮&按钮矩阵部件 ■ LVGL-按钮部件■ 按钮部件&#xff1a; 点击三个按钮一个回调函数修改label值。 ■ LVGL-按钮矩阵部件■ 示例一&#xff1a;按钮换行&#xff0c;和宽度设置。■ 示例二&#xff1a;设置按钮宽度为2倍■ 示例三&#xff1a;获取点击的按钮下标&…

【以图搜图】GPUNPU适配万物识别模型和Milvus向量数据库

目录 以图搜图介绍项目地址Milvuscv_resnest101_general_recognition 代码使用流程结果展示模型部署环境Milvus部署及使用docker安装docker-compose安装Milvus可视化工具Attu进入网页端 Data数据示例点个赞再走呗&#xff01;比心&#x1f49e;️ 以图搜图 • &#x1f916; Mo…

【java】10.面向对象

一、类和对象 1.1 类和对象的理解 客观存在的事物皆为对象 &#xff0c;所以我们也常常说万物皆对象。 * 类 * 类的理解 * 类是对现实生活中一类具有共同属性和行为的事物的抽象 * 类是对象的数据类型&#xff0c;类是具有相同属性和行为的一组对象的集合 * 简单理解&am…

C#、.NET版本、Visual Studio版本对应关系及Visual Studio老版本离线包下载地址

0、写这篇文章的目的 由于电脑的环境不同&#xff0c;对于一个老电脑找到一个适配的vscode环境十分不易。总结一下C#、.NET、Visual Studio版本的对应关系&#xff0c;及各个版本Visual Studio的下载地址供大家参考 1、C#、.NET版本、Visual Studio版本对应关系如下 2、Visua…

使用paddleocr

paddle快速开始 具体安装流程 安装shapely库报错怎么办&#xff1f; 选定下载paddleocr2.2时报错 原因是因为python版本不支持&#xff1a; 之后重新创建新的环境&#xff0c;安装python3.8再来一遍 【重新选取对应whl文件&#xff0c;确认文件名是否可用】 之后是可以了…

ARM Coresight 系列文章 11.1 -- CoreSight Cortex-M33 CTI 详细介绍】

请阅读【ARM Coresight SoC-400/SoC-600 专栏导读】 文章目录 CTI 的工作原理CTI 主要特点CTI的使用场景CTI 的工作原理 CTI 允许不同的调试和追踪组件之间基于特定事件进行交互。例如,当一个断点被命中时,CTI 可以用来触发内存的追踪捕捉或者外部仪器的行为,反之亦然。这种…

C#多态性

文章目录 C#多态性静态多态性函数重载函数重载 动态多态性运行结果 C#多态性 静态多态性 在编译时&#xff0c;函数和对象的连接机制被称为早期绑定&#xff0c;也被称为静态绑定。C# 提供了两种技术来实现静态多态性。分别为&#xff1a; 函数重载 运算符重载 运算符重载将…

iPhone语音备忘录误删?掌握这几个技巧轻松恢复【详】

语音备忘录是一款强大的应用程序&#xff0c;它允许用户使用语音输入功能来快速记录想法、提醒、待办事项等。无论是在行进间、工作中还是日常生活中&#xff0c;语音备忘录都是一个非常实用的工具&#xff0c;可以帮助您随时随地记录重要信息&#xff0c;而无需打字或者手动输…