【机器学习300问】127、怎么使用词嵌入?

        在探讨如何使用词嵌入之前,我们首先需要理解词嵌入模型的基础。之前的文章已提及,词嵌入技术旨在将文本转换为固定长度的向量,从而使计算机能够解析和理解文本内容。可以跳转下面链接去补充阅读哦!

【机器学习300问】126、词嵌入(Word Embedding)是什么意思?icon-default.png?t=N7T8https://blog.csdn.net/qq_39780701/article/details/139803883        那么,词嵌入模型又是什么呢?简而言之,词嵌入模型是一套特定的方法(通常是深度学习算法),它通过这些方法生成一个词嵌入矩阵。这个矩阵究竟是什么呢?它实际上是由一系列词嵌入向量组合而成的,每个向量代表一个词汇,从而构成了一个独特的词汇表示矩阵。更多的细节在下文中逐一展开。

一、词嵌入矩阵

一上来直接看词嵌入矩阵长什么样:

嵌入矩阵

        词嵌入矩阵长什么样子其实很清楚,没什么神秘的,但知道它张什么样并不是最关键的。关键点在于它的本质是什么?它怎么来的?以及它有什么用?想要回答出这些问题就得先从最一开始的问题:如何才能让计算机读懂人类的文字?实际上众多NLP概念都上从这个问题出发的,始终带着这个最初问题去学习,能让你有清晰的感受,解答众多“为什么这样做?”的疑惑。

(1)词嵌入矩阵的本质

        词嵌入矩阵,本质是一个词汇表,就是把词向量堆叠了起来,它的行数对应词汇表中词的数量,列数则是词嵌入的维度,即每个词向量的长度。矩阵中的每个元素代表了词汇表中某个词的一个特定维度上的值。

        例如上图中,词汇表有5000个不同的词,且词嵌入维度设为128,那么词嵌入矩阵就是一个5000行 x 128列的矩阵。计算机要想读懂某个词,通过查找词汇表中每个词的索引,就可以直接从矩阵中获取其对应的词嵌入向量。

(2)词嵌入矩阵怎么构建的?

        上面说到了词嵌入矩阵本质是一个特殊的词汇表(能让计算机真正读懂文字的词汇表),词嵌入矩阵通常是词嵌入机器学习算法在训练过程中动态学习得到。这一部分比较庞大,而且很重要,所以我单独写一篇文章来说,这里先简单提一下。矩阵可以通过无监督学习方法(如Word2Vec、GloVe)预先训练好,然后固定或微调使用。

        生成词嵌入矩阵的算法模型,被叫做“词嵌入模型或词嵌入算法”如:Word2Vec

(3)词嵌入矩阵有什么用?

        词嵌入矩阵E一旦构建完成后,通过与分词后的One-Hot编码矩阵进行运算,即可得到每一个词的词向量。

词嵌入矩阵的使用方式

用数学公式表达:

O_j \cdot E = e_j 

        其中,O_j是指某个词的one-hot编码, E是词嵌入矩阵,e_j是指这个词对应的词向量。

        这里讲的“有什么用?”不是指嵌入矩阵能用在什么地方,而是特指:词嵌入矩阵能够和one-hot编码向量相乘得到该词的词向量。

求出的结果是每个词的词向量

二、 怎么使用词嵌入?

        使用词嵌入技术通常有固定的基本步骤,下面就逐一介绍:

(1)基本步骤说明

① 选择或构建词嵌入模型

  • 选择现有模型:如Word2Vec、GloVe、FastText等,这些是预训练好的词嵌入模型,可以直接下载使用。
  • 自定义训练:如果你的领域有特定的语言习惯或术语,可能需要基于自己的语料库训练词嵌入模型。

② 准备语料库

  • 清洗和预处理文本数据,去除噪声,如标点符号、数字、停用词等。
  • 可能需要分词,尤其是对于非英语语言,如中文需要进行分词处理。

③ 构建词汇表并编码

  • 将语料库中所有出现过的单词或短语对应一个唯一的索引。
  • 利用这个索引,将词汇编码成一个One-Hot词汇表。

④ 转换文本为向量表示(词嵌入)

  • 将One-Hot编码通过与嵌入矩阵相乘得到想要词汇的词向量。
  • 然后你还可以采用平均法、加权平均法或者使用RNN/LSTM等模型结合上下文信息来聚合单个词向量为整个句子或文档的向量表示。

(2)举例说明

        用一个简化的过程来说明,如何使用词嵌入技术处理句子“我喜欢学习数学”,并假设有一个词汇表大小为5000,每个词的嵌入维度为128的词嵌入矩阵。

① 步骤1:选择一个现有的模型

② 步骤2:准备语料库

        使用只有一句话的语料库,简单说明一下。s=“我喜欢学习数学”

③ 步骤3:文本预处理

  • 分词:将句子“我喜欢学数学”分词为["我", "喜欢", "学习", "数学"]
  • 构建词汇表索引:假设这四个词都在我们的5000词词汇表内,且分别对应索引1、2、3、5000。
  • 进行One-Hot编码:将词语使用One-Hot进行编码,产生一个词汇矩阵V

③ 步骤3:文本转为向量(词嵌入)

假设我们已有一个(5000, 128)的词嵌入矩阵E,其中每一行代表一个词的128维向量。

通过运算得出想要的词向量:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730720.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【链表经典面试题】LeetCode138.复制带随机指针的链表(链表深拷贝)

📇文章目录 🚀题目描述🚀思路1:🚀思路2:🚀完整代码 🚀题目描述 解读: 题目意思就是 给你一个链表 这个链表中除了有next指针之外 还有一个指向这个链表的随机位置的一个指…

简易人工智能入门

一、监督or非监督 监督学习(Supervised Learning):训练集有标记信息(Y),学习方式有分类和回归 无监督学习(Unsupervised Learning):训练集没有标记信息,学习…

事件驱动架构详解:触发与响应构建高效系统

目录 前言1. 事件驱动架构概述1.1 什么是事件1.2 事件驱动架构的核心概念 2. 事件驱动架构的实现2.1 基于消息队列的实现2.2 基于发布-订阅模式的实现2.3 基于流处理的实现 3. 事件驱动架构的优势3.1 松耦合性3.2 可扩展性3.3 异步处理3.4 灵活性 4. 事件驱动架构的应用场景4.1…

管道液位传感器在扫地机器人的应用

管道液位传感器在扫地机器人中的应用正日益受到重视。随着人们生活压力的增加,扫地机器人成为了解决家务烦恼的得力助手,而其中一个重要功能就是缺水提醒。实现这一功能的关键便是管道液位传感器。 管道液位传感器能够及时监测水箱中水的水位&#xff0…

工商业光伏项目怎么做?

随着全球对可再生能源的关注度不断提高,工商业光伏项目已成为企业实现绿色转型、降低能耗成本的重要途径。本文将详细介绍工商业光伏项目的开发流程,以及项目实施过程中需要注意的关键点。 一、项目前期准备 在启动工商业光伏项目之前,首先要…

buuctf----firmware

- -一定不能再ubutu22进行,我是在18(血泪教训) binwalk安装 buuctf firmware(binwalk和firmware-mod-kit的使用)_buu firmware-CSDN博客 参考博客 指令 sudo apt-get update sudo apt-get install python3-dev python3-setuptools python3-pip zlib1g-dev libmagic-dev pi…

oracle中执行select ... for update需要什么权限?

oracle中执行select … for update需要什么权限? 问题 在oracle中,一个用户执行select … for update需要什么权限? 分析测试 用户1: test_0614 用户2:test 目标表:test.t_0614 执行语句:se…

MySQL—索引—基础语法

目录 一、创建、查看以及删除索引的语法 (1)创建索引 1、1会用到一个关键字:CREATE。 1、2增加索引还可以用到另外一个关键字——ALTER TABLE 表名 ADD INDEX ... 。 2、解释。 (2)查看索引 1、查看索引需要用到…

Vue3模拟国足18强赛抽签

Vue3国足18强赛抽签 国足遇到这个对阵&#xff0c;能顺利出现吗&#xff1f; 1、系统演示 Vue3模拟国足18强赛抽签 2、关键代码 开始抽签 <script setup> import FenDang from "/components/chouqian/FenDang.vue"; import {ref} from "vue";le…

我又挖到宝了!小米、352、希喂宠物空气净化器除毛能力PK

养宠家庭常常因为猫咪们掉毛的问题烦恼。无论是短毛猫还是长毛猫&#xff0c;它们的毛发总是无处不在&#xff0c;从沙发到地毯&#xff0c;从床铺到衣物&#xff0c;甚至飘散在空气中。其中最难清理的就是飘浮在空气中的浮毛&#xff0c;最让人担心的是&#xff0c;空气中的浮…

TikTok 推出专属AI 内容工具

TikTok最近推出了一款极具实用性的新工具包——TikTok Symphony。它融合了生成式人工智能技术&#xff0c;让内容创作变得更加迅速和便捷。 无论是营销人员还是创作者&#xff0c;都能在TikTok上轻松制作出高质量的内容。Symphony将人类的创造力与AI的高效性完美融合&#xff0…

ARM32开发--存储器介绍

知不足而奋进 望远山而前行 目录 文章目录 前言 存储器分类 RAM ROM EEPROM Flash 总结 前言 在现代计算机系统中&#xff0c;存储器扮演着至关重要的角色&#xff0c;不仅影响着数据的存取速度和稳定性&#xff0c;还直接关系到计算机系统的性能和应用场景的选择。存…

【vue3】for循环多选框勾选必填校验

业务场景&#xff1a; 多选项必选一个&#xff0c;选了的输入框必填 <el-row :gutter"20"><el-col :span"12"><el-form-item label"捆绑终端硬件标识" prop"terminalCodeList"><el-checkbox-groupv-model"…

人工智能--搭建人工神经网络

欢迎来到 Papicatch的博客 文章目录 &#x1f349;引言 &#x1f349;神经元与感知器 &#x1f348;神经元&#xff08;Neuron&#xff09; &#x1f348;感知器 &#x1f349;损失函数与梯度下降算法 &#x1f348;损失函数 &#x1f348;梯度下降算法 &#x1f349;…

1. 基础设计流程(以时钟分频器的设计为例)

1. 准备工作 1. 写有vcs编译命令的run_vcs.csh的shell脚本 2. 装有timescale&#xff0c;设计文件以及仿真文件的flish.f&#xff08;filelist文件&#xff0c;用于VCS直接读取&#xff09; vcs -R -full64 -fsdb -f flist.f -l test.log 2. 写代码&#xff08;重点了解代码…

【Kafka】Kafka Broker工作流程、节点服役与退役、副本、文件存储、高效读写数据-08

【Kafka】Kafka Broker工作流程、节点服役与退役、副本、文件存储、高效读写数据 1. Kafka Broker 工作流程1.1 Zookeeper 存储的 Kafka 信息1.2 Kafka Broker总体工作流程1.2.1 Controller介绍 1.3 Broker 重要参数 2. 节点服役与退役3. Kafka副本 1. Kafka Broker 工作流程 …

找不到d3dx9_43.dll无法继续执行代码的几种解决方法

在工作或生活使用电脑都会遇到丢失dll文件应用无法启动的情况&#xff0c;比如你安装完一款你最喜欢的游戏在启动的时候提示系统缺少d3dx9_39.dll、d3dx9_40.dll、d3dx9_41.dll、d3dx9_42.dll、d3dx9_43.dll、xinput1_3.dll 文件而无法正常游戏&#xff0c;或你在工作的时候安装…

每日练题(py,c,cpp).6_19,6_20

检验素数 from math import sqrt a int(input("请输入一个数&#xff1a;")) for i in range(2,int(sqrt(a))):if a%i 0:print("该数不是素数")breakelse: print("该数是素数")# # 1既不是素数也不是合数 # #可以用flag做标志位 # b int(…

思聪私生女能继位吗?王健林表态,家族不会亏待

黄一鸣坚称&#xff1a;这绝对是王思聪的骨肉&#xff01;常言道&#xff0c;常在河边走&#xff0c;哪能不湿鞋。换女友如换装的王思聪&#xff0c;这次终于跌入了陷阱&#xff01;他的网红女友们如繁星点点&#xff0c;但选择标准始终如一——年轻、美丽。在金钱上&#xff0…

CARIS HIPS and SIPSv12 是专业的多波束水深数据和声呐图像处理软件

CARIS HIPS and SIPS是专业的多波束水深数据和声呐图像处理软件。CARIS HIPS and SIPS适用于海洋应用需求。其可靠性和可用性对多波束水深数据处理和声呐图像都是很重要的。CARIS HIPS用于处理多波束水深数据&#xff0c;CARIS SIPS用于处理侧扫声呐图像和多波束背向散射回波数…