NLP Word Embeddings

NLP Word Embeddings

article2025/2/19 17:19:35/文章来源:https://blog.csdn.net/djl806943371/article/details/145553097

Word representation

One-hot形式

在上一周介绍RNN类模型时，使用了One-hot向量来表示单词的方式。它的缺点是将每个单词视为独立的，算法很难学习到单词之间的关系。

比如下面的例子，即使语言模型已经知道orange juice是常用组合词，但是却不容易泛化到知道apple juice。这主要是因为单词之间的内积是0向量。

因此我们可以用非One-hot的多维向量描述一个单词，单词之间的距离可以描述单词之间的相似度，这样可以让算法更快的学习到单词之间的联系。

多维向量形式

使用多维向量，向量每一维是一个浮点数，这样可以使用更少维度的dense向量表征单词。

1. 可以使用迁移学习的思想，预训练大量数据获取每个单词的embdding，或者直接从网络找到其他人训练好的模型获取Embedding。

2. 获取到Embdding之后可以再应用到你的任务当中，比如名字识别等模型，这是你的训练集可能是比较小的。

3. 如果你的训练集很大，也可以尝试fine-tune第一步中的预训练模型

单词之间的相似度

使用多维向量表征单词时，可以使用cos距离或者L2距离等来表征单词之间的相似度

Learning Word Embddings

在NLP最开始的时候，研究人员尝试用很复杂的模型来获取Word Embdding，但是后来大家发现可以用越来越简单的模型来获取并且效果很好，尤其是在大数据集下。该小节从复杂模型讲起，然后逐步简化。

早期模型

每次取数据集中句子中待预测词前面的4(超参)个单词，输入到模型中，模型输出层是softmax输出每个单词的可能性。

Word2Vec 之 skip-grams

原始论文中作者提供了Word2Vec的两个版本：skip-grams、CBow。

CBow是利用中间词周围的上下文预测中间词，有优点有缺点，不展开讲，这里只介绍skip-grams。

定义

首先介绍什么是skip-grams，skip-grams需要提供一个context单词和一个target单词，先选定context单词，然后在其前后k(超参)个相邻单词的窗口内，随机选取一个target单词组成一个pair

模型结构

输出层为词库大小个softmax分类单元

缺点

这个算法存在一些问题：

1. softmax在词库很大时计算成本很高，可以使用多层softmax降低计算量(后面的课程中有更优的解决方案，这里没展开)，建立多层softmax树时，可以使用启发式算法优化(不展开)，把常用词放在浅层，低频词放在深层，减少检索成本。

2. 如何选取context单词，如果正态分布选取会导致抽取的都是高频词，低频词很难被取出来，也需要用启发式算法抽样(不展开)。

Negative Sampling

定义

负采样是对原始skip-grams的优化，可以有效降低多类分类问题的计算量。

负采样是选取一个context单词，然后从其前后一定窗口内选取一个临近的target单词作为正样本，其标签是1；然后用同样的context单词，从词库随机选取k(超参)次target单词分别组成负样本，其标签是0。

小概率会抽到实际也是context单词附近的单词，因为是随机误差所以影响不大。

模型结构

跟skip-grams相比，模型的输出层将词库大小个softmax单元，替换为了词库大小个逻辑回归单元，并且在每次迭代中只需要更新跟正负样本相关的k+1个输入层的逻辑回归单元参数，大幅降低计算量。

如何进行负样本选取

既不是随机采样，也不是按照词频采样，作者用了一个经验公式(无法证明是最好的，但是现在都用的这个公式)：

$P(w_i)=\frac{f(w_i)^{\frac{3}{4}}}{\sum_{j=1}^{10000}f(w_j)^{\frac{3}{4}}}$

GloVe

全称：Global Vectors for word representation。使用不如Word2Vec广泛。

定义

首先统计词库中每两个单词在训练集中一起出现的次数，然后输入context单词模型预测其跟target词出现次数并最小化两者之间的差值。

模型结构

在实际模型中，增加了一个权重系数经验公式 $f(x_{ij})$ 用于对低频词提权，高频词降权。

$\theta$ 和 $e$ 分别是单词的context向量和target向量，分别为单词作为context单词时使用和作为target单词时使用，训练完成后可以使用 $\theta_w$ 或 $\frac{\theta_w+e_w}{2}$ 作为最终的词向量。

偏置项存在的意义ChatGPT的解释如下

词向量的应用

Sentiment Classification

通过分析文本的情感表达来确定其情感倾向。在NLP中经常使用。

在有词向量的情况下，你可以使用中等大小的标注训练集来进行情感分类，而不需要大量标注数据集。

如下图可以将评价中的所有词向量相加或取平均作为输入预测分数，但是这样存在一个问题，无法理解上下文，比如左下角例子，good出现更多可能预测分较高，但实际是差评

进一步使用RNN模型逐次输入每个单词词向量，输出打分。

消除词向量偏见

以性别偏见为例，计算he/she、male/female这些词向量的差并计算平均值，找到性别差异向量；然后对于不应该跟性别关联的词如医生、婴儿看护在这个方向上移动到0坐标；然后对性别差异的反义词组在这个方向上移动为对称的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/969278.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

python实现YouTube关键词爬虫（2025/02/11）

python实现YouTube关键词爬虫（2025/02/11）

在当今数字化时代，YouTube作为全球最大的视频分享平台之一，拥有海量的视频资源。无论是进行市场调研、内容创作还是学术研究，能够高效地获取YouTube上的相关视频信息都显得尤为重要。今天，我将为大家介绍一个基于Python实现的YouT…

阅读更多...

Jenkins 配置 Git Parameter 四

Jenkins 配置 Git Parameter 四

Jenkins 配置 Git Parameter 四一、开启项目参数设置勾选 This project is parameterised 二、添加 Git Parameter 如果此处不显示 Git Parameter 说明 Jenkins 还没有安装 Git Parameter plugin 插件，请先安装插件 Jenkins 安装插件三、设置基本参数点击…

阅读更多...

自然语言处理NLP入门 -- 第三节词袋模型与 TF-IDF

自然语言处理NLP入门 -- 第三节词袋模型与 TF-IDF

目标了解词袋模型（BoW）和 TF-IDF 的概念通过实际示例展示 BoW 和 TF-IDF 如何将文本转换为数值表示详细讲解 Scikit-learn 的实现方法通过代码示例加深理解归纳学习难点，并提供课后练习和讲解 3.1 词袋模型（Bag of Words, BoW&a…

阅读更多...

C++模板编程——typelist的实现

C++模板编程——typelist的实现

文章最后给出了汇总的代码，可直接运行 1. typelist是什么 typelist是一种用来操作类型的容器。和我们所熟知的vector、list、deque类似，只不过typelist存储的不是变量，而是类型。 typelist简单来说就是一个类型容器，能够提供一…

阅读更多...

fastadmin 接口请求提示跨域

fastadmin 接口请求提示跨域

问题描述小程序项目，内嵌h5页面，在h5页面调用后端php接口，提示跨域。网上查找解决方案如下： 1，设置header // 在入口文件index.php直接写入直接写入 header("Access-Control-Allow-Origin:*"); header(&q…

阅读更多...

只需三步！5分钟本地部署deep seek——MAC环境

只需三步！5分钟本地部署deep seek——MAC环境

MAC本地部署deep seek 第一步:下载Ollama第二步:下载deepseek-r1模型第三步：安装谷歌浏览器插件第一步:下载Ollama 打开此网址：https://ollama.com/，点击下载即可，如果网络比较慢可使用文末百度网盘链接注：Ollama是…

阅读更多...

$idea 错误: 找不到或无法加载主类 @C:\Users\admin\AppData\Local\Temp\idea_arg_file1549212448$

idea 错误: 找不到或无法加载主类 @C:\Users\admin\AppData\Local\Temp\idea_arg_file1549212448

idea 错误: 找不到或无法加载主类 C:\Users\admin\AppData\Local\Temp\idea_arg_file1549212448 该错误往往和左下角爱弹出的如下提示是一个意思 Error running ‘PayV3Test1.testTransferBatchesBatchId’ Error running PayV3Test1.testTransferBatchesBatchId. Command lin…

阅读更多...

Excel 笔记

Excel 笔记

实际问题记录 VBA脚本实现特殊的行转列已知：位于同一Excel工作簿文件中的两个工作表：Sheet1、Sheet2。问题：现要将Sheet2中的每一行，按Sheet1中的样子进行转置： Sheet2中每一行的黄色单元格，为列头。…

阅读更多...

【故障处理】- ora-39126

【故障处理】- ora-39126

【故障处理】- ora-39126 一、概述二、报错原因三、解决方法一、概述使用xtts迁移源端12.1.0.2版本，进行全库导入时（目标端19c），报错ORA-39126. 二、报错原因根据mos反馈，是数据库bug导致，该bug会在20.…

阅读更多...

C#运动控制——轴IO映射

C#运动控制——轴IO映射

1、IO映射的作用该功能允许用户对专用 IO 信号的硬件输入接口进行任意配置，比如轴的急停信号，通过映射以后，可以将所有轴的急停信号映射到某一个IO输入口上，这样，我们只要让一个IO信号有效就可以触发所有轴的急停。进…

阅读更多...

MongoDB 扩缩容实战：涵盖节点配置、服务启动与移除操作

MongoDB 扩缩容实战：涵盖节点配置、服务启动与移除操作

#作者：任少近文章目录一、扩容在245节点上配置配置config server：配置mongos启动config server安装工具mongosh添加245新节点到副本集配置分片副本集启动路由并分片二、缩容Conf server上去掉server4shard上去掉server4mongos上去掉server4 一、扩容…

阅读更多...

【NLP】第十一章：隐马尔可夫模型 HMM (Hidden Markov Model)

【NLP】第十一章：隐马尔可夫模型 HMM (Hidden Markov Model)

本来是想讲BERT的，但是BERT的重点是部署应用，而且用BERT跑一些NLP领域的很多任务时，一般做法都是BERT后面再串一个概率模型来约束输出，比如串联一个条件随机场CRF模型。而我们还没讲CRF呢，而且要了解CRF需要首先了解隐…

阅读更多...

APP端网络测试与弱网模拟！

APP端网络测试与弱网模拟！

当前APP网络环境比较复杂，网络制式有2G、3G、4G网络，还有越来越多的公共Wi-Fi。不同的网络环境和网络制式的差异，都会对用户使用app造成一定影响。另外，当前app使用场景多变，如进地铁、上公交、进电梯等，使…

阅读更多...

使用k3s高可用部署rancher

使用k3s高可用部署rancher

本次部署采用3节点的etcd服务2master节点的k3s使用helm部署的ranchervip(keepalived) 一、安装etcd服务 # 准备 3 个节点部署 etcd cd /hskj/tmp wget https://github.com/etcd-io/etcd/releases/download/v3.3.15/etcd-v3.3.15-linux-amd64.tar.gz tar xzvf etcd-v3.3.15-…

阅读更多...

Nginx进阶篇 - nginx多进程架构详解

Nginx进阶篇 - nginx多进程架构详解

文章目录 1. nginx的应用特点2. nginx多进程架构2.1 nginx多进程模型2.2 master进程的作用2.3 进程控制2.4 worker进程的作用2.5 worker进程处理请求的过程2.6 nginx处理网络事件 1. nginx的应用特点 Nginx是互联网企业使用最为广泛的轻量级高性能Web服务器，其特点是…

阅读更多...

uniapp开发h5部署到服务器

uniapp开发h5部署到服务器

1.发行>网站-PC Web或手机H5（仅适用于uniapp） 2.填写网站域名 3.编译成功后会生成一个unpackage文件夹找到下面的h5 4.接下来会使用一个工具把h5里面的文件放到服务器上面（WinSCP使用其他能部署的工具也行） 5.登录 6.登录成功后…

阅读更多...

【C/C++算法】从浅到深学习---滑动窗口（图文兼备 + 源码详解）

【C/C++算法】从浅到深学习---滑动窗口（图文兼备 + 源码详解）

绪论：冲击蓝桥杯一起加油！！ 每日激励：“不设限和自我肯定的心态：I can do all things。 — Stephen Curry” 绪论： 本章是算法训练的第二章----滑动窗口，它的本质是双指针算法的衍生所以我将…

阅读更多...

AWTK-WEB 快速入门(4) - JS Http 应用程序

AWTK-WEB 快速入门(4) - JS Http 应用程序

XMLHttpRequest 改变了 Web 应用程序与服务器交换数据的方式，fetch 是 XMLHttpRequest 继任者，具有更简洁的语法和更好的 Promise 集成。本文介绍一下如何使用 JS 语言开发 AWTK-WEB 应用程序，并用 fetch 访问远程数据。用 AWTK Designer 新…

阅读更多...

html 点击弹出视频弹窗

html 点击弹出视频弹窗

一、效果：点击视频按钮后，弹出弹窗播放视频二、代码 <div class="index_change_video" data-video-src="</

阅读更多...

FPGA实现UltraScale GTH光口视频转USB3.0传输，基于FT601+Aurora 8b/10b编解码架构，提供2套工程源码和技术支持

FPGA实现UltraScale GTH光口视频转USB3.0传输，基于FT601+Aurora 8b/10b编解码架构，提供2套工程源码和技术支持

目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目我这里已有的 GT 高速接口解决方案本博已有的FPGA驱动USB通信方案 3、工程详细设计方案工程设计原理框图输入Sensor之-->OV5640摄像头动态彩条输入视频之-->ADV…

阅读更多...

最新文章