第四章(1):词向量定义与意义

第四章(1):词向量定义与意义

p9CeG80.png

目录

  • 第四章(1):词向量定义与意义
  • 前言
  • 1. 词的表示
    • 1.1 离散表示
      • 1.1.1 One-Hot独热编码
      • 1.1.2 ngram特征表示
    • 1.2 分布式表示
  • 2. 意义


前言

在自然语言处理的领域中,每个单词都可以被表示为一个向量,这些向量叫做“词向量”。换句话说,每个单词都可以被用数字表示,而这些数字可以被用于机器学习模型的训练之中。这样就可以大幅缩小所需要的存储空间,同时也可以提高机器学习模型的速度和表现。

p9idmsU.png

1. 词的表示

在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hot representation和distribution representation。

1.1 离散表示

离散表示的实现方法主要有两种,分别是One-Hot独热编码和ngram特征表示。

1.1.1 One-Hot独热编码

One-Hot独热编码是一种最简单的离散表示方法,也是最为常见的一种方法。它采用词表中每个词的索引作为二进制编码的位置,只有该位置上取值为1,其他位置的取值都为0。对于包含n个不同词语的词表,每个词语的离散表示的向量维数就是n。

例如,对于如下的词表:

苹果,橘子,芒果,葡萄

我们可以将其转化为如下的离散表示向量:

苹果:[1,0,0,0]
橘子:[0,1,0,0]
芒果:[0,0,1,0]
葡萄:[0,0,0,1]

通过One-Hot独热编码,我们可以得到每个词语的固定长度的离散向量,同时也可以最大限度的避免同一个词语出现多次的问题。但是这种方法也存在着一些问题,比如向量维度较高,导致存储空间的占用较大,同时也无法解决语义相似的词语之间的距离问题。

如下是一个动漫表示,生动形象~

p9iYPOJ.png

1.1.2 ngram特征表示

ngram特征表示是一种基于n元语法的离散表示方法,它主要是基于一个句子中不同的词语之间的关系来进行的。具体来说,它是将一个句子中所有的不同词语按顺序排列,然后选取不同长度的组合作为不同的特征。

假设我们有一个包含以下四个句子的文本:

  1. 我们明天一起去看电影吧。
  2. 今天的天气真好,适合出去玩。
  3. 这家餐厅的菜很好吃,服务也很棒。
  4. 最近公司的业绩不太理想,需要加强市场营销。

我们可以使用基于词语的ngram特征表示方法,将每个句子表示成一个向量。假设我们使用二元词语级别的ngram特征表示,那么对于上述四个句子,可以得到如下的特征向量:

我们 明天明天 一起一起 去去 看看 电影今天 天气天气 真好真好 适合适合 出去出去 玩这家 餐厅餐厅 的的 菜菜 很很 好吃好吃 服务服务 也也 很很 棒最近 公司公司 的的 业绩业绩 不太不太 理想理想 需要需要 加强加强 市场市场 营销
句子11111100000001100000000000000
句子20000011111000000000000000000
句子30000000000111111111110000000
句子40000000000010000111011111111

在这个特征向量中,每一行代表一个句子,每一列代表一个二元词语。如果在某个句子中,存在某个二元词语,则对应的位置的值为1,否则为0。

通过基于词语的ngram特征表示,我们可以得到文本中不同词语之间的语义信息,同时也可以减少语法结构对文本表示的影响,从而更好地表达文本的重要信息。

1.2 分布式表示

词向量的分布式表示(Distributed Representation)是一种将单词表示为实数向量的方法。相对于传统的局部表示方法(如独热编码),分布式表示将单词的语义信息分散地存储在向量的各个维度中,从而实现了高效的语义处理。这种方法最早由Yoshua Bengio等人提出,后来通过神经网络模型的发展得到广泛应用。

具体地,分布式表示是将每个单词表示为一个实数向量,其中向量中每个维度都代表单词的一个特定语义。例如,在使用神经网络进行词向量训练时,我们可以选定一个窗口大小,根据输入单词周围的上下文预测该单词的向量表示。这样,语义相近的单词就会在向量空间中聚集在一起。通过这种方式,我们可以在向量空间中计算单词之间的距离和相似度,进而实现一些自然语言处理任务。

分布式表示方法已经被广泛应用于自然语言处理领域,尤其是在词向量表示和语言模型方面。目前,一些预训练的词向量模型(如word2vec、GloVe和Bert等)已经成为自然语言处理领域的重要工具。

后文将具体描述。

2. 意义

词向量是将文本中的每个单词表示为一个实数向量,它可以将自然语言处理中的文本信息转化为可以进行数学运算的形式,为自然语言处理任务提供了新的思路和方法。词向量的意义主要体现在以下几个方面:

  1. 表示语义信息:词向量能够将单词嵌入到低维空间中,使得具有相似语义的单词在向量空间中距离较近,从而为自然语言处理任务提供了更加有效的表示方式。例如,可以使用词向量进行词汇替换、同义词判定、情感分析等任务。

  2. 降低维度灾难:传统的文本表示方法往往需要采用高维稀疏的独热编码或者词袋模型,这种方法会导致维度灾难的问题,即当词表很大时,特征向量的维度会非常高,导致稀疏性问题和计算开销问题。而词向量方法则可以将单词嵌入到低维空间中,降低了特征向量的维度,解决了维度灾难的问题。

  3. 支持计算语义相似度:词向量支持通过向量空间距离计算语义相似度,可以进行词汇替换、短语组合等操作,从而拓展了自然语言处理的应用范围。

  4. 帮助解决稀疏性问题:在文本分类、聚类等任务中,传统的方法往往需要处理高维稀疏的特征向量,这会导致数据稀疏、模型容易过拟合等问题,而使用词向量则可以将文本表示为密集向量,解决稀疏性问题,提高模型性能。

综上所述,词向量作为自然语言处理领域中的一项重要技术,具有表示语义信息、降低维度灾难、支持计算语义相似度和帮助解决稀疏性问题等意义


参考

什么是词向量?(NPL入门) - 腾讯云开发者社区-腾讯云 (tencent.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/14578.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

成功上岸北大!总分418分,数学150分,经验贴+方法论

Datawhale干货 作者:葛云阳,杭州电子科技大学,Datawhale成员 前 言 大家好,我是北海。2023年以总分418分的成绩上岸北京大学信息工程学院计算机应用技术专业,其中初试第三,复试第五,总成绩第三…

zookeepr 简介

简介: zookeeper是为分布式应用提供协调服务的高性能组件。zookeeper通过简单的接口暴露了一些公共服务(命名、配置管理、同步和分组服务), 因此你不需要从头开始写这些服务。你可以现成得使用zookeeper来实现共识、组管理、领导者选举和存在协议。你可以根据自己的…

iptables和firewalld防火墙

安全技术和防火墙概述 安全技术 入侵检测系统(Intrusion Detection Systems):特点是不阻断任何网络访问,量化、定位来自内外网络的威胁情况,主要以提供报警和事后监督为主,提供有针对性的指导措施和安全决…

Java核心技术 卷1-总结-16

Java核心技术 卷1-总结-16 线程属性线程优先级守护线程未捕获异常处理器 同步竞争条件的一个例子竞争条件详解锁对象 线程属性 线程的各种属性包括:线程优先级、守护线程、线程组以及处理未捕获异常的处理器。 线程优先级 在Java程序设计语言中,每一个…

OpenGL入门教程之 纹理

引言 我们已经了解到,我们可以为每个顶点添加颜色来增加图形的细节,从而创建出有趣的图像。但是,如果想让图形看起来更真实,我们就必须有足够多的顶点,从而指定足够多的颜色。这将会产生很多额外开销,因为每…

ChatGPT国内可用版-国内chatGPT哪个软件好用

国内chatGPT哪个软件最好用 国内对接ChatGPT软件,让智能的对话变得更加简单便捷!ChatGPT是由OpenAI公司开发的最新一代自然语言处理技术,为聊天机器人赋予了更加真实、流畅、智能的语言表达能力。 我们是国内一家专注于人工智能和自然语言处…

旧版VS安装 Visual Studio 2019/2017/2015官方安装教程

安装VisualStudio找不到官方版本?只能找到第三方?害怕中毒? 不要急,本文例举了VS 2019 2017 2015的官方位置,不用但心装成第三方Visual Studio 百度搜索 Visual Studio 2017,只有第三方的包,而…

大孔树脂型号,A-722,ADS500,ADS600,ADS750,ADS800

一、产品介绍 基于吸附功能的聚苯乙烯特种树脂 Tulsimer ADS-600 是一款没有离子官能基的,由交联聚苯乙烯合成的功能强大的吸附型树脂。 Tulsimer ADS-600 主要应用于水溶液中吸附酚及其化合物,氯代烃等含氯物质,表面活性剂&#xff0…

Three——二、加强对三维空间的认识

Three——二、加强对三维空间的认识 接上个例子我们接着往下看 辅助观察坐标系 THREE.AxesHelper()的参数表示坐标系坐标轴线段尺寸大小,你可以根据需要改变尺寸。 使用方法: // AxesHelper:辅助观察的坐标系 const axesHelper new THRE…

java的社区养老服务系统 ssm空巢老人

创新点: 1、根据时间、类型统计用户下单记录,形成可视化图形(饼状图) 2、根据用户爱好推荐项目 包含模块:关于我们、联系我们、外链信息、资讯类型、服务资讯、服务类型、服务项目、案例类型、服务案例、讨论类型、讨论…

【数据库】— 2NF、3NF、BCNF、最小函数依赖集例题

判断范式级别 设有关系模式W(C,P,S,G,T,R),其中各属性的含义是:C课程,P教师,S学生,G成绩,T时间,R教室,根据定义有如下数据依赖集 D{ C→P,(S,C)→G,(T,R)→C&…

2023.04.23 学习周报

文章目录 摘要文献阅读1.题目2.摘要3.介绍4.模型4.1 研究区域4.2 自相关分析4.3 LSTM 5.实验与讨论5.1 高架道路不同位置空气污染物的变化5.2 高架道路不同位置空气污染物的相关性5.3 高架道路不同位置空气污染物预测 6.结论7.展望 度规张量1.曲率2.度量张量3.代码实现4.平行四…

【go】三色标记-垃圾回收机制

垃圾回收原因 : 垃圾回收是一种内存管理技术,它的主要目的是自动管理程序中的内存分配和释放,以减少内存泄漏和野指针等问题 赋值器与回收器: 赋值器(Mutator)是指程序中的执行部分,负责创建…

LinkedBlockingQueue原理

1. 基本的入队出队 public class LinkedBlockingQueue<E> extends AbstractQueue<E>implements BlockingQueue<E>, java.io.Serializable {static class Node<E> {E item;/*** 下列三种情况之一* - 真正的后继节点* - 自己, 发生在出队时* - null, 表…

Django框架之创建项目、应用并配置数据库

django3.0框架创建项目、应用并配置数据库 创建项目 进入命令行 新建一个全英文的目录 进入目录 输入命令 django-admin startproject project 项目目录层级 查看当前目录层级 tree /f 目录文件说明 创建数据库 做一个学生管理系统做演示&#xff0c;使用navicat创建数据…

windows中vscode配置C/C++环境

首先要把MinGW的环境安装完&#xff0c;我一般是下载带有MinGW的codeblocks&#xff0c;这样省去自己安装MinGW。因为安装MinGW还挺麻烦的。 安装完codeblocks&#xff0c;找到其安装目录&#xff0c;把bin文件配置到环境变量去&#xff1a; 将bin添加到环境变量 然后打开vsco…

[读书笔记] 从问题和公式角度理解 Diffusion Model

[小全读书笔记] 从问题和公式角度理解 Diffusion Model 1. Diffusion Model的结构1.1 定义与限制1.2 定义与限制的数学体现 2. Diffusion Model的模型训练2.1 似然函数转换成ELBO2.2 拆解ELBO2.3 求解关键&#xff1a; q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt−1…

【c语言】函数的数据传递原理 | 数组传入函数方法

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; 给大家跳段街舞感谢支持&#xff01;ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ…

ChatGPT实现语义分析情感分类

语义分析情感分类 我们从开源社区找到了中科院谭松波博士整理的携程网酒店评论数据集(https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv)。一共七千余条数据&#xff0c;包括 label 和 review …

5G基站外市电改造建设方案 (ppt可编辑)

本资料来源公开网络&#xff0c;仅供个人学习&#xff0c;请勿商用&#xff0c;如有侵权请联系删除 外市电定义及分类 定义&#xff1a;由供电部门提供的专用高压电源或非专用高压电源或低压电源均称为市电。分类&#xff1a; &#xff08;1&#xff09;按电压等级分类 ①提供…