6 序列数据和文本的深度学习

6.1 使用文本数据

        文本是常用的序列化数据类型之一。文本数据可以看作是一个字符序列或词的序列。对大多数问题,我们都将文本看作词序列。深度学习序列模型(如RNN及其变体)能够从文本数据中学习重要的模式。这些模式可以解决类似以下领域中的问题:

  • 自然语言理解;
  • 文献分类;
  • 情感分类。

        这些序列模型还可以作为各种系统的重要构建块,例如问答(Question and Answering,OA)系统。
        虽然这些模型在构建这些应用时非常有用,但由于语言固有的复杂性,模型并不能真正理解人类的语言。这些序列模型能够成功地找到可执行不同任务的有用模式。将深度学习应用于文本是一个快速发展的领域,每月都会有许多新技术出现。我们将会介绍为大多数现代深度学习应用提供支持的基本组件。
        与其他机器学习模型一样,深度学习模型并不能理解文本,因此需要将文本转换为数值的表示形式。将文本转换为数值表示形式的过程称为向量化过程,可以用不同的方式来完成,概括如下:

  • 将文本转换为词并将每个词表示为向量;
  • 将文本转换为字符并将每个字符表示为向量;
  • 创建词的 n-gram 并将其表示为向量。

        文本数据可以分解成上述的这些表示。每个较小的文本单元称为token,将文本分解成 token 的过程称为分词(tokenization)。在Python 中有很多强大的库可以用来进行分词一旦将文本数据转换为 token序列,那么就需要将每个 token 映射到向量。one-hot(独热)编码和词向量是将 token 映射到向量最流行的两种方法。图6.1总结了将文本转换为向量表示的步骤。

        下面介绍分词、n-gram 表示法和向量化的更多细节。

6.1.1 分词

        将给定的一个句子分为字符或词的过程称为分词。诸如spaCy等一些库,它们为分词提供了复杂的解决方案。让我们使用简单的Python函数(如split和list)将文本转换为 token。
        为了演示分词如何作用于字符和词,让我们看一段关于电影Thor:Ragnarok 的小评论。我们将对这段文本进行分词处理:
        The action scenes were top notch in this movie. Thor has never been this epic in the MCUHe does some pretty epic sh*t in this movie and he is definitely not under-powered anymore.Thor in unleashed in this, I love that.

        1. 将文本转换为字符

        Python的list函数接受一个字符串并将其转换为单个字符的列表。这样做就将文本转换为了字符。下面是使用的代码和结果:

thor review="the action scenes were top notch in this movie.
Thor hasnever been this epic in the McU.
He does some pretty epic sh*t in thismovie and 
he is definitely not under-powered anymore.
Thor in unleashed inthis,I love that."
Print(list(thor_review))

        以下是结果:

        结果展示了简单的 Python 函数如何将文本转换为token。

        2. 将文本转换为词

        我们将使用 Python 字符串对象函数中的 split 函数将文本分解为词。split 函数接受一个参数,并根据该参数将文本拆分为 token。在我们的示例中将使用空格作为分隔符。以下代码段演示了如何使用 Python 的 split 函数将文本转换为词:

print(Thor_review.split())

        在前面的代码中,我们没有使用任何的分隔符,默认情况下,split 函数使用空格来分隔。

        3. n-gram表示法

        我们已经看到文本是如何表示为字符和词的。有时一起查看两个、三个或更多的单词非常有用。n-gram是从给定文本中提取的一组词。在n-gram中,n表示可以一起使用的词的数量。看一下bigram(当n=2时)的例子,我们使用 Python 的 nltk 包为 thor_review 生成一个 bigram ,以下代码块显示了 bigram 的结果以及用于生成它的代码:

from nltk import ngrams
print(list(ngrams(thor_review.split(),2)))

        ngrams 函数接受一个词序列作为第一个参数,并将组中词的个数作为第二个参数。以下代码块显示了 trigram 表示的结果以及用于实现它的代码:

print(list(ngrams(thor_review.split(),3)))

        在上述代码中唯一改变的只有函数的第二个参数n的值。
        许多有监督的机器学习模型,例如朴素贝叶斯(NaiveBayes),都是使用n-gram来改善它的特征空间。n-gram同样也可用于拼写校正和文本摘要的任务。
        n-gram 表示法的一个问题在于它失去了文本的顺序性。通常它是和浅层机器学习模型一起使用的。这种技术很少用于深度学习,因为 RNN 和 Conv1D 等架构会自动学习这些表示法。

6.1.2 向量化

        将生成的 token 映射到数字向量有两种流行的方法,称为独热编码和词向(wordembedding,也称之为词嵌入)。让我们通过编写一个简单的Python 程序来理解如何将 token 转换为这些向量表示。我们还将讨论每种方法的各种优缺点。

        1. 独热编码

        在独热编码中,每个 token 都由长度为N的向量表示,其中N是词表的大小。词表是文档中唯一词的总数。让我们用一个简单的句子来观察每个 token 是如何表示为独热编码的向量的。下面是句子及其相关的 token 表示:

         An apple a day keeps doctor away said the doctor.

       上面句子的独热编码可以用表格形式进行表示,如下所示。

        该表描述了 token 及其独热编码的表示。因为句子中有9个唯一的单词,所以这里的向量长度为9。许多机器学习库已经简化了创建独热编码变量的过程。我们将编写自己的代码来实现这个过程以便更易于理解,并且我们可以使用相同的实现来构建后续示例所需的其他功能。以下代码包含 Dictionary类,这个类包含了创建唯一词词表的功能,以及为特定词返回其独热编码向量的函数。让我们来看代码,然后详解每个功能:

class Dictionary(object):
    def _init_(self):
        self.word2idx={}
        self.idx2word =[]
        self.length=0
    def add_word(self, word):
        if word not in self.idx2word:
            self.idx2word.append(word)
            self.word2idx[word]=self.length + 1
            self.length +=1
        return self.word2idx[word]
    def _len_(self):
        return len(self.idx2word)
    def onehot_encoded(self,word):
        vec =np.zeros(self.length)
        vec[self.word2idx[word]] = 1
        return vec

        上述代码提供了3个功能。

  • 初始化函数_init_创建一个 word2idx 字典,它将所有唯一词与索引一起存储。idx2word 列表存储的是所有唯一词,而 length 变量则是文档中唯一词的总数。
  • 在词是唯一的前提下,add_word 函数接受一个单词,并将它添加到 word2idx 和 idx2word 中,同时增加词表的长度。
  • onehot_encoded函数接受一个词并返回一个长度为N,除当前词的索引外其余位置全为0的向量。比如传如的单词的索引是2,那么向量在索引2处的值是1,其他索引处的值全为0。

        在定义好了 Dictionary 类后,准备在 thor_review 数据上使用它。以下代码演示了如何构建 word2idx 以及如何调用 onehot_encoded 函数:

die = Dictionary()
for tok in thor_review.split():
    dic.add_word(tok)
print(dic.word2idx)

        上述代码的输出如下:

        单词were的独热编码如下所示:

        独热表示的问题之一就是数据太稀疏了,并且随着词表中唯一词数量的增加,向量的大小迅速增加,这也是它的一种限制,因此独热很少在深度学习中使用。

        2. 词向量

        词向量是在深度学习算法所解决的问题中,一种非常流行的用于表示文本数据的方式。词向量提供了一种用浮点数填充的词的密集表示。向量的维度根据词表的大小而变化。通常使用维度大小为50、100、256、300,有时为 1000 的词向量。这里的维度大小是在训练阶段需要使用的超参数。
        如果试图用独热表示法来表示大小为 20000 的词表,那么将得到 20000 x 20000 个数字,并且其中大部分都为0。同样的词表可以用词向量表示为 20000 x 维度大小,其中维度的大小可以是 10、50、300等。
        一种方法是为每个包含随机数字的 token 从密集向量开始创建词向量,然后训练诸如文档分类器或情感分类器的模型。表示 token 的浮点数以一种可以使语义上更接近的单词具有相似表示的方式进行调整。为了理解这一点,我们来看看图6.2,它画出了基于 5 部电影的二维点图的词向量。

        图6.2显示了如何调整密集向量,以使其在语义上相似的单词具有较小的距离。由于Superman、Thor 和 Batman 等电影都是基于漫画的动作电影,所以这些电影的向量更为接近,而电影 Titanic 的向量离动作电影较远,离电影Notebook 更近,因为它们都是浪漫型电影。
        在数据太少时学习词向量可能是行不通的,在这种情况下,可以使用由其他机器学习算法训练好的词向量。由另一个任务生成的向量称为预训练词向量。下面将学习如何构建自己的词向量以及使用预训练词向量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/746374.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vface贴图使用说明

第一部分:01_head 说明 geos:几何体正常导入DCC软件即可; maps:重点说明: ID_mask:做头部区域细节区分控制的遮罩图;官方有详细教程; XYZ_albedo_lin_srgb.1001.exr 颜色贴图正常使用即可&…

【曦灵平台】深度体验百度智能云曦灵平台之数字人3.0、声音克隆、直播等功能,AI加持就是不一样,快来一起体验

目录 资产数字人 2D数字人克隆声音克隆 AI卡片更多功能总结推荐文章 资产 可进行人像与声音的定制,让数字人形象和声音成为我们的专属资产,用于后续的内容生产工作 数字人 这里拍摄的视频分辨率和帧率必须要确保是官方要求,这里博主通过第…

再谈kettle两种循环之--调用http分页接口循环获取数据

再谈kettle两种循环之 – 调用http分页接口循环获取数据 1.场景介绍: 由于数据量比较大,接口有返回限制,需要用到循环分页获取数据 2.案例适用范围: 循环job可参考,变量运用可参考,调用http分页接口循环获取数据可参考&#…

【idea-jdk1.8】使用Spring Initializr 创建 Spring Boot项目没有JDK8

信息差真可怕! 很久没创建springboot项目,今天使用idea的Spring Initializr 创建 Spring Boot项目时,发现java版本里,无法选择jdk1.8,只有17、21、22;前段时间也听说过,springboot将放弃java8&a…

Java面试问题(一)

一.Java语言具有的哪些特点 1.Java是纯面向对象语言,能够直接反应现实生活中的对象 2.具有平台无关性,利用Java虚拟机运行字节码文件,无论是在window、Linux还是macOS等其他平台对Java程序进行编译,编译后的程序可在其他平台上运行…

深入理解计算机系统 CSAPP 家庭作业7.13

用一下496页提到的工具咯 A: whereis libm.a file lidm.a gedit libm.a libm.a是个ASCII text文件打开一看原来 libm-2.27.a 和libmvec.a才是我们要看的 所以我们cd到目标地址后 ar -t libm-2.27.a ar -t libmvec.a B: gcc -Og bar5.c foo5.c 用之前的两个文件链接后生成…

使用AI机器学习,轻松解决化合物配比优化问题

为什么需要化合物配比的优化? 在化合物制造行业中,化合物的配比是产品质量控制的关键环节。 化合物制造流程 目前,这一过程高度依赖于材料专家和工程技术人员的经验,通过反复试验来验证产品性能,确保其满足市场和客户的…

JavaWeb系列八: WEB 开发通信协议(HTTP协议)

HTTP协议 官方文档什么是HTTP协议快速入门页面请求的一个问题(分析)http请求包分析(get)http请求包分析(post)GET请求 POST请求分别有哪些http响应包分析常用的状态码说明状态码200状态码404状态码500状态码302状态码304 MIME类型MIME介绍常见的 MIME 类型 官方文档 HTTP常见请…

一家大型银行的电子课程示例

Logrus IT的专家为最大的金融公司之一开发了一门课程,作为一个交互式路线图,向用户介绍公司的业务部门。我们的设计师以企业风格创造了独特的布局,每个课程模块都被创造性地表示为一个单独的建筑。用户可以在部门之间进行非线性导航&#xff…

Java基础:常用类(四)

Java基础:常用类(四) 文章目录 Java基础:常用类(四)1. String字符串类1.1 简介1.2 创建方式1.3 构造方法1.4 连接操作符1.5 常用方法 2. StringBuffer和StringBuilder类2.1 StringBuffer类2.1.1 简介2.1.2 …

编程设计思想

健康检查脚本 nmap:扫描端口 while true do healthycurl B:httpPORT/healthy -i | grep HTTP/1.1 | tail -n 1 | awk {print $2} done 批量操作类型脚本(记录每一步日志) 将100个nginx:vn推送到harbor仓库192.168.0.100 根据镜像对比sha值…

jdk1.8升级到jdk11遇到的各种问题

一、第三方依赖使用了BASE64Decoder 如果项目中使用了这个类 sun.misc.BASE64Decoder,就会导致错误,因为再jdk11中,该类已经被删除。 Caused by: java.lang.NoClassDefFoundError: sun/misc/BASE64Encoder 当然这个类也有替换方式&#xf…

mysql查询2个日期之间的数据,表字段只有年和月,无日期字段查询的解决

1.核心mysql查询 SELECT * FROM 表名 WHERE CONCAT(year, -, LPAD(month, 2, 0)) > 2022-02-08 AND CONCAT(year, -, LPAD(month, 2, 0)) < 2024-06-06;2.表结构 CREATE TABLE ys_datezzq (id int(10) NOT NULL AUTO_INCREMENT,bid int(10) NOT NULL DEFAULT 0 COMMEN…

海外云服务器与传统服务器的对比与选择

在信息技术快速发展的今天&#xff0c;海外云服务器和传统服务器成为企业和个人用户的两大选择。它们各有优势&#xff0c;适用于不同的使用场景和需求。下面&#xff0c;我们将从多个角度对这两种服务器进行深入对比&#xff0c;帮助您做出更明智的决策。 基础设施 海外云服务…

【神经网络】深入理解多层神经网络(深度神经网络

&#x1f388;个人主页&#xff1a;豌豆射手^ &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共同学习、交流进步&#xff01; 深入理解多层神经网络&#x…

【若依前后端分离】前端vue页面查看服务器本地的PDF

后端实现&#xff1a; 使用FileSystemResource包装文件&#xff0c;以便Spring MVC可以处理该资源 创建HttpHeaders对象以设置响应头 设置Content-Disposition头&#xff0c;使得浏览器以内联方式显示PDF&#xff08;即在浏览器中直接打开&#xff09; 设置Content-Type为appli…

编译器优化禁用对计算浮点加法运算时间的影响

编译器优化是现代编译器的重要功能&#xff0c;旨在提升程序的执行效率和性能。然而&#xff0c;在某些特定的测试或精确计算场景中&#xff0c;我们需要禁用这些优化以确保所有计算按预期执行。下面研究在 Keil 编译器中禁用和启用优化对执行多次次浮点除法运算时间的影响。 …

从云原生视角看 AI 原生应用架构的实践

本文核心观点&#xff1a; 基于大模型的 AI 原生应用将越来越多&#xff0c;容器和微服务为代表的云原生技术将加速渗透传统业务。API 是 AI 原生应用的一等公民&#xff0c;并引入了更多流量&#xff0c;催生企业新的生命力和想象空间。AI 原生应用对网关的需求超越了传统的路…

【SpringMVC】_SpringMVC实现留言墙

目录 1. 需求分析 2. 接口定义 2.1 提交留言 2.2 获取全部留言 3. 响应数据 4. 服务器代码 4.1 MessageInfo 文件 4.2 MessageController 文件 5. 前端页面代码 5. 运行测试 1. 需求分析 实现如下页面&#xff1a; 1、输入留言信息&#xff0c;点击提交后&#xff0…

Java版小程序商城免费搭建-直播商城平台规划及常见营销模式解析

平台概述 1. 平台组成 管理平台&#xff1a;提供全方位的系统设置、数据统计、商家管理、订单管理等后台管理功能。商家端&#xff1a;支持PC端和移动端操作&#xff0c;便于商家进行商品管理、订单处理、营销活动设置等。买家平台&#xff1a;覆盖H5网页、微信公众号、小程序…