自然语言处理,基于预训练语言模型的方法,车万翔,引言部分

文章目录

  • 自然语言处理应用任务
    • 1. 信息抽取
    • 2. 情感分析
    • 3. 问答系统
    • 4. 机器翻译
    • 5. 对话系统

自然语言处理应用任务

1. 信息抽取

信息抽取(Information Extraction, IE),是从非结构化的文本中,抽取出结构化信息的过程,通常包含以下这些子任务

在这里插入图片描述
下面举一个例子,来说明这些子任务分别是干什么的,以及它们之间的差别是什么。
在这里插入图片描述
不同信息抽取子任务,抽取的结果如下方表格所示:

信息抽取子任务抽取结果
命名实体识别公司名:AMD
公司名:赛灵思
关系抽取赛灵思 ⇒ 从属于 \xRightarrow{\text{从属于}} 从属于 AMD
时间表达式抽取10月28日
时间表达式归一化10月28日 → \xrightarrow{} 2020年10月28日
事件抽取事件:收购
时间:2020年10月28日
收购者:AMD
被收购者:赛灵思
被收购金额:350亿美元
  • 命名实体识别可以实现从文本中抽取出子串“AMD”和“赛灵思”,并标注出它们的类型均为“公司名”。
  • 关系抽取在命名实体识别的基础上,进一步挖掘不同实体之间的关系,在本文中可以挖掘出AMD和赛灵思的关系为母公司和子公司的关系。
  • 时间表达式抽取,可以抽取出原文中的日期和时间,本文中就是10月28日。
  • 时间表达式归一化是为了使时间表达式抽取的结果更加规范化,“10月28日”毕竟是个比较模糊的日期,应该能够进一步识别出它是“2020年的10月28日”这种特定的日期。
  • 事件抽取以一种结构化的方式,抽取出整个收购事件的来龙去脉,类似于对多种实体抽取任务进行一种组合。这里可以抽取出与收购事件相关的所有信息,如时间,收购者,被收购者,被收购金额等。

2. 情感分析

情感(Sentiment)是人类重要的心理认知能力,使用计算机自动感知和处理人类情感已经成为人工智能领域重要的研究内容之一。自然语言处理中的情感分析主要研究人类通过文字表达的情感,因此也称为文本情感分析。但是,情感又是一个相对比较笼统的概念,既包括个体对外界事物的态度、观点或倾向性,如正面、负面等;又可以指人自身的情绪(Emotion),如喜、怒、哀和惧等。随着互联网的迅速发展,产生了各种各样的用户生成内容(User Generated Content,UGC),其中很多内容包含着人们的喜怒哀惧等情感,对这些情感的准确分析有助于了解人们对某款产品的喜好,随时掌握舆情的发展。
因此,情感分析成为目前自然语言处理技术的主要应用之一。
在这里插入图片描述
在这里插入图片描述
情感分类主要注重识别文本中的情感类型或者情感强度,而情感信息抽取主要注重识别文本中的评价词,评价对象,以及二者之间的搭配。

3. 问答系统

问答系统的主要分类以及简要介绍
问答系统的主要分类以及简要介绍

4. 机器翻译

随着全球化和互联网的普及,不同语言之间的交流变得日益重要。目前全球约有7,000种语言,其中超过300种拥有超过100万使用者。语言障碍成为国际交流的一个挑战。机器翻译,作为克服这一难题的有效技术手段,旨在实现不同语言间的自动翻译,促进无障碍交流。自然语言处理领域的发展推动了机器翻译技术的进步。近年来,谷歌、百度等公司推出了在线机器翻译服务,而科大讯飞等公司则推出了能将语音从一种语言翻译成另一种语言的翻译机,这些进展为不同语言使用者之间的交流提供了便利。
图片描述
机器翻译自诞生以来,主要围绕理性主义和经验主义两种方法进行研究。“理性主义”是基于规则的方法,“经验主义”是数据驱动的统计方法。近年来兴起的基于深度学习的机器翻译方法利用深度神经网络学习源语言句子到目标语言句子的隐式翻译规则,即所有的翻译规则都被编码在神经网络的模型参数中。该方法又被称为神经机器翻译(Neural MachineTranslation,NMT)。

5. 对话系统

在这里插入图片描述
在这里插入图片描述
开放域对话系统类似于一个娱乐型聊天机器人,而非是某个领域的专家。为了取悦用户,机器人应该能够与用户源源不断地对话,提供的回答应该多种多样,最好类似于一个专业的人类陪聊,提高用户的满意度。

在这里插入图片描述
任务型对话系统往往是为了服务于用户,完成用户要求的某项特定任务而存在的。
例如我们使用Siri进行订票。我们会说“Siri,订一张明天去北京的机票”。
Siri会首先解析并理解用户的请求,分析用户的语义,获得用户的领域为机票,意图为订机票,并将关键信息存入槽值构成的列表。
之后,Siri在和用户的不断对话中,会不断跟踪当前用户语义和状态,例如用户想将机票从北京改到上海,Siri会在槽值中,将到达地所在槽对应的值修改为上海。此外,Siri会根据当前用户语义和状态,利用语义计算进行决策,决定下一步应该做什么,即给出什么回答。
最后,Siri会选择一个适当的模板来生成问题,比如使用模板“请问您从哪里出发?”然后把这个问题直接问用户。这种方法比较简单,因为模板是固定的,只需要在适当的时候选择合适的模板就可以了。生成的文本之后会传递给文本到语音(TTS)模块。TTS模块的作用是把文本转换成语音,这样用户就可以听到计算机发出的声音,而不仅仅是看到屏幕上的文字。这样一来,对话系统就能通过语音与用户进行互动了。
简而言之,NLG负责创建文本消息,TTS负责将这些文本消息转换为用户可以听到的语音消息。
由于用户与Siri的对话是多轮对话,会一直持续下去直至满足用户需求,以上三个流程会循环往复,直至满足用户需要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/356343.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GBASE南大通用分享-ConnectionTimeout 属性

GBASE南大通用分享 获取或设置连接超时时间,值为‚0‛时没有限制。  语法 [Visual Basic] Public Overrides ReadOnly Property ConnectionTimeout As Integer Get [C#] public override int ConnectionTimeout { get; }  实现 IDbConnection.Connecti…

拼接url - 华为OD统一考试

OD统一考试 分值: 100分 题解: Java / Python / C 题目描述 给定一个 url 前缀和 url 后缀, 通过 “,” 分割, 需要将其连接为一个完整的 url 。 如果前缀结尾和后缀开头都没有 /,需要自动补上 / 连接符; 如果前缀结…

LPC804开发(5.PWM使用)

1.前言 早上花了点时间学习了一下官方的例程,总的来说PWM输出还是比较简单的。 2.基本使用 首先在开始前我不建议大家照搬官方的程序,因为官方的程序非常复杂,其实官方自己有更简单的方法但是SDK里没有用,我也不知道为什么&…

Mybatis-Plus基础

typora-copy-images-to: img Mybatis Plus 今日目标: 了解mybatisplus的特点能够掌握mybatisplus快速入门能够掌握mybatisplus常用注解能够掌握mybatisplus常用的增删改查能够掌握mybatisplus自动代码生成 1 MybatisPlus简介 1.1 MybatisPlus概述 ​ MyBatis-…

python3 查询mysql(obmysql)数据库表格并写入txt文件

本文将介绍如何使用Python3查询MySQL(OBmysql)数据库读取表格数据写入本地txt文件。 具体步骤: 连接数据库创建游标对象执行SQL查询语句关闭连接 一、连接数据库 在查询数据库之前,我们首先需要连接到MySQL/OBmysql数据库。使用…

域名解析与nginx配置

dns解析 阿里云服务器dns域名解析配置,记录值就是阿里云服务器的ip nginx配置 远程到阿里云服务器上对nginx进行配置: nginx反向代理配置: 修改配置后,重启nginx服务 进入目录:cd /usr/sbin 强制杀死进程&#xff…

玩转WEB接口之三续篇【HTTPS证书申请 - nginx验证】

文章目录 一, 概述二,nginx下载三,访问域名1. 做域名映射2. 运行nginx并通过域名访问 四,配置SSL证书1. 配置证书文件2. nginx 添加证书文件 五、运行并验证1. 测试、重新加载2. https访问 一, 概述 接上篇 玩转WEB接…

​「商务行政」是品牌高端化必须要迈的槛

发布了几个月之后,高山行政版终于开启了公开试驾,这也是在极氪 009 之后自主品牌里又一个主打行政商务定位的产品。 为什么「行政商务」会被各家主机厂提到一个较高的优先级? 这和目前市场的竞争环境有关系,一方面新能源产品在快…

【已解决】Centos安装不了podman问题(依赖无法安装)

今天安装podman一直安装不了,原因是containernetworking-plugins-1.1.1-1.el7.2.9.x86_64.rpm这个包因为网站的原因下载不了,不管是开启代理还是使用镜像源,都无法解决 最终是手动下载本地后上传至服务器解决,故把文件分享出来避…

C语言——N / 自定义类型:联合和枚举

目录 一、联合体 1、联合体类型的声明 2、联合体的特点 3、相同成员的结构体和联合体对比 4、联合体大小的计算 5、联合的一个练习 二、枚举类型 1、枚举类型的声明 2、枚举类型的优点 3、枚举类型的使用 一、联合体 1、联合体类型的声明 像结构体⼀样,…

springboot快速写增删改查接口

springboot快速写接口 1.建立项目,初步测试接口1. 建proj形式2. 基础包2. 基础依赖3. 配置数据库4.用restcontroller和postmapping来写接口5. 如何使用数据库进行增删改查 2. 写一个简单的增删改查2.1 查询报错汇总:mybatis的application.yml配置错误ins…

【笔试常见编程题03】统计回文、连续最大和、不要二、把字符串转换成整数

1. 统计回文 “回文串”是一个正读和反读都一样的字符串,比如“level”或者“noon”等等就是回文串。花花非常喜欢这种拥有对称美的回文串,生日的时候她得到两个礼物分别是字符串A和字符串B。现在她非常好奇有没有办法将字符串B插入字符串A使产生的字符串…

新手也能轻松上手!10 款免费平面图设计软件推荐!

从事设计行业的工人或多或少会接触到平面图。例如,在建造新房、办公室、酒店等任何类型的建筑时,都需要使用平面图来保证项目的准确性。因此,掌握绘制平面图软件的技巧也非常重要。在保证效率的同时,结果的准确性也非常高。在本文…

【CMU-自主导航与规划】M-TARE planner 配置与运行

M-TARE docker M-TARE 源码 一、依赖 Docker, Docker Compose, NVIDIA Container Toolkit, Nvidia GPU Driver(需要至少2个,带Nvidia GPU) 1.1 Docker docker -v #查询版本1.2 Docker Compose docker compose version1.3 …

jrt运维命令改造

以前发布网站都是定死网站放置路径的,现在JRT想面向更广范围推广,所以就不能明确确定网站放置目录,为此需要改造一下jrt命令和sh来满足目录不确定情况和多个程序用不同管理命令的要求。 以前是写死的,现在改为调程序运行目录的sh…

Dubbo 3.x源码(16)—Dubbo服务发布导出源码(5)

基于Dubbo 3.1,详细介绍了Dubbo服务的发布与引用的源码。 此前我们学习了Dubbo 3.x源码(15)—Dubbo服务发布导出源码(4),也就是Dubbo远程服务导出export方法的上半部分,也就是doLocalExport源码,将会得到一个Exporter。 现在我们…

C++类和对象引入以及类的介绍使用

文章目录 一、面向过程和面向对象的初步认识二、类的引入2.2 类的引入 三、类的访问限定符及封装3.3 访问限定符3.4 【面试题】C中struct和class的区别3.5 类的两种定义方式 四、封装【面试题】面向对象的三大特性 五、类的作用域六、类的实例化七、类对象模型7.1 类对象的存储…

(Sping Xml方式整合第三方框架)学习Spring的第十天

Spring整合mybatis 1 . 导入Mybatis整合Spring的相关坐标 <dependency><groupId>org.springframework</groupId><artifactId>spring-jdbc</artifactId><version>5.2.13.RELEASE</version></dependency><dependency><…

基于springboot网上图书商城源码和论文

在Internet高速发展的今天&#xff0c;我们生活的各个领域都涉及到计算机的应用&#xff0c;其中包括网上图书商城的网络应用&#xff0c;在外国网上图书商城已经是很普遍的方式&#xff0c;不过国内的管理网站可能还处于起步阶段。网上图书商城具有网上图书信息管理功能的选择…

新建VM虚拟机-安装centOS7-连接finalshell调试

原文 这里有问题 首先进入/etc/sysconfig/network-scripts/目录 cd /etc/sysconfig/network-scripts/ 然后编辑文件 ifcfg-ens33 vi ifcfg-ens33