NLP论文阅读记录 - 2021 | WOS MAPGN:用于序列到序列预训练的掩码指针生成器网络

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.前提
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

MAPGN: MASKED POINTER-GENERATOR NETWORK FOR SEQUENCE-TO-SEQUENCE PRE-TRAINING(21)

0、论文摘要

本文提出了一种指针生成器网络的自监督学习方法,以改进口语文本规范化。将口语风格文本转换为风格规范化文本的口语文本规范化正在成为改进机器翻译和摘要等后续处理的重要技术。
迄今为止最成功的口语文本规范化方法是使用指针生成器网络进行序列到序列 (seq2seq) 映射,该网络拥有来自输入序列的复制机制。然而,这些模型需要大量的口语风格文本和风格标准化文本的配对数据,并且很难准备如此大量的数据。
为了从有限的配对数据构建口语文本标准化模型,我们专注于自监督学习,它可以利用不配对的文本数据来改进 seq2seq 模型。不幸的是,传统的自监督学习方法并不假设使用指针生成器网络。
因此,我们提出了一种新颖的自监督学习方法,MAsked Pointer-Generator Network (MAPGN)。所提出的方法可以通过学习使用复制机制填充屏蔽令牌来有效地预训练指针生成器网络。
我们的实验表明,在两个口语文本规范化任务中,MAPGN 对于指针生成器网络比传统的自监督学习方法更有效。

一、Introduction

1.1目标问题

随着智能扬声器 [1, 2] 和自动听写系统 [3, 4] 等各种自动语音识别 (ASR) 应用的兴起,准确处理口语文本(即来自语音的转录文本)变得越来越重要。口头言语。由于 ASR 系统以字面方式将语音转换为文本,因此口语风格文本通常包含不流畅的内容,例如冗余表达和各种少数民族口语表达(例如方言)。口语风格文本会对后续的自然语言处理(例如机器翻译、摘要)产生不利影响,因为这些技术通常是为了处理书面风格文本而开发的,书面风格文本是具有大多数表达方式的文本,并且没有不流畅或冗余的表达。因此,需要将口语风格文本(包括不流利和方言)转换为风格规范化文本(排除不流利和方言)。在本文中,我们的目标是改进口语文本规范化。

1.2相关的尝试

口语文本标准化任务被视为单语言翻译[5],被视为从文本到文本的序列到序列(seq2seq)映射。在最近的研究中,完全基于神经网络的 seq2seq 模型 [6] 在各种单语翻译任务中表现出了有效的性能,例如摘要 [7,8]、释义生成 [9,10] 和不流畅检测 [11,12]。特别是,基于指针生成器网络的 seq2seq 模型 [13]最近被利用[14,15]。指针生成器网络对于单语翻译任务非常有效,因为它们包含复制机制,可以从源文本中复制标记以帮助生成不常见的标记。据报道,在口语文本规范化任务中,指针生成器网络的性能优于基于注意力的编码器-解码器网络[16]。
为了构建用于口语文本标准化的 seq2seq 模型,需要大量口语风格文本和风格标准化文本的配对数据。然而,为了制作这些配对数据,我们需要准备口语的手动转录,并且这些转录的文本样式需要手动标准化。因此,制作大量配对数据既昂贵又耗时。为了缓解这个问题,我们使用近年来受到广泛关注的自我监督学习。自监督学习是无监督学习的一种形式,其中未配对的数据仅用于设计监督训练设置。在自然语言处理中,自监督学习在自然语言生成和自然语言理解方面一直在进步[17-19]。不幸的是,seq2seq 模型的传统自监督学习方法并不假设使用指针生成器网络 [20-22]。实际上,传统方法对于指针生成器网络来说是不够的,因为它们无法学习显式地从源文本中复制标记。

1.3本文贡献

在本文中,我们提出了一种新颖的指针生成器网络自监督学习方法。所提出的方法 MAsked 指针生成器网络(MAPGN)是 MAsked 序列到序列预训练(MASS)[20]的扩展。 MASS 通过以屏蔽序列作为输入来预测屏蔽标记来预训练 seq2seq 模型。在合约中,MAPGN 可以通过学习选择是否复制或生成带有掩码代币的代币来有效地预训练复制机制。我们的实验表明,所提出的方法对于两个口语文本规范化任务、方言转换任务和口语到书面风格转换任务中配对数据较少的指针生成器网络是有效的。

总之,我们的贡献如下:

二.前提

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

在这里插入图片描述

4.6 细粒度分析


五 总结

本文提出了 MAsked Pointer-Generator Network (MAPGN),一种指针生成器网络的自监督学习方法。虽然传统的自监督学习方法不支持在指针生成器网络中显式训练复制机制,但所提出的方法可以通过学习选择是复制还是生成针对掩码跨度的令牌来有效地训练复制机制。实验表明,MAPGN 在两个口语文本标准化任务中优于传统方法,并且在配对训练数据量较小和 OOD 任务中特别有效。我们得出的结论是,MAPGN 适用于预训练指针生成器网络,并且在配对数据集有限时有效。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/335930.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python常用库

常见模块解析 1. math库 数学函数 函数返回值 ( 描述 )abs(x)返回数字的绝对值&#xff0c;如abs(-10) 返回 10ceil(x)返回数字的上入整数&#xff0c;如math.ceil(4.1) 返回 5cmp(x, y)如果 x < y 返回 -1, 如果 x y 返回 0, 如果 x > y 返回 1。 **Python 3 已废弃…

Pandas.DataFrame.groupby() 数据分组(数据透视、分类汇总) 详解 含代码 含测试数据集 随Pandas版本持续更新

关于Pandas版本&#xff1a; 本文基于 pandas2.1.2 编写。 关于本文内容更新&#xff1a; 随着pandas的stable版本更迭&#xff0c;本文持续更新&#xff0c;不断完善补充。 Pandas稳定版更新及变动内容整合专题&#xff1a; Pandas稳定版更新及变动迭持续更新。 Pandas API参…

jquery动态引入js和css

直接上代码吧&#xff0c;但是有时候这个方法会失败&#xff0c;js文件里面的方法不生效&#xff0c;原因还在找 // 动态引入cssvar cssFileUrl index.css;$("head").append("<link>");css $("head").children(":last");css.a…

Codeforces Round 803 (Div. 2) E. PermutationForces II(思维题 位置序列)

题目 给定长为n(n<2e5)的两个序列a和b&#xff0c; a为n的一个排列&#xff0c; b也为n的一个排列&#xff0c;但有一些位置被-1替换了&#xff0c;保证没被替换的位置在[1,n]之间且两两不同 你有一个距离最大限制s&#xff0c;你可以执行n次操作&#xff0c; 第i次操作…

【现代密码学基础】详解完美安全与不可区分安全

目录 一. 介绍 二. 不可区分性试验 三. 不可区分性与完美安全 四. 例题 五. 小结 一. 介绍 敌手完美不可区分&#xff0c;英文写做perfect adversarial indistinguishability&#xff0c;其中adversarial经常被省略不写&#xff0c;在密码学的论文中经常被简称为IND安全。…

视频增强修复Topaz Video AI

Topaz Video AI是一款强大的视频增强软件&#xff0c;利用人工智能技术对数千个视频进行训练&#xff0c;结合多个输入视频的帧信息来提高素材的分辨率。该软件可将视频的分辨率提高到最高8K&#xff0c;并保持真实的细节和运动一致性。同时&#xff0c;它还能自动修复视频中的…

Linux系统CPU持续飙高,如何排查?

一、检查CPU使用率 首先在Linux系统中检查CPU使用率。可以通过在命令行中输入top或htop命令来查看当前系统中各个进程的CPU使用率。如果CPU使用率大于80%&#xff0c;则可以考虑进行排查。 $ top 二、检查系统负载 另外可以使用uptime命令来查看系统的平均负载情况。 $ upti…

DiffMIC:融合局部和全局分析,基于扩散模型的医学图像分类方法

DiffMIC&#xff1a;基于扩散模型的医学图像分类方法 DiffMIC的核心思想糖尿病视网膜病变分级 网络结构去噪扩散模型&#xff1a;提升特征清晰度双粒度条件引导&#xff08;DCG&#xff09;&#xff1a;融合局部和全局分析条件特定的最大均值差异&#xff08;MMD&#xff09;正…

【Java】JDBC练习

JDBC练习 环境准备 -- 删除tb_brand表 drop table if exists tb_brand; -- 创建tb_brand表 create table tb_brand (-- id 主键id int primary key auto_increment,-- 品牌名称brand_name varchar(20),-- 企业名称company_name varchar(20),-- 排序字段ordered …

C++设计模式之 模板方法模式

【声明】本题目来源于卡码网&#xff08;题目页面 (kamacoder.com)&#xff09; 【提示&#xff1a;如果不想看文字介绍&#xff0c;可以直接跳转到C编码部分】 【设计模式大纲】 【简介】 --什么是模板方法模式&#xff08;第18种设计模式&#xff09; 模板方法模式&#xff0…

《Linux高性能服务器编程》笔记02

Linux高性能服务器编程 参考 Linux高性能服务器编程源码: https://github.com/raichen/LinuxServerCodes 豆瓣: Linux高性能服务器编程 文章目录 Linux高性能服务器编程第06章 高级I/O函数6.1 pipe函数6.2 dup函数和dup2函数6.3 readv 函数和writev 函数6.4 sendfile 函数6.…

基于SSM的KTV包厢管理系统(有报告)。Javaee项目,ssm项目。

演示视频&#xff1a; 基于SSM的KTV包厢管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;ssm项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&#xff0c;通过…

软件测试|sqlalchemy一对一关系详解

简介 SQLAlchemy 是一个强大的 Python ORM&#xff08;对象关系映射&#xff09;库&#xff0c;它允许我们将数据库表映射到 Python 对象&#xff0c;并提供了丰富的关系模型来处理不同类型的关系&#xff0c;包括一对一关系。在本文中&#xff0c;我们将深入探讨 SQLAlchemy …

后台管理系统: 数据可视化基础

数据可视化简单理解&#xff0c;就是将数据转换成易于人员辨识和理解的视觉表现形式&#xff0c;如各种 2D 图表、3D 图表、地图、矢量图等等。 例如Excel等等 canvas <canvas> 标签只是图形容器&#xff0c;相当于一个画布&#xff0c;canvas 元素本身是没有绘图能力…

算法常用思路总结

思路 1. 求数组中最大最小值思路代码 2. 计算阶乘思路&#xff1a;代码&#xff1a; 3. 得到数字的每一位思路代码 4. 计算时间类型5. 最大公约数、最小公倍数6. 循环数组的思想题目&#xff1a;猴子选大王代码 补充经典例题1. 复试四则运算题目内容题解 2. 数列求和题目内容题…

安防监控系统EasyCVR平台用户调用设备参数,信息不返回是什么原因?

安防视频监控系统EasyCVR视频综合管理平台&#xff0c;采用了开放式的网络结构&#xff0c;平台能在复杂的网络环境中&#xff08;专网、局域网、广域网、VPN、公网等&#xff09;将前端海量的设备进行统一集中接入与视频汇聚管理&#xff0c;平台支持设备通过4G、5G、WIFI、有…

限流算法之流量控制的平滑之道:滑动时间窗算法

文章目录 引言简介优点缺点样例样例图样例代码 应用场景结论 引言 在互联网应用中&#xff0c;流量控制是一个重要的组件&#xff0c;用于防止系统过载和保护核心资源。常见的限流算法包括固定窗口算法和滑动时间窗算法。本文将重点介绍滑动时间窗算法&#xff0c;并分析其优缺…

掌握虚拟化:PVE平台安装教程与技术解析

&#x1f31f;&#x1f30c; 欢迎来到知识与创意的殿堂 — 远见阁小民的世界&#xff01;&#x1f680; &#x1f31f;&#x1f9ed; 在这里&#xff0c;我们一起探索技术的奥秘&#xff0c;一起在知识的海洋中遨游。 &#x1f31f;&#x1f9ed; 在这里&#xff0c;每个错误都…

Windows系统下使用docker-compose安装mysql8和mysql5.7

windows环境搭建专栏&#x1f517;点击跳转 win系统环境搭建&#xff08;十四&#xff09;——Windows系统下使用docker安装mysql8和mysql5.7 文章目录 win系统环境搭建&#xff08;十四&#xff09;——Windows系统下使用docker安装mysql8和mysql5.7MySQL81.新建文件夹2.创建…

结构体的使用和结构体指针的定义注意事项

1、使用背景 由于想把不同地方的三个变量数据存放在一个结构体中&#xff0c;并且调用W25QXX_Write((u8*)p,FLASH_SIZE-100,SIZE); //从倒数第100个地址处开始,写入SIZE长度的数据。调用flash写数据函数&#xff0c;其参数为指针地址&#xff0c;于是需要定义一个结构体和指向结…