文章目录
- 前言
- 0、论文摘要
- 一、Introduction
- 1.1目标问题
- 1.2相关的尝试
- 1.3本文贡献
- 二.前提
- 三.本文方法
- 四 实验效果
- 4.1数据集
- 4.2 对比模型
- 4.3实施细节
- 4.4评估指标
- 4.5 实验结果
- 4.6 细粒度分析
- 五 总结
- 思考
前言
MAPGN: MASKED POINTER-GENERATOR NETWORK FOR SEQUENCE-TO-SEQUENCE PRE-TRAINING(21)
0、论文摘要
本文提出了一种指针生成器网络的自监督学习方法,以改进口语文本规范化。将口语风格文本转换为风格规范化文本的口语文本规范化正在成为改进机器翻译和摘要等后续处理的重要技术。
迄今为止最成功的口语文本规范化方法是使用指针生成器网络进行序列到序列 (seq2seq) 映射,该网络拥有来自输入序列的复制机制。然而,这些模型需要大量的口语风格文本和风格标准化文本的配对数据,并且很难准备如此大量的数据。
为了从有限的配对数据构建口语文本标准化模型,我们专注于自监督学习,它可以利用不配对的文本数据来改进 seq2seq 模型。不幸的是,传统的自监督学习方法并不假设使用指针生成器网络。
因此,我们提出了一种新颖的自监督学习方法,MAsked Pointer-Generator Network (MAPGN)。所提出的方法可以通过学习使用复制机制填充屏蔽令牌来有效地预训练指针生成器网络。
我们的实验表明,在两个口语文本规范化任务中,MAPGN 对于指针生成器网络比传统的自监督学习方法更有效。
一、Introduction
1.1目标问题
随着智能扬声器 [1, 2] 和自动听写系统 [3, 4] 等各种自动语音识别 (ASR) 应用的兴起,准确处理口语文本(即来自语音的转录文本)变得越来越重要。口头言语。由于 ASR 系统以字面方式将语音转换为文本,因此口语风格文本通常包含不流畅的内容,例如冗余表达和各种少数民族口语表达(例如方言)。口语风格文本会对后续的自然语言处理(例如机器翻译、摘要)产生不利影响,因为这些技术通常是为了处理书面风格文本而开发的,书面风格文本是具有大多数表达方式的文本,并且没有不流畅或冗余的表达。因此,需要将口语风格文本(包括不流利和方言)转换为风格规范化文本(排除不流利和方言)。在本文中,我们的目标是改进口语文本规范化。
1.2相关的尝试
口语文本标准化任务被视为单语言翻译[5],被视为从文本到文本的序列到序列(seq2seq)映射。在最近的研究中,完全基于神经网络的 seq2seq 模型 [6] 在各种单语翻译任务中表现出了有效的性能,例如摘要 [7,8]、释义生成 [9,10] 和不流畅检测 [11,12]。特别是,基于指针生成器网络的 seq2seq 模型 [13]最近被利用[14,15]。指针生成器网络对于单语翻译任务非常有效,因为它们包含复制机制,可以从源文本中复制标记以帮助生成不常见的标记。据报道,在口语文本规范化任务中,指针生成器网络的性能优于基于注意力的编码器-解码器网络[16]。
为了构建用于口语文本标准化的 seq2seq 模型,需要大量口语风格文本和风格标准化文本的配对数据。然而,为了制作这些配对数据,我们需要准备口语的手动转录,并且这些转录的文本样式需要手动标准化。因此,制作大量配对数据既昂贵又耗时。为了缓解这个问题,我们使用近年来受到广泛关注的自我监督学习。自监督学习是无监督学习的一种形式,其中未配对的数据仅用于设计监督训练设置。在自然语言处理中,自监督学习在自然语言生成和自然语言理解方面一直在进步[17-19]。不幸的是,seq2seq 模型的传统自监督学习方法并不假设使用指针生成器网络 [20-22]。实际上,传统方法对于指针生成器网络来说是不够的,因为它们无法学习显式地从源文本中复制标记。
1.3本文贡献
在本文中,我们提出了一种新颖的指针生成器网络自监督学习方法。所提出的方法 MAsked 指针生成器网络(MAPGN)是 MAsked 序列到序列预训练(MASS)[20]的扩展。 MASS 通过以屏蔽序列作为输入来预测屏蔽标记来预训练 seq2seq 模型。在合约中,MAPGN 可以通过学习选择是否复制或生成带有掩码代币的代币来有效地预训练复制机制。我们的实验表明,所提出的方法对于两个口语文本规范化任务、方言转换任务和口语到书面风格转换任务中配对数据较少的指针生成器网络是有效的。
总之,我们的贡献如下:
二.前提
三.本文方法
四 实验效果
4.1数据集
4.2 对比模型
4.3实施细节
4.4评估指标
4.5 实验结果
4.6 细粒度分析
五 总结
本文提出了 MAsked Pointer-Generator Network (MAPGN),一种指针生成器网络的自监督学习方法。虽然传统的自监督学习方法不支持在指针生成器网络中显式训练复制机制,但所提出的方法可以通过学习选择是复制还是生成针对掩码跨度的令牌来有效地训练复制机制。实验表明,MAPGN 在两个口语文本标准化任务中优于传统方法,并且在配对训练数据量较小和 OOD 任务中特别有效。我们得出的结论是,MAPGN 适用于预训练指针生成器网络,并且在配对数据集有限时有效。