NLP论文阅读记录 - 2021 | WOS 使用预训练的序列到序列模型进行土耳其语抽象文本摘要

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
    • 2.1 预训练的序列到序列模型
    • 2.2 抽象文本摘要
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Turkish abstractive text summarization using pretrained sequence-to-sequence models(2110)

0、论文摘要

网络上可用文档数量的巨大增加使得查找相关信息变成了一项具有挑战性、乏味且耗时的活动。因此,自动文本摘要已成为一个重要的研究领域,受到了研究人员的极大关注。最近,随着深度学习的进步,使用序列到序列(Seq2Seq)模型的神经抽象文本摘要越来越受欢迎。这些模型有许多改进,例如使用预训练的语言模型(例如 GPT、BERT 和 XLM)和预训练的 Seq2Seq 模型(例如 BART 和 T5)。这些改进解决了神经摘要中的某些缺点,并改进了显着性、流畅性和语义等挑战,从而能够生成更高质量的摘要。不幸的是,这些研究尝试大多局限于英语。最近发布了单语言 BERT 模型和多语言预训练 Seq2Seq 模型,为在土耳其语等资源匮乏的语言中利用此类最先进的模型提供了机会。在本研究中,我们利用预训练的 Seq2Seq 模型,在两个大型土耳其数据集 TR-News 和 MLSum 上获得了最先进的结果,用于文本摘要任务。然后,我们利用数据集中的标题信息,并为两个数据集上的标题生成任务建立硬基线。我们表明,模型的输入对于此类任务的成功非常重要。此外,我们还提供了对模型的广泛分析,包括跨数据集评估、各种文本生成选项以及土耳其语 ROUGE 评估中预处理的效果。结果表明,单语言 BERT 模型在所有数据集的所有任务上都优于多语言 BERT 模型。最后,提供了对生成的摘要和模型标题的定性评估。

一、Introduction

1.1目标问题

随着网络的出现,通过网站、新闻、博客、书籍、科学论文和社交媒体等来源在线提供的文档数量呈指数级增长。与此同时,由于内容重复且不相关,用户越来越难以找到自己感兴趣的信息。此外,理解所有这些来源所需的时间和精力是巨大的。由于人类通过手动理解如此大量的信息是不切实际的,因此需要自动消化和提取所有这些信息的本质。在这方面,文本摘要已成为过去几十年的必然必然和非常热门的研究领域。
文本摘要旨在从长文档中自动生成简洁的文本,能够以流畅且显着的方式描述最重要的信息(Luhn 1958;Edmundson 1969)。自动文本摘要有两种主要方法:抽取式文本摘要(Mihalcea and Tarau 2004;Nallapati, Zhai, and Zhou 2017)和抽象文本摘要(Rush, Chopra, and Weston 2015;See,Liu,and Manning 2017;Zhanget al) .2020)。提取文本摘要通过从输入文本中选择最相关的句子或短语来生成摘要,而不反映任何更改。另一方面,抽象文本摘要是一项更具挑战性的任务,其目的是通过利用复杂的自然语言理解和生成能力来生成类似人类的摘要。
随着深度学习的进步,抽象文本摘要变得更加流行。最近,具有编码器-解码器架构的序列到序列(Seq2Seq)模型占据了该领域的主导地位。编码器-解码器网络的底层组件已从基于 LSTM(Hochreiter 和 Schmidhuber 1997)的模型转变为基于 Transformer(Vaswani 等人,2017)的模型。语言模型预训练(Radford 等人,2018 年;Devlin 等人,2019 年)在众多自然语言处理 (NLP) 任务中取得了最先进的成果,特别是在自然语言理解方面。这些预训练的语言模型也被用于抽象文本摘要(Liu and Lapata 2019)。后来,研究利用 Seq2Seq 模型的预训练(Dong et al. 2019;Song et al. 2019;Rothe, Narayan, and Severyn 2020;Lewis et al. 2020;Raffel et al. 2020)来进一步改进语言生成任务。因此,预训练 Seq2Seq 模型,尤其是在大规模数据集上的预训练,表现得非常好,在神经抽象摘要方面达到了最先进的结果(Zhang et al. 2020;Qiet al. 2020)。
不幸的是,所有这些研究尝试大多仅限于英语。此外,预训练此类模型需要大量数据和计算能力,这些都是限制研究的因素。然而,BERT(Devlin et al. 2019)模型的多语言版本和两个多语言预训练的 Seq2Seq 模型(mT5 Xu et al. 2021 和 mBART Liu et al. 2020)最近已经发布。这为资源匮乏语言的各个研究领域带来了许多可能性。此外,社区已经对许多不同语言的单语 BERT 模型进行了预训练,其中包括 BERTurk (Schweter 2020),一个单语土耳其语 BERT 模型。
土耳其语文本摘要研究主要基于提取方法。很少有研究试图解决土耳其语的抽象概括任务(Scialom et al. 2020;Baykara and Güngör 2022)。这些作品都没有使用预训练的 Seq2Seq 模型,而这些模型已被证明可以达到最先进的英语结果。此外,标题生成也被认为是文本摘要任务,因为主要目标是以标题的形式输出简洁的摘要(Rush et al. 2015)。然而,土耳其语标题生成研究的数量非常有限(Karakoç 和 Yılmaz 2019)。目前有两个大型数据集 TR-News (Baykara and Güngör 2022) 和 MLSum (Scialom et al. 2020) 适合土耳其语抽象文本摘要。在本研究中,我们的目标是利用这些预训练模型在 TR-News 和 MLSum 数据集上执行抽象文本摘要和标题生成任务,并对所获得的结果进行详细分析。

1.2相关的尝试

1.3本文贡献

• RQ1:预训练的序列到序列模型如何执行土耳其语抽象文本摘要和标题生成任务?
• RQ2:在BERT2BERT模型架构上,单语BERT模型是否比多语BERT模型获得更好的结果?
• RQ3:组合具有相似特征的数据集是否可以提高抽象文本摘要和标题生成中的模型性能?
• RQ4:在一个数据集上训练的模型在具有相似特征的其他数据集上表现如何?
• RQ5:标题生成模型的输入对模型性能的影响有多大?

总之,我们的贡献如下:
我们证明,预训练的序列到序列模型在 TRNews 和 MLSum 数据集上达到了最先进的水平,可用于摘要生成和标题生成任务。 • 我们进行了第一项利用两个数据集标题的研究,并为标题生成任务提供全面且强大的基线。 • 我们证明单语言 BERT 模型在 BERT2BERT 架构上优于多语言 BERT 模型。 • 我们观察到,结合两个数据集可以为文本摘要和标题生成任务产生更好的模型。 • 我们对这两项任务进行了跨数据集评估,结果表明,与在 MLSum 上训练的模型相比,在 TR-News 上训练的模型更加稳健。 • 我们测量了为标题生成任务的Seq2Seq 模型提供不同输入(引导句子与摘要)的效率,并证明与引导句子相比,摘要被证明是更好的选择。 • 我们展示了预处理对 ROUGE 计算的影响程度,这对于土耳其语等粘着语言尤其重要。

二.相关工作

2.1 预训练的序列到序列模型

近年来,NLP 中的迁移学习已被证明非常有效,并在多种任务中取得了最先进的结果。预训练语言模型的概念能够通过各种预训练目标学习与任务无关的知识,然后将这些知识转移到下游任务,这种概念在自然语言理解方面特别成功(Radford 等人,2018 年;Devlin 等人,2019 年;Yanget)等2019)。然而,需要自然语言理解和自然语言生成的任务(例如机器翻译和文本摘要)无法从这些预训练的编码器模型中受益,从而导致预训练的序列到序列模型。
Song 等人(2019)提出了 MASS,一种屏蔽的 Seq2Seq 生成模型,当提供剩余部分时,它能够重现句子的部分内容。 UniLM(Dong et al. 2019)对三种类型的语言建模目标进行同步训练:单向、双向和序列到序列。在 BART 中,Lewis 等人(2020)遵循各种去噪目标,首先破坏输入文本,然后使用自动编码器重建它。 T5(Raffel et al. 2020)引入了一种通用的文本到文本框架,能够仅使用文本作为输入和输出来处理各种 NLP 任务,并且在各种监督下进行了预训练以及无监督目标,包括总结。最后,发布了 T5 和 BART 的多语言版本,分别为 mT5 (Xue et al. 2021) 和 mBART (Liu et al. 2020)。

2.2 抽象文本摘要

抽象文本摘要主要被视为序列到序列问题,并且编码器-解码器网络经常用于解决该问题。 Rush 等人(2015)是最早将使用神经网络语言模型(NNLM)的编码器-解码器架构应用于标题生成任务(作为抽象摘要问题的一部分)的研究之一。然后,Chopra、Auli 和 Rush(2016)用循环神经网络(RNN)取代了 NNLM。 Nallapati 等人(2016)介绍了几种新颖的模型,包括具有注意力机制的基于双向 LSTM 的编码器-解码器、具有丰富特征的编码器的模型、切换指针生成器模型以及能够捕获文档结构。此外,将 CNN/每日邮报数据集(Hermann 等人,2015)转换为文本摘要格式也是他们的贡献之一。指针生成器模型得到了增强,允许它从源文档复制单词,并添加了覆盖机制来解决单词重复问题(参见 et al. 2017)。后来,各种强化学习模型被应用于神经抽象概括(Çelikyılmaz et al. 2018;Paulus, Xiong, and Socher 2018)。卷积神经网络 (CNN) 与 XSum 数据集上的主题感知嵌入结合使用,以更好地捕捉文档的主题(Narayan、Cohen 和 Lapata 2018a)。采用预训练语言模型 BERT 作为编码器组件,以提高语言理解能力(Liu 和 Lapata 2019)。
最近,预训练的 Seq2Seq 模型在神经抽象概括方面表现出非常好的性能(Lewis et al. 2020;Raffelet al. 2020)。 PEGASUS(Zhang et al. 2020)专门针对抽象文本摘要任务进行了预训练,并利用从文档中屏蔽整个句子并生成这些间隙句子作为预训练目标。 ProphetNet (Qi et al. 2020) 引入了一种新颖的自我监督目标,称为未来 n-gram 预测和 n-stream 自注意力机制。与优化提前一步预测的传统 Seq2Seq 模型不同,它会提前优化 n 步,在每个时间步根据先前的上下文标记同时预测下一个 n 个标记。

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,我们详细分析了预训练的序列到序列模型在文本摘要和标题生成这两个任务上的性能。 mT5 模型在 TR-News 和 MLSum (TR) 数据集上的两项任务的 ROUGE 分数均达到了最佳结果。单语言 BERTurk 模型也表现出接近 mT5 模型的性能,并产生了更多新颖的摘要。我们为摘要生成任务和土耳其语标题生成任务的数据集建立了强大的基线。对标题生成任务的进一步分析表明,模型的输入对任务的结果影响很大。与提供引导句子作为输入相比,提供新闻文章摘要作为模型的输入显示出更好的 ROUGE 分数。此外,我们通过组合 TR-News 和 MLSum (TR) 创建了一个更大的数据集 (Combined-TR),因为两者具有相似的特性统计数据和内容方面的特点。在组合 TR 上训练的模型在文本摘要和标题生成任务上都显示出性能提升。最后,单语言 BERT 模型在这两项任务上均优于 BERT2BERT 模型架构中的多语言 BERT 模型。在未来的工作中,我们计划使用不同语言(特别是粘着语言)的摘要数据集来扩展这项研究。如果有足够的计算资源,未来可能会从头开始为资源匮乏的语言预训练单语言 Seq2Seq 模型,并将结果与​​多语言预训练的 Seq2Seq 模型进行比较。此外,可以改变预训练目标以考虑此类语言的粘合性质。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/336100.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一文读懂JavaScript DOM节点操作(JavaScript DOM节点操作详解)

一、什么是节点 二、节点类型 1、元素节点 2、属性节点 3、文本节点 4、节点类型、名字、值表格 三、通过文档对象方法获取节点 1、通过id属性获取节点 2、通过标签名字获取节点 3、通过类名获取节点 4、通过name属性获取节点 四、通过层级关系获取节点 1、子节点 …

【Flink-CDC】Flink CDC 介绍和原理概述

【Flink-CDC】Flink CDC 介绍和原理概述 1)基于查询的 CDC 和基于日志的 CDC2)Flink CDC3)Flink CDC原理简述4)基于 Flink SQL CDC 的数据同步方案实践4.1.案例 1 : Flink SQL CDC JDBC Connector4.2.案例 2 : CDC Streaming ETL…

从 Context 看 Go 设计模式:接口、封装和并发控制

文章目录 Context 的基本结构Context 的实现和传递机制为什么 Context 不直接传递指针案例:DataStore结论 在 Go 语言中, context 包是并发编程的核心,用于传递取消信号和请求范围的值。但其传值机制,特别是为什么不通过指针传递…

【大数据分析与挖掘技术】概述

目录 一、数据挖掘简介 (一)数据挖掘对象 (二)数据挖掘流程 (三)数据挖掘的分析方法 (四)经典算法 二、Mahout (一)Mahout简介 (二&#…

CVE-2023-46226 Apache iotdb远程代码执行漏洞

项目介绍 Apache IoTDB 是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,完美对接 Hadoop 与 Spark 生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。 项目地址 https://io…

【INTEL(ALTERA)】F-tile 参考时钟和系统 PLL 时钟英特尔® FPGA IP无法锁定在特定频率?

说明 由于在英特尔 Quartus Prime Pro Edition 软件 22.2 及更早版本中存在一个问题,您可能会观察到 F-tile 参考时钟和系统 PLL 时钟英特尔 FPGA IP无法锁定: 999.9 MHz,参考时钟频率设置为 323.2 MHz。506.88 MHz,参考时钟频率…

Windows系统使用手册

点击前往查看🔗我的博客文章目录 Windows系统使用手册 文章目录 Windows系统使用手册Windows10解决大小核调度问题Windows系统安装软件Windows系统Typora快捷键Windows系统压缩包方式安装redisWindows安装dockerWindows系统的docker设置阿里源Windows系统下使用doc…

Ubuntu系统pycharm以及annaconda的安装配置笔记以及问题集锦(更新中)

Ubuntu 22.04系统pycharm以及annaconda的安装配置笔记以及问题集锦 pycharm安装 安装完之后桌面上并没有生成图标 后面每次启动pycharm都要到它的安装路径下的bin文件夹下, cd Downloads/pycharm-2018.1.4/bin然后使用sh命令启动脚本程序来打开pycharm sh pycha…

01 MyBatisPlus快速入门

1. MyBatis-Plus快速入门 版本 3.5.31并非另起炉灶 , 而是MyBatis的增强 , 使用之前依然要导入MyBatis的依赖 , 且之前MyBatis的所有功能依然可以使用.局限性是仅限于单表操作, 对于多表仍需要手写 项目结构: 先导入依赖,比之前多了一个mybatis-plus…

动态规划汇总

作者推荐 视频算法专题 简介 动态规划(Dynamic Programming,DP)是运筹学的一个分支,是求解决策过程最优化的过程。每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的&#x…

《WebKit 技术内幕》之五(2): HTML解释器和DOM 模型

2.HTML 解释器 2.1 解释过程 HTML 解释器的工作就是将网络或者本地磁盘获取的 HTML 网页和资源从字节流解释成 DOM 树结构。 这一过程中,WebKit 内部对网页内容在各个阶段的结构表示。 WebKit 中这一过程如下:首先是字节流,经过解码之…

力扣每日一练(24-1-20)

大脑里的第一想法是排列组合,直接给出超级准确的最优解。 但不适用,hhh 只要连续的n个元素大于或者等于target就可以了 题目比自己想象的要好解决 解法是使用滑动窗口算法。这个算法的基本思想是维护一个窗口,使得窗口内的元素总和大于等于目…

消除游戏(寒假每日一题+模拟、优化)

题目 在一个字符串 S 中,如果 SiSi−1 且 Si≠Si1,则称 Si和 Si1 为边缘字符。 如果 Si≠Si−1 且 SiSi1,则 Si−1 和 Si 也称为边缘字符。 其它的字符都不是边缘字符。 对于一个给定的串 S,一次操作可以一次性删除该串中的所…

【c++笔记】用c++解决一系列质数问题!

质数是c语言和c中比较常见的数学问题,本篇文章将带你走进有关质数的一系列基础问题,其中包含常见的思路总结,本篇文章过后,将会持续更新c算法系列,感兴趣的话麻烦点个关注吧! 希望能给您带来帮助&#xff…

STM32标准库开发—MPU6050详细介绍

MPU6050简介 3轴IMU即只有3轴陀螺仪的IMU,其因为只有一个3轴陀螺仪,所以只能感知载体roll(滚转)、pitch(俯仰)、yawl(偏航)共3个自由度的姿态信息。 6轴IMU在3轴IMU的基础上加装了3轴…

【Python学习】Python学习21- 正则表达式(2)

目录 【Python学习】Python学习21- 正则表达式(2) 前言字符串检索和替换repl 参数是一个函数参考 文章所属专区 Python学习 前言 本章节主要说明Python的正则表达式。 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与…

嵌入式学习-网络编程-Day6

嵌入式学习-网络编程-Day6 一、思维导图 二、作业 1.基于UDP的网络聊天室(2024.1.21号前上交) 项目需求: 1.如果有用户登录,其他用户可以收到这个人的登录信息 2.如果有人发送信息,其他用户可以收到这个人的群聊信…

认识并使用Shiro技术

认识并使用Shiro 一、对Shiro的基本认知1、Shiro是什么?2、Shiro的核心组件是?2.1 Subject2.2 UsernamePasswordToken2.3 Realm(重点是:AuthorizingRealm用于授权、AuthenticatingRealm用于认证)2.4 SecurityManager2.…

C#操作pdf之使用itext实现01-生成一个简单的table

创建.net 8控制台项目 安装itext <PackageReference Include"itext" Version"8.0.2" /><PackageReference Include"itext.bouncy-castle-adapter" Version"8.0.2" /><PackageReference Include"itext.bouncy-cast…

LabVIEW电能质量监测系统

系统利用LabVIEW开发一个基于LabVIEW的电能质量监测系统&#xff0c;模拟并监测暂态电能质量扰动&#xff0c;如电压骤升、电压骤降、电压波动和暂态振荡等。系统的硬件部分包括高精度的振动传感器和信号调节设备&#xff0c;以及型号为NI9234的数据采集卡和高性能计算机。这些…