NLP论文阅读记录 - 2021 | WOS HG-News:基于生成式预训练模型的新闻标题生成

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

HG-News: News Headline Generation Based on a Generative Pre-Training Model(2108)

0、论文摘要

自从神经网络方法应用于文本摘要以来,神经标题生成模型最近取得了很好的成果。在本文中,我们关注新闻标题的生成。我们提出了一种基于生成预训练模型的新闻标题生成模型。在我们的模型中,我们提出了一个丰富的特征输入模块。我们提出的标题生成模型仅包含结合了指针机制和n-gram语言特征的解码器,而其他生成模型则使用编码器-解码器架构。对新闻数据集的实验表明,我们的模型在新闻标题生成领域取得了可比的结果。

一、Introduction

1.1目标问题

文本摘要的目的是浓缩文档,同时浓缩的内容保留原始文档的核心含义。文本摘要方法包括抽取式摘要和抽象式摘要。标题生成是一个抽象摘要子任务,也称为句子摘要。为了生成压缩长文本或短文本信息的标题,我们需要对标题生成进行研究。
我们专注于神经标题生成(NHG)的任务。人工神经网络用于解决文本生成任务。使用神经网络的方法在标题生成任务上显示出了有希望的结果,该任务使用端到端模型对源文档进行编码,然后将其解码为新闻标题。之前的大部分工作都涉及单个文档摘要,而本文仅涉及标题生成。神经标题生成的开创性工作是[1],它使用编码器-解码器框架来生成句子级摘要。随着循环神经网络(RNN)[2]的发展,[3]采用了注意力编码器-解码器模型来进行句子摘要。
为了更好地表示语义,提出了转换器[4]。然后,使用变压器进行抽象摘要[5],但与注意力序列到序列模型相比,结果没有改善。 OpenAI 证明,当在新数据集上进行训练时,语言模型开始在没有任何显式监督的情况下学习自然语言处理任务。 OpenAI提出的模型称为GPT-2[6]。 Rothe 开发了一种基于 Transformer 的序列到序列模型,其中包含用于序列生成任务 [9] 的预训练 BERT [7]、GPT-2 和 RoBERTa [8] 检查点。为了证明 GPT-2 对于标题生成任务的有效性,我们没有利用预训练模型的检查点,而只是使用 GPT-2 模型的结构。由于大多数文本摘要数据集都是用英语编写的,[10]提出了一个大规模的短文本摘要数据集。目前,整个摘要生成模型使用编码器-解码器架构来生成摘要。我们将尝试仅使用解码器来解决标题生成任务。在本文中,我们对新闻数据集进行了实验。我们仅使用解码器模型和指针机制来完成标题生成任务,并将 n-gram 语言信息合并到解码器中。在我们的模型中,我们提出了一个丰富的特征输入模块。此外,我们将基于注意力序列的实验结果与我们的模型进行了比较。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:

二.相关工作

神经标题生成将任务概念化为序列到序列问题或编码解码问题。编码器将源单词序列映射到分布式表示,并且解码器在给定源序列的分布式表示和先前生成的目标单词的情况下逐字生成目标标题。
第一个将神经网络应用于文本摘要的工作是[1]。基于注意力的文本摘要模型 [1] 通过循环神经网络 [3] 得到增强。 [14]的工作还采用了注意力序列到序列架构。 [14]中使用的编码器是双向GRU-RNN [15],它融合了词性、名称实体和TF-IDF的特征,解码器是单向GRU-RNN [15]。为了解决词汇外问题,他们还提出了切换生成器指针模型。胡等人。 [10]提出了一个大规模短文本摘要数据集,并利用注意力序列到序列模型在该数据集上进行了实验,但实验结果并不好。为了解决不准确和重复生成事实细节的问题,[13]提出使用指针生成器网络[16]和覆盖机制来解决这些问题。为了产生流畅的摘要,[5]建议使用内容选择器来确定源文档的哪一部分应包含在摘要中。他们使用双向长短期记忆(BiLSTM)[17]和变压器作为编码器和解码器进行了实验。 [18]的工作将抽象方法与提取方法结合起来,并使用强化学习方法来桥接这两种方法之间的不可微计算。 [19]首先使用强化学习选择显着句子,然后将所选句子重写为摘要。 [20]的方法使用卷积序列到序列模型和抽象摘要,取得了抽象摘要领域最先进的结果。
最近,新闻标题生成领域有很多研究[21]-[27]。论文[21]提出了一种尼泊尔新闻标题生成方法。在模型中,他们使用 GRU 作为编码器和解码器。但他们使用蓝色分数作为评价标准。 Alexey 和 Ilya 针对俄罗斯新闻标题生成任务微调了两个基于 Transformer 的预训练模型 [22]。在[23]中,他们提出了一种基于 RNN 的孟加拉新闻标题生成模型。论文[24]提出了多标题生成模型,并提出了多源Transformer解码器。论文[25]实现了一个基于LSTM的缅甸新闻标题生成模型。在论文[26]中,他们提出了一种模型 Transformer(XL)-CC 来生成标题,并在 NYT 数据集和中文 LSCC 新闻数据集上进行了实验。吴等人。 [27]在新闻推荐数据集上提出了NewsBERT模型。 [11] 展示了预训练 bert 模型如何在文本中有效应用
总结。上面讨论的所有标题生成模型都采用传统的编码器-解码器架构,而我们的模型尝试仅使用解码器。仅带有解码器的生成模型可以达到与编码器-解码器模型相当的结果。我们在英文数据集和中文数据集上进行了实验。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

我们在本文中提出了一种新闻标题生成模型。生成模型不再是具有编码器-解码器结构的框架。我们的一代模型只有解码器。我们模型中的注意力机制是多头注意力,它可以获得输入标记的语义表示并获得输入标记上的注意力分布。在我们的新闻标题生成模型中,有一个丰富的特征输入模块,它将情感特征和词性特征合并到我们的模型中。我们还提出了一种指针生成模型来解决短文本生成任务中的词汇外问题。我们还将 n-gram 语言特征合并到隐藏状态中。在编码器解码器模型中生成新单词时,目标单词的最后一个标记仅关注源标记。在仅具有解码器的模型中,目标词的当前标记不仅关注源标记,而且还关注生成的标记。我们模型中的解码过程就像人类阅读过程一样,这使得我们的模型有效。在新闻标题生成数据集上的实验结果表明,我们提出的模型取得了可比较的结果。然而,新闻标题生成任务也存在一些问题;例如,无法完全避免词汇外问题,模型生成的单词有时不正确。未来,我们将提高特征表示能力和单词生成的准确概率。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/323421.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

特征工程-特征处理(二)

特征处理 二、时间特征处理 将原本的具体时间拆分为年月日等多个特征变量,同时可以引入在一天的某个时间段,或者是当天是否为节假日等其他条件,还可以进一步结合其他特征,进行前后一个时间段或是多个时间段时间的特征差值。 dt.…

初学者学习质量管理应怎样做?

建议有时间可以去学习下PMP的课程,里面包含质量管理,且是系统性的知识体系,都用得到的。 分享下质量管理七大工具,也是很好用的工具,可以学习下: 1. 因果图(鱼骨图) 因果图又称鱼骨图、石川图。它将问题…

如何在 SwiftUI 中使用 AccessibilityCustomContentKey 修饰符

文章目录 前言创建 User 结构体添加辅助修饰符使用新的修饰符使用修饰符来替换和覆盖数据可运行代码总结 前言 SwiftUI 3 发布了许多新的辅助功能 API,我们可以利用这些 API 以轻松的方式显著提高用户体验。本篇文章来聊聊另一个新的 API,我们可以使用 …

测试工程师必会能力之缺陷分析入门

缺陷分析也是测试工程师需要掌握的一个能力,但是很多时候大家只记得要提交缺陷、统计缺陷情况,而忽视了缺陷分析。 其实每个项目的缺陷记录都是有很大价值的: 在测试阶段分析当前缺陷情况,及时发现存在的问题并调整测试策略&…

2020年财政收支

偶感兴趣,花了点时间整理 有兴趣的可以参照下面的链接整理完整2022年的数据,2023年的数据还有12月份的数据未出,估计在这几天出。 附 2022年的财政收支情况 2022年基金支出预算表 2020年的社保收入是7.6万亿。 上图个税金额写错了&#xff0c…

软件测试|使用matplotlib绘制多种折线图

简介 在数据可视化领域,Matplotlib是一款非常强大的Python库,它可以用于绘制各种类型的图表,包括折线图。本文将介绍如何使用Matplotlib创建多种不同类型的折线图,并提供示例代码。 创建模版 在绘图之前,我们可以先…

9 微信小程序

拍卖功能 9 拍卖今日概要今日详细1.celery1.1 环境的搭建1.2 快速使用1.3 django中应用celery1.4 celery定时执行1.5 周期性定时任务 2.拍卖业务2.1 表结构2.2 数据初始化2.3 接口 9 拍卖 各位小伙伴想要博客相关资料的话关注公众号:chuanyeTry即可领取相关资料&…

二叉树简介

二叉树 二叉树是每个节点最多有两个子树的树结构,通常子树被称作“左子树”和“右子树”。 二叉树的遍历 二叉树的遍历主要有三种方式:前序遍历、中序遍历和后序遍历。 前序遍历:访问根节点 --> 遍历左子树 --> 遍历右子树中序遍历&…

基于AI视频智能分析技术的周界安全防范方案

一、背景分析 随着科技的不断进步,AI视频智能检测技术已经成为周界安全防范的一种重要手段。A智能分析网关V4基于深度学习和计算机视觉技术,可以通过多种AI周界防范算法,实时、精准地监测人员入侵行为,及时发现异常情况并发出警报…

SeaTunnel 海量数据同步工具的使用(连载中……)

一、概述 SeaTunnel 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,前身是 WaterDrop (中文名:水滴),自 2021年10月12日更名为 SeaTunnel 。2021年12月9日,SeaTunnel 正式…

数字化和信息化概念

数字化和信息化,是两个不同的概念,它们各自有着特定的含义和应用场景。 1、数字化 数字化指的是将物理实体、过程或数据转化为数字形式的过程。这一过程中可能包括将纸质文档转化为电子文件、模拟信号转换成数字信号,或者是将实物产品转变…

RT-Thread: eeprom存储芯片 at24cxx软件包使用流程

说明:介绍 i2c 通讯接口的 eeprom at24cxx 读写测、试代码,代码基于 at24cxx 软件包实现。 使用步骤: * 1:在 RT-Thread Settings 中开启 【软件模拟I2C】 * 2:在 RT-Thread Settings 软件包中搜索 at24cxx 添加软件…

深入理解零拷贝技术

注意事项:除了 Direct I/O,与磁盘相关的文件读写操作都有使用到 page cache 技术。 粉丝福利, 免费领取C/C 开发学习资料包、技术视频/代码,1000道大厂面试题,内容包括(C基础,网络编程&#xff…

浅讲人工智能,初识人工智能几个重要领域。

🏆作者简介,普修罗双战士,一直追求不断学习和成长,在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验,历任核心研发工程师,项目技术负责人。 🎉欢迎 👍点赞✍评论…

PTA-7-4 堆排序

代码如下: #include<iostream> using namespace std; void change(int arr[], int n, int i); int main() {int n,i,end,arr[1000];cin >> n;for (i 0; i < n; i){cin >> arr[i];}//进行一次排序,把最大值放到顶端for (i n/2-1; i > 0; i--){change…

Linux 下GEO Server发布图层后,中文乱码解决方案

发布的图层&#xff0c;显示中文乱码&#xff0c;都是框框&#xff1a;如“口口” 第一步先查看Linux字符集 如下命令所示&#xff1a; 1.查看当前系统语言 echo $LANG2.查看安装的语言包 locale如果上面的命令执行后显示的是en_US.UTF-8&#xff0c;则说明当前语言系统及安…

汇编语言与接口技术实验报告——单总线温度采集

一、 实验要求 实验目的&#xff1a; 掌握数码管的使用方式掌握DS18B20温度传感器的工作原理掌握单总线通信方式实现MCU与DS18B20数据传输 实验内容&#xff1a; 学习DS18B20温度传感器的单总线传输机制&#xff0c;通过单片机MCU的I/O实现温度采集&#xff0c;并将数据显示在…

Ubuntu配置NFS客户端和服务端详解——手把手配置

Ubuntu配置NFS客户端和服务端 如果您想实现远程访问并修改 ROS 主机中 Ubuntu 上的文件&#xff0c;可以通过 NFS挂载的方式。虚拟机上的 Ubuntu 系统可以通过 NFS 的方式来访问 ROS 主机中Ubuntu 系统的文件&#xff0c;NFS 分为服务器挂载和客户端访问。这里虚拟机上的 Ubun…

KubeSphere 在 vsleem 的落地实践

作者&#xff1a;方忠&#xff0c;苏州威视通智能科技有限公司技术经理&#xff0c;开源技术爱好者&#xff0c;长期活跃于 dromara 开源社区并参与贡献。 公司介绍 公司简介 苏州威视通智能科技有限公司&#xff0c;是一家全球领先的全景 AI 平台提供商&#xff0c;结合极致…

界面控件DevExpress WPF属性网格 - 让应用轻松显示编辑各种属性事件

DevExpress WPF Property Grid&#xff08;属性网格&#xff09;灵感来自于Visual Studio&#xff0c;Visual Studio启发的属性窗口(对象检查器)让在WPF应用程序显示和编辑任何对象的属性和事件变得更容易&#xff01; P.S&#xff1a;DevExpress WPF拥有120个控件和库&#x…