NLP论文阅读记录 - 2022 W0S | 基于Longformer和Transformer的提取摘要层次表示模型

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

A Hierarchical Representation Model Based on Longformer and Transformer for Extractive Summarization(22)

0、论文摘要

自动文本摘要是一种在保留原文主要思想的同时对文档进行压缩的方法,包括抽取式摘要和抽象式摘要。提取文本摘要从原始文档中提取重要句子作为摘要。文档表示方法对于生成摘要的质量至关重要。为了有效地表示文档,我们提出了一种用于提取摘要的分层文档表示模型 Long-Trans-Extr,该模型使用 Longformer 作为句子编码器,使用 Transformer 作为文档编码器。 Longformer 作为句子编码器的优点是,该模型可以输入多达 4096 个 token 的长文档,并增加相对少量的计算。所提出的模型 Long-Trans-Extr 在三个基准数据集上进行评估:CNN(有线电视新闻网)、DailyMail 以及 CNN/DailyMail 组合。它在 CNN/DailyMail 上达到 43.78 (Rouge-1) 和 39.71 (Rouge-L),在 CNN 数据集上达到 33.75 (Rouge-1)、13.11 (Rouge-2) 和 30.44 (Rouge-L)。它们是非常有竞争力的结果,此外,它们表明我们的模型在长文档(例如 CNN 语料库)上具有更好的性能。

一、Introduction

1.1目标问题

自1958年Luhn[1]开始自动文摘研究以来,该领域取得了巨大的成就。文本摘要可以分为两类:即抽象摘要和提取摘要。抽象摘要[2]在理解原文语义的基础上提炼其思想和概念,实现语义重构。尽管更类似于人类的逻辑,但由于自然语言生成技术的限制,抽象摘要仍然面临着对原文进行连贯、语法和概括的摘要的巨大挑战。提取式摘要方法从文档中提取关键句子以生成摘要。首先对输入文档进行编码,然后计算文档中句子的分数。根据得分对句子进行排序,选择得分高的句子形成摘要。

1.2相关的尝试

1.3本文贡献

这项研究的重点是提取摘要,因为它不仅可以在新闻文章中生成语义和语法正确的句子,而且计算速度比抽象摘要更快。目前,生成式摘要方法和提取式摘要方法在处理长文本时都存在一些困难,这是由编码器网络的计算复杂性造成的。最近的研究表明,Transformer [3] 在自然语言处理领域无论是实验结果还是计算复杂度都优于 LSTM [4]。然而,即使具有并行计算能力的Transformer也无法处理长文本,导致文本摘要方法仅限于短文本。对于长文本,通常有两种处理方法:(1)直接丢弃超出的部分。这种方法实现起来比较简单,但是对最终总结的质量影响很大。 (2) 将长文本分为几个较短的文本跨度并一一处理它们。这种处理的结果是,不同的文本跨度无法相互交互,因此,大量信息不可避免地丢失。当然,还可以添加其他机制来增强文本跨度之间的交互,但这些新机制实现起来很复杂,通常是特定于任务的,并且不通用。

总之,我们的贡献如下:
(1)本研究提出了分层文档表示方法,采用Longformer作为句子编码器,Transformer作为文档编码器对输入文本进行编码。与 CNN(卷积神经网络)或 LSTM(长短期记忆)作为编码器不同[5-7],由于采用 Longformer 作为句子编码器,该模型可以处理长文档,最多 4096 个标记,并且使得直接对长文本进行编码成为可能。
(2)编码器同时采用全局注意力和局部注意力[8],这不仅保证了关键令牌不丢失全局信息,而且降低了计算复杂度。
(3)所提出的分层模型在CNN/DailyMail数据集[10]上实现了最好的Rouge-1和Rouge-L[9],并且实现了最先进的Rouge-1、Rouge2和Rouge-L在长文本数据集 CNN 上。最好的 Rouge-1 和 Rouge-L 是在短文本数据集 DailyMail 上实现的。实验结果表明,Longformer 作为句子编码器,在长文档上具有良好的性能。

二.相关工作

自动文本摘要包括抽象摘要和提取摘要。近年来,深度学习技术为文摘研究提供了新的思路。在相关文献中,Cho 等人。 [11] 和 Sutskever 等人。 [12]提出了广泛研究的序列到序列(seq2seq)模型,该模型由编码器和解码器组成。其基本思想是利用输入序列的全局信息来推断相应的输出序列。拉什等人。 [13]首先将上述模型应用于文本摘要任务。
在提取摘要中,一个重要的问题是如何从原始文档中提取重要的句子。一些研究基于统计方法[14,15]。随着深度神经网络在自然语言处理中的成功,抽取式摘要取得了比传统机器学习更好的效果。基于神经网络的提取摘要模型的核心是编码器-解码器结构。对于编码器,采用CNN、RNN(循环神经网络)和LSTM来捕获文档的上下文信息[16-18]。然而,使用上述模型,通常很难捕获长距离依赖关系,特别是在长文档的情况下。随着BERT的成功,变压器被发现可以有效地捕获输入的序列信息。 Liu和Lapata [19]提出了一种基于BERT的句子级编码器,它能够对文档进行编码并获得其句子的表示。然后,他们使用 Transformer 对这些句子表示进行编码。张等人。 [20]提出了用于文档编码的HIerachical BERT(HIBERT),并使用未标记的数据对其进行了预训练。首先,他们将未标记数据的 HIBERT 应用于句子预测任务,然后对句子进行分类。王等人。 [21]提出了基于GNN(图神经网络)的HSG,添加细粒度语义节点来辅助句子提取。对于解码器,通常使用多层感知器(MLP)或LSTM来输出句子的分数。
由于神经网络的复杂性,上述方法在处理长文档时存在困难。为了降低复杂性,研究人员提出了不同的方法:Wu 和 Hu [22] 以及 Al-Sabahi 等人。 [16]限制文档的最大句子长度和句子数量;钟等人。 [23] 和纳拉扬等人。 [17]分别截取文档的前512个和600个单词作为输入。张等人。 [20]限制句子的长度并将长文档分成短文档。让模型拥有更长的输入序列最直接有效的方法就是降低复杂度网络的。研究人员已经进行了一些研究[24,25]。贝尔塔吉等人。 [8]提出了Longformer网络。 Longformer从Transformer的注意力机制出发,改进了三种注意力模式,以降低网络的复杂度:(1)滑动窗口注意力; (2)扩大窗口注意力; (3)滑动窗口注意力+全局注意力。作者在问答系统、共指分析等任务上的实验表明,“局部注意力+全局注意力”模型可以在降低计算复杂度的前提下取得良好的性能。与 Transformer 相比,Longformer 的计算复杂度从 O(n2) 降低到 O(n),其中 n 是输入序列的长度。受上述工作的启发,本文采用 Longformer 在提取摘要模型中对文本进行编码,以接受更长的文本输入

三.本文方法

四 实验效果

4.1数据集

介绍了CNN

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本研究中,我们提出了一种 Long-Trans-Extr 提取摘要模型,该模型使用 Longformer 作为句子编码器,Transformer 作为文档编码器,最后使用 MLP 分类器来决定是否应该提取文档中的句子或不是。该模型解决了以往模型难以处理长文档的问题。它使句子表示和文档表示能够注意到更长的文本信息,而无需增加太多的计算和内存。实验结果表明,在相同的解码器条件下,我们的模型在 CNN/DailyMail 数据集上优于其他模型,并且在长 CNN 数据集上取得了最好的结果。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/320026.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙应用开发尝鲜:初识HarmonyOS

初识HarmonyOS 来源:华为官方网站 : https://developer.huawei.com/ 相信大家对鸿蒙应用开发也不在陌生,很多身处互联网行业或者不了解的人们现在也一定都听说过华为鸿蒙.这里我将不再说废话,直接步入正题 鸿蒙应用开发语言 HarmonyOS应用开发采用的是ArkTS语言,ArkTS是在Typ…

WEB前端人机交互导论实验-实训2格式化文本、段落与列表

1.项目1 文本与段落标记的应用&#xff1a; A.题目要求: B.思路&#xff1a; &#xff08;1&#xff09;首先&#xff0c;HTML文档的基本结构是通过<html>...</html>标签包围的&#xff0c;包含了头部信息和页面主体内容。 &#xff08;2&#xff09;在头部信息…

深度学习中的稀疏注意力

稀疏注意力 文章目录 一、稀疏注意力的特点 1. 单头注意力&#xff08;Single-Head Attention&#xff09; 2. 多头注意力&#xff08;Multi-Head Attention&#xff09; 3. 稀疏注意力&#xff08;Sparse Attention&#xff09; 二、稀疏注意力的示意图 三、与Flash Attention…

HTML--CSS--字体、文本样式

字体样式 属性作用font-family字体类型font-size字体大小font-weight字体粗细font-style字体风格color字体颜色 font-family 字体类型 用法&#xff1a; 如下&#xff0c;定义 div元素内的字体&#xff0c;默认是宋体&#xff0c;要设定其他字体就用这个属性进行设定&#x…

汽车ECU的虚拟化技术初探(四)--U2A内存管理

目录 1.内存管理概述 2. 内存保护功能 2.1 SPID 2.2 Slave Guard 3.小结 1.内存管理概述 为了讲清楚U2A 在各种运行模式、特权模式下的区别&#xff0c;其实首先应该搞清楚不同模式下可以操作的寄存器有哪些。 但是看到这个寄存器模型就头大。 再加上之前没有研究过G4MH…

CSS 雷达监测效果

<template><view class="center"><view class="loader"><view></view></view></view></template><script></script><style>/* 设置整个页面的背景颜色为深灰色 */body {background-col…

[NSSCTF Round#16 Basic]RCE但是没有完全RCE

[NSSCTF Round#16 Basic]RCE但是没有完全RCE 第一关 <?php error_reporting(0); highlight_file(__file__); include(level2.php); if (isset($_GET[md5_1]) && isset($_GET[md5_2])) {if ((string)$_GET[md5_1] ! (string)$_GET[md5_2] && md5($_GET[md…

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

前言 Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中&#xff0c;无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中&#xff0c;与Civitai和Huggingface的文生图模型兼容&#xff0c;也可…

docker部署私人云盘

目录 1.安装 2.登陆 1.安装 mkdir -p /opt/alist docker run -d --restartalways -v /opt/alist:/opt/alist/data -p 5244:5244 --name"alist" xhofe/alist:latest 2.登陆 ip:5224 默认账户admin 密码在日志中

逆水行舟 不进则退

目录 一、前言 二、2023年度总结 三、2024展望未来 一、前言 这是我从工作以来到现在最喜欢的一句话&#xff0c;我想把这句话送给自己也想送给大家。 2019年7月实习到现在已经过去了四年多&#xff0c;进入2024年也迎来了我工作生涯的第五个年头。 在这个行业里&#xff…

《教育界》期刊怎么投稿发表论文?

《教育界》是国家新闻出版总署批准的正规教育类期刊&#xff0c;由广西师范大学主管&#xff0c;广西师范大学出版社集团有限公司主办&#xff0c;面向国内外公开发行&#xff0c;旨在追踪教育新动向&#xff0c;探讨教育改革与管理、办学与教育教学经验等&#xff0c;为广大一…

Linux scp命令 服务器之间通讯

目录 一. scp命令简介二. 本地服务器文件传输到远程服务器三. 本地服务器文件夹传输到远程服务器 一. scp命令简介 scp&#xff08;Secure Copy Protocol&#xff09;是用于在Unix或Linux系统之间安全地复制文件或目录的命令。 它使用SSH&#xff08;Secure Shell&#xff09;…

等保测评流程是什么样的?测评周期多久?

等保测评流程是什么样的&#xff1f;测评周期多久&#xff1f; 等保测评一般分成五个阶段&#xff0c;定级、备案、测评、整改、监督检查。 1.定级阶段 针对用户的信息系统有等保专家进行定级&#xff0c;一般常见的系统就是三级系统或者是二级系统。在这里有一个小的区分&am…

【ArcGIS微课1000例】0088:计算城市建筑物朝向(矩形角度)

文章目录 一、实验描述二、实验数据三、角度计算1. 添加字段2. 计算角度四、方向计算一、实验描述 矩形要素具有长轴和短轴,其长轴方向也称为矩形面的主角度,可用于确定面要素的走向趋势。根据该方向参数,可以对具有矩形特征的地理对象进行方向分析,且适用于很多应用场景,…

8.1 Centos安装部署Redis

文章目录 前言一、下载Redis二、编译Redis三、配置redis.conf四、启动Redis服务端五、启动Redis客户端测试前言 本文将手把手演示在CentOS7上安装部署Redis。 一、下载Redis 可以使用wget命令进行下载,这里下载到/app目录 wget http://download.redis.io/releases/redis-5.…

Python爬虫学习笔记(一)---Python入门

一、pycharm的安装及使用二、python的基础使用1、字符串连接2、单双引号转义3、换行4、三引号跨行字符串5、命名规则6、注释7、 优先级not>and>or8、列表&#xff08;list&#xff09;9、字典&#xff08;dictionary&#xff09;10、元组&#xff08;tuple&#xff09;11…

计算机毕业设计 | SpringBoot+vue的医院门诊预约挂号系统(附源码)

1&#xff0c;绪论 项目背景 预约挂号&#xff0c;挂专家号更是“一号难求”&#xff0c;这是当前许多大型医院的普遍现象。预约挂号是各地近年来开展的一项便民就医服务&#xff0c;旨在缩短看病流程&#xff0c;节约患者时间。这种预约挂号大多通过医疗机构提供的电话或者网…

视频号小店发展前景怎样?适合新手入驻吗?

我是电商珠珠 视频号于22年7月发展了属于自己的平台-视频号小店。作为一个发展了才一年的平台来说&#xff0c;很多人都不敢入驻&#xff0c;害怕它很快就会垮掉。 我们团队在22年10月的时候&#xff0c;开始入驻其中。发现它的玩法和抖音小店相比并没有什么两样。 在刚开始…

电脑定时关机应用

这是一个Python应用。家里卧室装了新电视&#xff0c;HDMI连接笔记本追剧还是很愉快的。可是经常睡着&#xff0c;自然忘了关机。搜了一大圈&#xff0c;都是用命令行或者bat解决。商店里的应用也不好用&#xff0c;有些还收费。于是萌生了自己写一个定时关机应用的想法。利用N…

Linux学习之网络编程3(高并发服务器)

写在前面 Linux网络编程我是看视频学的&#xff0c;Linux网络编程&#xff0c;看完这个视频大概网络编程的基础差不多就掌握了。这个系列是我看这个Linux网络编程视频写的笔记总结。 高并发服务器 问题&#xff1a; 根据上一个笔记&#xff0c;我们可以写出一个简单的服务端…