NLP论文阅读记录 - 2023 | EXABSUM:一种新的文本摘要方法,用于生成提取和抽象摘要

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

EXABSUM: a new text summarization approach for generating extractive and abstractive summaries(23)

0、论文摘要

由于在线信息呈指数级增长,无需大量阅读即可有效提取信息最丰富的内容并定位特定信息的能力对于读者来说变得越来越有价值。
在本文中,我们提出了“EXABSUM”,这是一种自动文本摘要(ATS)的新方法,能够生成两种主要类型的摘要:抽取式摘要和抽象摘要。
我们提出了两种不同的方法:
(1)提取技术(EXABSUMExtractive),它集成了统计和语义评分方法,从文本单元中选择和提取相关的、非重复的句子;
(2)抽象技术(EXABSUMAbstractive),它采用词图方法(包括压缩和融合阶段)和基于关键词的重新排名,以使用源文档作为输入生成抽象摘要。在对多领域基准进行的评估中,EXABSUM 优于提取摘要方法,并表现出与抽象基线的竞争力。

一、Introduction

1.1目标问题

如果没有摘要,人类对不断增长的在线信息的访问将会受到阻碍。鉴于文本内容的广泛性,相关信息可能会无意中逃避读者的注意力。因此,将关键信息浓缩成摘要具有重要价值。自 20 世纪 50 年代以来,研究人员一直致力于增强文本摘要算法,目标是达到与人类能力相当的摘要水平。文本摘要仍然是 NLP 领域中一个艰巨但充满希望的挑战。
在文本摘要中,出现了两个关键问题:(i)识别文档中相关内容的过程,以及(ii)简洁地传达所选材料同时最大限度地减少冗余的艺术[1-3]。 ATS 方法的前景可分为三个主要类别:抽取式、抽象式和目前,重点是混合摘要——提取和抽象技术的融合[4-6]。
尽管信息技术取得了显着的进步,但概括领域仍然需要取得重大进展。在文本摘要领域,仍然存在一些关键挑战,可概括如下:
• 最初,出现了文本相关性检测的挑战。传统方法假设文本中单词的重要性与其出现频率相关,每个单词代表一个不同的概念。然而,由于同义词和共指表达的存在有助于文本衔接,量化概念的出现会带来复杂性。文档中的信息流表现出波动,表明特定部分比其他部分更重要。因此,有效识别最相关的细节并在静态和语义上从源文档中区分相关术语的任务被证明是一个普遍的挑战(例如,根据相关关键字或关键短语进行选择)。
• 随后,缺乏连贯性和冗余的问题。提取式摘要在生成的摘要中面临着衔接和连贯性的障碍,这些障碍源于冗余(具有可比含义的短语)、脱节的句子连接和未解决的共指关系。
• 第三个挑战涉及抽象和混合摘要。对抽象或混合自动文本摘要 (ATS) 技术的需求变得显而易见。这种技术类型仍然是一个不断发展和复杂的领域。迄今为止,事实证明,制作有效的抽象摘要具有挑战性。必须制定总体指导方针和可行的策略,从提取摘要过渡到抽象摘要,从而利用这两种 ATS 方法所提供的优势。

1.2相关的尝试

1.3本文贡献

在本文中,我们介绍了 EXABSUM,这是一种 ATS 系统,可以生成两个不同的摘要类别。首先,摘录(EXABSUMExtractive)是通过严格的提取方法形成的,而摘要(EXABSUMAbstractive)是通过抽象方法制作的。所概述的方法有效地解决了提取和抽象摘要技术固有的局限性

总之,我们的贡献如下:
• 与某些仅依赖统计评分机制从源文档逐字提取短语的现有提取系统不同,我们的方法引入了一种独特的无监督提取策略,旨在应对文本相关性检测的挑战。这种创新方法结合了统计和语义评分技术的优势来识别关键信息,同时提出一种新颖的信息。
• 与某些现有的提取系统不同,我们的方法引入了语义冗余缓解的元素——ATS 中的一个关键问题。避免在最终结果中包含语义和上下文冗余信息摘要,我们主张采用文本蕴涵。这种方法用于减轻现有方法固有的可读性挑战,从而减轻通常与生成的文本相关的缺点。
• 我们通过提出基于图形的摘要模型来应对生成摘要摘要的挑战,该模型旨在生成有弹性的摘要摘要。该模型建立并扩展了开创性的多句子压缩和融合方法,并得到基于密钥提取的重新排序方法的支持。值得注意的是,这种方法的功能独立于训练数据或获取文档结构或领域知识的任何需要。

二.相关工作

自动摘要领域的最初工作集中在提取方法,其目的是直接从源文本中选择相关的现有单词、短语或句子以捕获其最关键的内容。提取式自动文本摘要(ATS)方法通常分三个步骤进行[5]:(1)构建原始文本的中间表示(通常涉及预处理并将文本分割为段落、短语和标记); (2) 句子评分(分数应衡量句子对全面理解文本的重要性),将分数分配给最相关的单词,然后评估句子特征,例如在文档中的位置、句子长度、标题对齐和其他因素。先前的提取摘要研究主要集中在(1)基于句子聚类、(2)统计、(3)基于图和(4)基于优化的技术。在第一种方法的上下文中,文档包含 n 个句子,每个句子共享一组相同的术语。因此,文档中的术语集对应于每个短语中的术语集。对应句子之间的距离可以用来说明语言模式的相似性[7-10]。
句子聚类算法将相关的文本单元(段落、句子)组织成多个聚类,以发现信息的共同主题,随后从这些聚类中选择文本单元作为最终摘要。值得注意的提取摘要技术之一是基于质心的方法[11]。 MEAD 系统 [12] 是采用句子聚类算法的自动文本摘要 (ATS) 系统的一个实例,它是一个双语(英语和中文)摘要系统,
提供提取的单文档和多文档通用或以查询为中心的摘要。 MEAD 系统利用 tf-idf 类型数据计算单个文档或提供的集群的质心主题特征。它通过权衡句子得分与质心、文本位置值和 tf-idf 标题/导语重叠来评估候选摘要句子。摘要长度阈值控制句子选择,而针对先前短语的余弦相似性分析则抑制冗余的新短语。
QCS 系统 [13] 将摘要技术纳入综合检索和分组过程中,为每个集群生成单个提取摘要。这是通过结合句子“修剪”和隐马尔可夫模型,然后进行旋转 QR 分解的方法来实现的。该模型识别出最有可能包含在摘要中的句子。
统计方法 [14] 依赖于 TF-IDF 分数和单词共现等基本指标 [1,15,16]。 Ko 和 Seo [17] 引入了一种熟练的文本摘要方法,该方法利用上下文洞察和统计方法来提取相关句子。
基于图的方法 [7] 将文本描述为短语网络,并通过基于图的评分机制设计摘要。 Baralis 等人提出了一种创新且多功能的摘要器 GRAPHSUM,它植根于图模型。 [18]。它通过揭示关联规则来捕获各种元素之间的相互关系。 Parveen 和 Strube [19] 提出了一种基于提取图的无监督技术,用于总结单个文档,该技术考虑了三个关键的总结属性:重要性、非冗余性和局部一致性。基于优化的方法[20]采用整数线性规划[21]、约束优化[22]和稀疏优化[23]等优化技术。
其他 ATS 系统,如 SummGraph [24],采用基于图形的算法和知识数据库来识别相关文本的实质内容。值得注意的是,这个特定系统已在新闻、生物医学研究和旅游等领域展现出有效性。摘要还融入了自然语言生成 (NLG),以引入新的术语和语言结构。 Belz [25] 提出了一种基于“NLG”的文本摘要技术,可自动生成天气预报报告。穆罕默德等人。 [26]阐明了一种自动创建基于引文的技术调查的系统。最近,埃雷拉等人。 [27] 介绍了 IBM Science Summarizer,这是一种针对计算机科学论文的创新方法。这种方法根据用户提供的信息需求来制作摘要,无论是自然语言查询、科学任务(例如“机器翻译”)、数据集还是学术场所。
尽管提取方法可以熟练地识别重要信息,但它们可能缺乏人类生成的摘要所固有的流动性和精确性。因此,抽象 ATS 方法致力于通过减少冗余、阐明句子上下文以及可能在摘要中引入补充短语来增强句子连贯性。为了合成最终摘要,抽象技术通常利用句子压缩、融合或修改机制。 Barzilay 和 McKeown [28] 开创了一个系统,其中依赖树代表输入短语,并且选择的单词被对齐以将这些树集成到网格结构中。随后通过树遍历对格进行线性化以生成融合句子。
Filippova 和 Strube [29] 引入了一种创新的句子融合方法,将融合任务视为优化问题。这种无监督技术利用了依存结构对齐、语义和句法信息短语聚合以及修剪策略。后来,Filippova 深入研究了将相互关联的句子集合压缩为简洁的单个句子的挑战,称为多句子压缩,并提出了一种基于词图中最短路径的基础技术 [30]。她的方法产生了语法合理且信息丰富的摘要,随后在多种当代摘要系统中得到应用 [4, 31]。 Boudin [32] 通过将多句子压缩(MSC)作为从一组互连句子生成简洁的单句子摘要的任务来扩展 Filippova 的方法。他引入了一种基于文档中关键短语的频率和相关性的 N 最佳重新排名算法,从而产生信息更丰富的摘要。班纳吉等人。 [33]使用单词图和整数线性规划(ILP)设计了多文档抽象摘要。他们将关键文档中的相似句子聚集在一起,并使用词图来识别最短路径。 ILP模型有利于识别具有最大信息量和可读性的句子,有效减少冗余。纳伊姆等人。 [34]制定了一个无监督的抽象摘要系统。他们的创新是释义句子融合模型,通过skip-gram词嵌入模型将句子融合与句子级别的释义结合起来。该模型扩大了信息覆盖范围并增强了生成短语的抽象性质。尚等人。 [35]引入了一种完全无监督的基于图的架构,专为会议演讲的抽象总结而定制。他们的统一框架融合了三种不同任务(关键词提取、多句子压缩和摘要)中六种流行方法的优势,有效解决了各自的局限性。他们的抽象概括方法经历了四个关键过程:预处理、社区识别、多句子压缩和子模最大化。
最近,NLP 研究界越来越多地将注意力转向混合 ATS 技术。在混合方法中,利用提取方法来识别被认为对于包含在摘要中至关重要的内容术语和句子,同时指导摘要的开发[36]。此类方法融合了提取和抽象 ATS 技术的优势。迪法布里奇奥等人。 [37]引入了一种混合方法,通过将自然语言生成与显着句子选择技术相结合来制作产品和服务评论的摘要。他们的“STARLET-H”系统作为混合抽象/提取摘要器运行。它采用提取摘要技术来识别输入评论中的重要引述,将其合并到自动生成的抽象摘要中,以提供赞成和/或反对观点的验证、披露或理由。然而,该算法需要大量的训练数据来理解方面顺序。 LLORET 和 ROM-FERRI [38] 提出了 COMPENDIUM ATS 系统,用于生成生物医学领域的研究出版物摘要。该系统生成两种不同类型的通用摘要:提取式摘要和抽象导向摘要,并附有各自的 COMPENDIUM 变体:COMENDIUM-E 和 COMPENDIUM-A。提取方法有选择地挑选和提取最相关的句子,而面向抽象的方法则混合了提取和抽象技术,结合信息压缩和融合阶段。巴特等人。在[39]中介绍了“SumItUp”,一个单文档混合TS系统。该混合系统由两个阶段组成:(1)提取句子选择,使用统计特征(句子长度、句子位置、TF-IDF、名词短语、动词短语、专有名词、聚合余弦相似度和提示短语)生成摘要,以及语义特征(文本中描述的情感)。在提取摘要中,利用余弦相似度来消除冗余句子。对于抽象摘要生成,提取的句子经过语言生成器(Wordnet、词性标注器和 Lesk 算法的融合)的处理,将提取摘要转换为抽象再现。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/316680.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

生产数据不备份,用时两行泪

背景:项目使用pg一主一从,因慢sql导致查询慢,所以想从原本的4核加到16核,联系好运维后,打算先从从库开始操作,机器上的pgsql都正常关闭,然后停止,关机,扩容一切都很顺利&…

gpu显卡简介

一、目录 1.基本常用参数 2. nvidia 显卡基本了解(基本简介) 3. 显卡查看算力 4. 显卡算力、驱动版本(Driver Version)、CUDA Toolkit(CUDA Version)、PyTorch版本之间的关系 5. 显卡安装流程 6. NVIDIA显卡简介 二、实现 基本常…

使用ElementUI的el-tab+vxe-table表格+复选框选择

效果: 功能:首先进来是全部清空的状态的 点击左边选择不同项右边会实时发送接口获取数据填充表格 复选的内容可以保留显示,比如A的1勾选后切换到B再切换回来A的1仍然是勾选状态 说实话官网的setCheckboxRow方法我实现不了,这里…

【MySQL】导入导出SQL脚本及远程备份---超详细介绍

目录 前言: 一 navcat导入导出 1.1 导入 1.2 导出 二 mysqldump 导入导出 2.1 导入 2.2 导出 三 load data infile命令导入导出 3.1 导入 3.2 导出 四 远程备份 五 思维导图 前言: 随着当今企业发展,数据库的数据越来越多&…

Qt OpenGL - 网格式的直角坐标系

Qt OpenGL - 网格式的直角坐标系 引言一、绘制3D网格1.1 绘制平行于y轴的线段1.2 绘制平行于三个轴的线段1.3 绘制不同的3D网格 二、网格式的直角坐标系三、参考链接 引言 在OpenGL进行3D可视化,只绘制三条坐标轴略显单薄,而绘制网格形式的坐标系则能更清…

Flutter之运行错误:this and base files have different roots

运行时报错: this and base files have different roots: E:\Demolpro\waqu\build\flutter-plugin-_android_lifecycle and C:\Users\78535\AppData\Local\Pub\Cache\hosted\pub.dev\flutter_pulgin_android_lifecycle-2.0.17\android 如图: 这种情况…

自制数据库空洞率清理工具-C版-03-EasyClean-V1.2(支持南大通用数据库Gbase8a)

目录 一、环境信息 二、简述 三、升级点 四、支持功能 五、空洞率 六、工具流程图 1、流程描述 2、注意点 (1)方法一 (2)方法二 七、清理空洞率流程图 八、安装包下载地址 九、参数介绍 1、命令模板 2、命令样例 3…

Pytest测试 —— 如何使用属性来标记测试函数!

在软件开发领域,单元测试是确保代码质量和可维护性的关键一环。随着项目的不断发展,测试用例的管理变得愈发复杂,而一些测试可能需要特殊的处理、环境或者标记。在Python中,我们可以通过使用属性(Attribute&#xff09…

Leetcode202快乐数(java实现)

今天分享的题目是快乐数: 快乐数的定义如下: 快乐数(Happy Number)是指一个正整数,将其替换为各个位上数字的平方和,重复这个过程直到最后得到的结果为1,或者无限循环但不包含1。如果最终结果为…

层次选择器

层次选择器 1.后代选择器二、子代选择器三、兄弟选择器四、相邻选择器 后代选择器,选择M元素内部后代的N元素(所有N元素) 选择器说明M N后代选择器,选择M元素内部后代的N元素(所有N元素M>N子代选择器,选…

MATLAB 2023a软件下载安装教程

编程如画,我是panda! 这次给大家带来的是MATLAB 2023a的下载安装教程 前言 MATLAB,即Matrix Laboratory的缩写,是一款强大的科学计算软件,以其独特的矩阵计算基础、丰富的数学函数库和直观的数据可视化工具而闻名。作…

神经辐射场(NeRF)概述

神经辐射场(NeRF)是一种用于三维场景重建的深度学习算法。它能够从一组稀疏的二维图片中重建出高质量的三维场景。 以下是对NeRF算法的原理和实现方法的详细解释: NeRF算法原理: 基本概念: NeRF算法基于光线追踪的原理…

BSC/平衡记分卡

一、Balanced Score Card BSC即平衡计分卡(Balanced Score Card),是常见的绩效考核方式之一,是从财务、客户、内部运营、学习与成长四个角度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。 是…

数据结构第十三弹---链式二叉树基本操作(上)

链式二叉树 1、结构定义2、手动创建二叉树3、前序遍历4、中序遍历5、后序遍历6、层序遍历7、计算结点个数8、计算叶子结点个数9、计算第K层结点个数10、计算树的最大深度总结 1、结构定义 实现一个数据结构少不了数据的定义,所以第一步需要定义二叉树的机构。 typ…

龙芯3A5000上使用腾讯会议

原文链接:龙芯3A5000上使用腾讯会议 hello,大家好啊!今天我要给大家介绍的是在龙芯3A5000处理器上安装使用腾讯会议的经验分享。随着远程工作和在线会议的普及,腾讯会议成为了许多人日常工作不可或缺的工具。而对于使用龙芯3A5000…

HTTP 常见协议:选择正确的协议,提升用户体验(下)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

Docker 镜像

1、联合文件系统 UnionFS(联合文件系统):Union文件系统〈UnionFS)是一种分层、轻量级并且高性能的文件系统,它支持对文件系统的修改作为一次提交来一层层的叠加,同时可以将不同目录挂载到同一个虚拟文件系统下(unite several dir…

C练习——汉诺塔

题目: 汉诺塔问题是一个经典的问题。汉诺塔(Hanoi Tower),又称河内塔,源于印度一个古老传说。 大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。大梵天命令婆…

大模型在游戏行业的应用分析

文章目录 一、大模型作用1)节省美术成本2)模仿用户肖像,精准投放3)买量流程的自动化4)缩短视频素材制作周期5)例如新营销形式宣传(图生图)5)故事设计6)辅助代…

品牌帮助中心:提升企业客户服务水平与效率的实用指南

什么是品牌帮助中心?简单来理解,他就是一种加速问题解决效率的方式,是通过在官网设置文章库或者社区的形式,为客户提供自助服务,自我查找问题答案。是一种既能提升问题解决效率,又能提升品牌形象的方式。接…