NLP论文阅读记录 - 2022 WOS | 语义提取文本摘要的新方法

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.背景
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

A Novel Approach for Semantic Extractive Text Summarization(22)

0、论文摘要

文本摘要是一种缩短或精简长文本或文档的技术。当有人需要快速准确地总结很长的内容时,这一点就变得至关重要。手动文本摘要可能既昂贵又耗时。在总结时,一些重要的内容,例如文档的信息、概念和特征,可能会丢失;因此,包含信息丰富的句子的保留率会丢失,如果添加更多信息,则可以生成冗长的文本,从而提高压缩率。因此,需要在两个比率(压缩和保留)之间进行权衡。该模型通过仅采用长句子并删除压缩率较小的短句子来保留或收集所有信息丰富的句子。它试图通过避免文本冗余来平衡保留率,并通过删除异常值来过滤文本中的不相关信息。它按照原始文档中提到的句子的时间顺序生成句子。它还使用启发式方法来选择最佳集群或组,其中包含摘要最上面句子中存在的更有意义的句子。我们提出的模型提取摘要器克服了这些缺陷,并尝试在压缩率和保留率之间取得平衡。

一、Introduction

1.1目标问题

提取文本摘要是以简洁的形式从文档中提取最相关、信息丰富且有意义的句子的过程。它基于统计和语言特征,根据频率、提示短语、句子提取等选择最相关的特征[1]。为了通过使用不同的技术产生有效且高效的文本提取摘要,已经进行了大量的研究;然而,“压缩率”和“保留率”的问题在所有研究中都是相同的,以至于没有人针对所有提取摘要者面临的上述问题做出努力。下面描述了“压缩率”和“保留率”:“文本摘要器应生成整个文档文本的三分之一,但在压缩过程中保留或保留其有意义的信息”[2]。大多数研究人员已经开发了提取文本摘要器,但是当他们在压缩过程中缩小文档或文本的大小时,文本的保留会变得混乱,并且大多数情况下,摘要器会丢失非常有意义的信息。其中一些失去了特征、内容、概念、信息等。
所提出的提取摘要器通过有效删除任何“异常值”来保留上述标准,这些“异常值”会在摘要中产生不相关的信息,并以日期事件的形式维护事实和数字[3]。首先,它将输入文档或文件作为用户的源文件,并获取表单中的所有信息通过借助句子标记化方法分割文档来收集句子的集合。第二步包括预处理步骤,其中通过删除标点符号、停止“is”、“am”、“are”等单词来执行文本规范化,并通过获取每个单词的词根含义来执行词形还原[4]。第三步,系统通过采用频繁项模式并选择最频繁的项来对句子进行评分,然后计算每个标记或单词的相似度。为了保留其领域约束手段,任何包含不相关信息的单词的部分都不被包括在内;因此,根据最重要的相似性标准,仅选择过滤的域词或信息词[5]。第四步,系统根据文档中过滤最频繁的单词提取句子。最后,通过保留时间顺序并生成摘要来组装所有句子。
自动文本摘要的一般步骤如图1所示:
在这里插入图片描述

1.2相关的尝试

提取文本摘要模型是根据文本排名和频率开发的,并且是基于单词和基于特征的,在过去几十年中还开发了许多其他进步[6]。然而,所有这些总结者都根据最高排名或功能的选择标准,以及何时选择最高的标准,他们遗漏了一些重要事件,例如重要日期,这些事件显示了与标题和主题非常相关的信息。其次,当我们缩小任何提取摘要器的大小或压缩比时,它会丢失内容、特征、概念和其他重要信息[7]。现有模型的主要局限性之一是它们产生的精度较低且准确度较低,而所提出的模型是试图克服现有文本摘要模型的现有局限性。
我们分析了现有算法的不同缺点,解释如下: Luhn 模型取决于频繁单词的数量除以单词总数。但是,它不适用于单词的最大频率或最小频率。简而言之,它没有语义技术;它只是在 tf-idf 频率上工作。埃德蒙森取决于提示方法、句子位置等。它考虑了大多数包含文档标题或标题的句子。它还借助句子位置来考虑句子的第一段和最后一段,但它没有语义技术。它无法判断句子正文中给出的信息有多重要。 LSA工作于分布语义,计算关键词与剩余文本之间的余弦相似度,并根据最高相似度得分,给出相似度最高的句子;然而,它无法过滤不相关的文本,该模型的主要缺点之一是它无法过滤重复的句子。因此,它产生了冗余。重要事件以日期形式保留在文档中。 LexRank的算法基于特征向量中心性,句子被放置在图的顶点,同时根据语义相似度分配权重,计算句子之间的余弦相似度。在句子重叠期间,还会检索冗余句子,必须将其删除。 TextRank的算法基于特征向量中心性,将句子放置在图的顶点,并根据词汇相似度分配权重。该模型的主要缺点之一是句子重叠,这显示出冗余。在KL散度中,冗余只会降低算法的效率,因为添加冗余句子会影响单词的一元分布,并增加与源文档集的散度。表1显示了基于算法缺点的比较。
在这里插入图片描述
这里,符号4表示“允许”,符号×表示“不允许”。第一列显示了不同文本摘要器的特征,包括本文提出的文本摘要器。第二列到第七列显示了它们之间基于第一列中显示的选定特征的比较。如表所示,LexRank的算法允许冗余,而本文提出的算法不允许。其余功能遵循相同的标准,例如不同的算法允许某些功能,而有些则不允许其他功能。从表中可以清楚地看出,所提出的模型的主要优点之一是与其他算法相比,它允许所有特征并排除冗余。所提出算法的详细结果显示在结果部分
本文包含五个部分。第1节介绍了本文所开展的研究工作。第 2 节描述了与文本摘要技术相关的相关工作。第 3 节描述了该方法的实施以及实验所用的数据集。第 4 节介绍了所进行的实验的结果。第五节介绍了结论和未来的工作。

1.3本文贡献

总之,我们的贡献如下:

二.背景

文本摘要系统由 Luhn 和 Baxendle 于 20 世纪 50 年代初开始,采用表面级方法,其中词频和词位置属性用于技术文章的单文档文本摘要 [8,9]。 Lehn 的算法适用于词袋模型。它统计文档中的单词数,并根据主题单词压缩文本文档。文档的主题词显示了该词在文档中的重要性。它的重要性可以根据单词的频率或单词在文档中重复的次数来计算。
在 20 世纪 60 年代,其他属性(例如提示词和提示短语)与 Edmonson 在单文档文本摘要的表面级方法上使用的先前属性相结合 [10]。 1995 年,使用机器学习技术开发了可训练的文档摘要器 [11]。在这种类型的技术中,摘要的多个样本作为摘要系统的输入给出;它找到句子与其标题或文档之间的关系,并决定是否包含摘要句子。 1997年,Barzilay和Elhadad提出了词汇链模型,提供句子的语义结构。词汇链是使用一些包含名词及其各种关联的知识库构建的[12]。 NER 和信息提取技术被应用于新闻文章,其中问题中同时出现的单词数量被提取[13]。剪切和粘贴系统是利用统计技术开发的;他们保持文本的连贯结构,并创建一个从头到尾在结构和含义上逻辑流畅的文本[7]。 Swesum (Herculuslianis) 开发了特定领域的统计摘要器,用于总结新闻文章 [14]。 Conroy J.M. 和 O’Leary, D.P.开发了单级词汇摘要器,它总结文章并生成词汇相关的句子 [2]。还开发了基于图形的摘要器[15]。基于 LSA 的摘要器被开发出来,它提取语义相关的句子 [16]。 Abdullah Fattah Omar 还使用相同的方法 (LSA) 进行文本摘要,以生成连贯的摘要 [17]。
研究人员开发了基于联合提取和句法压缩的单文档摘要模型。我们的模型从文档中选择句子,根据选区解析识别可能的压缩,并使用神经模型对这些压缩进行评分以生成最终摘要 [18]。谢尔盖·戈尔巴乔夫还开发了一种经过模糊逻辑修改的神经模型,以产生连贯的摘要[19]。 Siddhant Upasani 开发了基于 TextRank(文本排名算法)的摘要器,该算法是 Google 搜索引擎中用于对网页进行排名的页面排名算法的实现 [20]。基于tf-idf特征开发了一个针对印尼学生英语学习的英语新闻摘要器。根据相似度关键词选择最上面的句子,由于文档长度的限制,只提取相关的最上面的句子。对于总结评估,精度、召回率和 f 测量分数用于总结强度 [21]。迈克尔·乔治(Michael George)开发了基于加粗句子分数的自动文本摘要;它获取具有较高值和密度以及较短长度的句子。该目标增加了句子价值并减少了不必要的单词和长句子,这使得顶部句子列表具有更多价值。随后,该句子得分等于句子术语的出现总数除以句子单词[22]。
开发了一种独立于领域、基于统计的方法,用于单文档提取摘要。使用了二元组技术,它在文本中重复多次,是描述文本内容的好术语,称为最大频繁句子。我们还表明,重复出现的二元词项的频率给出了良好的结果[23]。 Rasim 利用整数线性规划问题技术提出了最大覆盖率和最小冗余文本摘要模型。该模型的优点之一是它可以直接发现给定文档中的关键句子并覆盖原始文档的主要内容[24]。该模型还保证摘要不能是传达相同内容的多个句子信息。所提出的模型非常通用,也可用于在 DUC2005 和 DUC2007 数据集上实现的单文档和多文档摘要 [25]。自动文本摘要的多重替代句子压缩由 Nitin Madnani、David Zajic、Bonnie Dorr、Necip Fazil Ayan 和 Jimmy Lin 提出,是一种摘要模型,其中解析和修剪方法包括过滤、压缩和使用候选选择阶段[26]。过滤过程包含高度相关性和中心性的句子,选择这些句子进行进一步处理。 HMM 生成源句子最可能的压缩。修剪器使用语言驱动的修剪规则从解析树中删除成分[27]。两种方法都将特定于压缩的特征值与可用于候选选择的候选压缩相关联。 Trimmer 通过将每个 Trimmer 规则应用程序的输出视为不同的压缩来生成多个压缩 [28]。 Trimmer 规则的输出是一个解析树和一个关联的表面字符串 [29]。 Alaidine Ben Ayed、Ismaïl Biskri 和 Jean-Guy Meunier 建议对自动生成的文本摘要进行基于向量空间建模的评估。他们提出了 VSMbM,这是一种用于自动生成文本摘要评估的新指标。 VSMbM 基于向量空间建模。它提供了关于生成的摘要中保留率和保真度达到何种程度的见解[30]。所提出的指标的三个变体,即 PCA–VSMbM、ISOMAP–VSMbM 和 tSNE–VSMbM 进行了测试,并与面向回忆的 Gisting 评估 (ROUGE) 进行比较,ROUGE 是用于评估自动生成的摘要的标准指标 [31]。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

表 1 显示了不同总结器与所提出模型的比较。它表明,在从 100% 收缩到 10% 的过程中,基于等级、特征和概念的不同总结器会失去其属性。这就是为什么它们的保留率或信息增益变得更少,而我们提出的模型试图通过尝试维护文档中显示有意义信息的域词来以最小的损失保留最大的信息增益。图6显示了所提出的模型与LDA模型的比较; LDA模型从文档中根据概念提取主题,我们的模型也从同一文档中提取主题,这显示了其主题覆盖率与LDA模型的主题覆盖率几乎相同。在所提出的摘要器中,与原始文档相比,由于其与主题或标题的语义不同而丢失了一些信息,这些信息被视为异常值。为了进一步获得更大或更接近准确的结果,可以尝试统计方法。方差分析技术可用于比较原始数据、总结文档并检查方差。如果其方差较高,则可以调整模型以获得更好的精度和最小的方差。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/321202.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

面向对象三大特征之三:多态--java学习笔记

什么是多态 多态是在继承/实现情况下的一种现象,表现为:对象多态、行为多态 对象多态:举个栗子,比如一个人,他可以是一个老师,也可以是一个歌手,也可以是一个丈夫...... 行为多态:举…

空间计算时代催生新一波巨大算力市场需求

什么是空间计算? 空间计算是一种整合虚拟现实(VR)、增强现实(AR)、混合现实(MR)等技术的计算模式,旨在将数字信息与真实世界融合在一起。这种融合创造了一个全新的计算环境&#xff…

优惠券兑换码生成需求——事务失效问题分析

前段时间收到一个优惠券兑换码的需求:管理后台针对一个优惠券发起批量生成兑换码,这些兑换码可以导出分发到各个合作渠道(比如:抖音、京东等),用户通过这些渠道获取到兑换码之后,再登录到我司研…

将Android应用修改为鸿蒙应用的工作

将Android应用修改为鸿蒙(HarmonyOS)应用需要进行一系列主要的工作。以下是在进行这一转换过程中可能需要进行的主要工作,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.项目…

Vue2x的自定义指令和render函数使用自定义指令

在某些情况下,我们需要对底层DOM进行操作,而内置的指令不能满足需求,就需要自定义指令。一个自定义指令由一个包含类似组件的生命周期的钩子的对象来定义,钩子函数会接收到指令所绑定的元素作为参数。 定义指令 常用两种方式进行…

【天龙怀旧服】攻略day7

关键字: 新星1.49、金针渡劫、10灵 1】新星(苍山破煞) 周三周六限定副本,19.00-24.00 通常刷1.49w,刷149点元佑碎金 boss选择通常为狂鬼难度,八风不动即放大不选,第二排第一个也不选&#xf…

SAP SD-DN-MM 交货单相关物料凭证的视图的日期问题

眼下有个需求 获取交货单对应的物料凭证的过账日期BLDAT。 同步BW数据过去 新增一个数据库视图 但是实际使用时,有效部分仅本月,再选择条件里面要加上 MATdoc-bldat > sy-datum - sydatum6(2). 于是使用ST05 跟踪了一下,发现在DD28S…

算法通关村第十五关—继续研究超大规模数据场景的问题(黄金)

继续研究超大规模数据场景的问题 一、对20GB文件进行排序 题目要求:假设你有一个20GB的文件,每行一个字符串,请说明如何对这个文件进行排序?  分析:这里给出大小是20GB,其实面试官就在暗示你不要将所有的文件都装入到…

【ROS2】使用C++实现简单的发布订阅方

1 构建自定义数据类型 1、自定义消息类型Student 1.1 创建base_interfaces_demo包 1.2 创建Student.msg文件 string name int32 age float64 height 1.2 在cmakeLists.txt中增加如下语句 #增加自定义消息类型的依赖 find_package(rosidl_default_generators REQUIRED) # 为…

Pytorch基础知识点复习

文章目录 并行计算单卡训练多卡训练单机多卡DP多机多卡DDPDP 与 DDP 的优缺点 PyTorch的主要组成模块Pytorch的主要组成模块包括那些呢?Dataset和DataLoader的作用是什么,我们如何构建自己的Dataset和DataLoader?神经网络的一般构造方法&…

机器学习~从入门到精通(三)梯度下降法

一、梯度下降法 # 梯度下降不是一种算法,是一种最优化方法 # 上节课讲解的梯度下降的案例 是一个简单的一元二次方程 # 最简单的线性回归:只有一个特征的线性回归,有两个theta # 二、在多元线性回归中使用梯度下降求解 三、### R…

泊松流生成模型简介

一、说明 泊松流生成模型 (PFGM) 是一种新型的生成深度学习模型,与扩散模型类似,其灵感来自物理学。在这本简单易懂的指南中了解 PFGM 背后的理论以及如何使用它们生成图像。 生成式人工智能模型在过去几年中取得了长足的进步。受物理启发的扩散…

使用pygame实现简单的烟花效果

import pygame import sys import random import math# 初始化 Pygame pygame.init()# 设置窗口大小 width, height 800, 600 screen pygame.display.set_mode((width, height)) pygame.display.set_caption("Fireworks Explosion")# 定义颜色 black (0, 0, 0) wh…

BLDC 电机和 PMSM 的结构区别

BLDC 电机和 PMSM 的结构类似,其永磁体均置于转子,并被定义为同步电机。在同步电机中,转子与定子磁场同步,即转子的旋转速度与定子磁场相同。它们的主要区别在于其反电动势(反 EMF)的形状。电机在旋转时充当…

MySQL进阶篇(五) 锁

一、概述 锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中,除传统的计算资源(CPU、RAM、I/O)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问…

基于JavaWeb的酒店管理系统

基于JavaWeb的酒店管理系统 文章目录 基于JavaWeb的酒店管理系统系统介绍技术选型成果展示源码获取账号地址及其他说明 系统介绍 基于JavaWeb的酒店管理系统是为酒店打造的管理平台,其主要功能有管理员登陆、客房预订、客房入住、房间管理、数据查询(预订单查询、入…

ros2 基础学习 15- URDF:机器人建模方法

URDF:机器人建模方法 ROS是机器人操作系统,当然要给机器人使用啦,不过在使用之前,还得让ROS认识下我们使用的机器人,如何把一个机器人介绍给ROS呢? 为此,ROS专门提供了一种机器人建模方法——…

数据结构.线性表(2)

一、模板 例子: a: b: 二、基本操作的实现 (1)初始化 (2)销毁和清空 (3)求长度和判断是否为空 (4)取值 (5)查找 (6)插入 &…

【rust/bevy】从game template开始

目录 说在前面步骤进入3D控制方块问题 说在前面 操作系统:win11rust版本:rustc 1.77.0-nightlybevy版本:0.12 步骤 rust安装 这里 windows下建议使用msvc版本bevy安装 这里clone代码git clone https://github.com/NiklasEi/bevy_game_templa…

Jetpack Flow 、Room 初学者学习记录

学习使用响应式Flow操作数据,记录自己学习的过程。 ContactViewModel 是一个 ViewModel,它依赖于一个Room操作接口 ContactDao ,访问对象来获取联系人数据。它使用了 StateFlow 来处理状态的变化和数据的更新。ViewModels 通常用于管理应用的…