NLP论文阅读记录 - 2021 | WOS 智能树提取文本摘要深度学习

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.前提
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

An Intelligent Tree Extractive Text Summarization Deep Learning (21)

0、论文摘要

在最近的研究中,深度学习算法为自然语言提供了有效的表示学习模型。基于深度学习的模型比经典模型创建更好的数据表示。它们能够自动提取文本的分布式表示。在本研究中,我们引入了一种新的树提取文本摘要,其特征是拟合知识库训练模块中的文本结构表示,并且还解决了以前未解决的内存问题。所提出的模型采用树结构机制来生成短语和文本嵌入。所提出的架构模仿文本的树配置并提供更好的特征表示。它还采用了一种注意力机制,可以提供额外的信息源来进行更好的摘要提取。该新颖模型将文本摘要作为一个分类过程,其中模型计算短语和文本摘要关联的概率。
模型分类分为信息熵、显着性、冗余度、位置等多种特征识别。该模型在两个数据集上进行了评估,即多文档组合查询(MCQ)和双重注意组合数据集(DAC)数据集。
实验结果证明,我们提出的模型比其他模型具有更大的概括精度。

一、Introduction

1.1目标问题

文本摘要是语言处理中的一个重要研究课题。通过将冗长的文本缩减为更少的短语或更少的段落,这是应对信息过剩挑战的理想方法。智能平板电脑等移动设备的地位标志着文本摘要成为小屏幕和较少带宽能力的重要工具[1-3]。它也可以用作计算机的理解考试。为了生成可接受的摘要,深度学习方法必须理解文本并从中浓缩重要信息。当文本大小变大时,这些责任对于计算机来说是一个很大的问题
增加。尽管搜索引擎可以使用高级检索方法,但它们没有能力从多个来源提取数据并返回简短的有用响应。此外,还需要及时的工具来提取多个来源。这些警报引发了人们对计算机文本摘要模型的兴趣。当前的文本摘要技术依赖于使用文本统计特征的精细特征提取工程。这些系统很复杂,需要工程模型。此外,这些系统无法生成可理解的文本摘要。端到端训练模型在其他方面表现出更好的效果,例如人脸识别、机器翻译和物体识别。目前,神经摘要模型受到关注;提出了几种技术,并演示了它们在文本语料库中的用途[4-7]。
神经摘要有两种模型:抽取式摘要和抽象式摘要。提取模型决定并连接文档中的相关短语以生成摘要,同时保留其原始内容。提取模型通常用于现实世界的应用[7-10]。提取模型的一个中心问题是确定定义关键信息的显着短语[11]。同时,提取摘要模型为原始文本构建了语义模型,并生成类似于人类的摘要。当前的抽象模型非常薄弱[12-15]。
尽管如此,神经模型在文本摘要中使用时仍然存在一些问题。这些模型缺乏文档内容的底层方面结构。因此,文本摘要仅使用不捕获多方面内容的表示向量空间[16]。另一个问题是神经架构是对循环网络(例如门控单元和术语记忆)的修改。理论上,这些网络可以记住计算的状态向量中先前的选择。但现实情况并非如此。此外,记住文档语义相对困难且不是必需的[17]。先前状态的加权表示向量将用作确定下一个状态的步骤的附加输入。因此,模型可以获得过去步骤中计算出的状态,因此最后一个状态将保存先前状态的信息[18]。
这项研究的主要贡献是引入了一种基于神经网络的摘要模型,通过将摘要视为分类过程来从文本中提取相关短语。该模型通过提取内容、重要性、冗余和位置等特征来计算每个短语作为短语成员的分数。我们提出的模型提高了效率和准确性:(i)首先它使用树文本表示; (ii) 在构建文本树时,对单词和短语使用了两种自注意力技术。这使得模型能够对重要内容做出强烈反应。
在这项研究中,出现了两个问题:(1)反映文本树以增强短语的嵌入结构以学习文本语义; (2)从文本中提取最重要的短语以生成首选摘要[18-22]。

1.2相关的尝试

1.3本文贡献

我们的研究与其他研究之间的主要区别是:我们提出的模型利用树结构自注意力技术来产生短语嵌入。增强自注意力技术可以提高性能并提供对摘要短语选择中高分短语的理解。为了测试我们的模型与最先进模型的性能比较,使用了两个数据集:MCQ 新闻和 DAC 集。我们的模型明显优于比较模型。
文章的结构安排如下。第 2 节详细描述了我们的摘要模型。第 3 节介绍了模拟结果。第 4 节描述了相关的比较模型。第 5 节给出了讨论和结论。

总之,我们的贡献如下:

二.前提

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

我们提出的模型使用注意力技术来采用短语嵌入。这些实验描绘了我们模型的高性能结果。我们的结果强调,自注意力生成的嵌入提供了更好的状态表示并提高了摘要质量。我们的模型在 MCQ 和 DAC 数据集上比类似模型实现了更高的性能。这项工作在三个方面与其他模型不同。首先,它利用反映更好文档结构的树注意力模型。其次,它利用自注意力模块来生成有效的嵌入主题。第三,提取的特征在学习阶段进行扎根和加权,同时关注过去分类的短语。我们相信,将支持学习与短语到短语的训练目标相结合是未来研究的激励之路。另一项工作必须集中于建议除 ROUGE 分数之外的新评估指标,以改进摘要任务,特别是对于长短语。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/322025.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

优优聚美团代运营服务:实现业务增长的不二之选

随着互联网的普及和电商行业的快速发展,越来越多的商家选择在美团等电商平台开展业务。然而,很多商家由于缺乏专业的电商运营知识和经验,难以在激烈的市场竞争中脱颖而出。此时,美团代运营服务应运而生,成为商家实现业…

Machine Trap Delegation Registers

默认情况下,所有的trap都是在machine mode中处理的;虽然machine-mode可以通过调用MRET指令,来重新将traps给到其他的mode来执行,但是性能上并不好;因此增加如下两个寄存器:mideleg/medeleg,分别…

Sentinel 降级、限流、熔断

前言 在现代分布式系统中,如何有效地保护系统免受突发流量和故障的影响,是每个开发人员和架构师都需要思考的重要问题。在这样的背景下,Sentinel作为一个强大的系统保护和控制组件,为我们提供了降级、限流、熔断等多种策略&#…

边缘数据采集网关无法上传数据是什么原因?如何解决?

边缘数据采集网关是物联网系统中的常见设备,主要用途包括数据采集、协议转换、边缘数据处理、数据传输分发等,实现多设备和多系统的互联互通和数据协同应用,对于提高物联网感知和响应效率、加强物联网联动协同能力、提升数据安全性等方面都具…

MATLAB实验Simulink的应用

本文MATLAB源码,下载后直接打开运行即可[点击跳转下载]-附实验报告https://download.csdn.net/download/Coin_Collecter/88740734 一、实验目的 1.熟悉Simulink操作环境。 2.掌握建立系统仿真模型以及系统仿真分析的方法。 二、实验内容 1.利用Simulink仿真下列曲…

怎样实现安全便捷的网间数据安全交换?

数据安全交换是指在数据传输过程中采取一系列措施来保护数据的完整性、机密性和可用性。网间数据安全交换,则是需要进行跨网络、跨网段甚至跨组织地进行数据交互,对于数据的传输要求会更高。 大部分企业都是通过网闸、DMZ区、VLAN、双网云桌面等方式实现…

【Azure 架构师学习笔记】- Azure Databricks (6) - 配置Unity Catalog

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (5) - Unity Catalog 简介 UC的关键特性 之所以DataBricks要用UC, 很大程度是对安全的管控。从上文可以了解到它的四大特性&#…

Python 以相对/绝对路径的方式压缩文件

文章目录 1. tarfile 简单介绍2. tarfile 支持的模式3. 绝对路径压缩4. 相对路径压缩5. 参考 1. tarfile 简单介绍 Python 的 tarfile 模块提供了对 .tar 格式归档文件的全面支持,允许用户创建、读取、修改和写入 tar 归档文件。在实际应用中,tar 文件通…

护眼台灯是智商税吗?写作业使用的护眼台灯推荐

在当今社会,越来越多的人在工作和生活中长时间地盯着电脑屏幕或手机屏幕,给眼睛带来了很大的压力和损害。为了缓解眼睛的疲劳和不适,护眼台灯成为了很多人的选择。然而,市场上的护眼台灯种类繁多,价格各异,…

M-A352AD10高精度三轴加速度计

一般描述 M-A352是一种三轴数字输出加速度计,具有超低噪声、高稳定性、低功耗等特点,采用了夸特的精细处理技术。. 多功能M-A352具有高精度和耐久性,非常适合广泛的具有挑战性的应用,如SHM、地震观测、工业设备的状态监测和工业…

pandas查看数据常用方法(以excel为例)

目录 1.查看指定行数的数据head() 2. 查看数据表头columns 3.查看索引index 4.指定索引列index_col 5.按照索引排序 6.按照数据列排序sort_values() 7.查看每列数据类型dtypes 8.查看指定行列数据loc 9.查看数据是否为空isnull() 1.查看指定行数的数据head() &#xff…

软信天成:数据安全管理解决方案分享

近年来,随着数据环境日趋复杂多变和潜在的数据隐私泄露风险潜伏,如何确保企业数据安全已成为众多企业亟待面对与妥善处理的重要问题。 为了应对这一严峻的现实挑战,软信天成凭借专业的知识体系和丰富的实战经验积累,总结出了一套…

Java实现海南旅游景点推荐系统 JAVA+Vue+SpringBoot+MySQL

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 用户端2.2 管理员端 三、系统展示四、核心代码4.1 随机景点推荐4.2 景点评价4.3 协同推荐算法4.4 网站登录4.5 查询景点美食 五、免责说明 一、摘要 1.1 项目介绍 基于VueSpringBootMySQL的海南旅游推荐系统&#xff…

计算机组成原理-程序中断(基本概念 中断分类 流程 )

文章目录 总览中断的基本概念中断请求的分类中断请求标记中断判优-实现中断判优-优先级设置中断处理过程-中断隐指令中断处理过程-中断服务程序小结 总览 中断的基本概念 中断隐指令就是修改PC的值到中断服务程序 在每条指令执行完后,在指令周期末尾检查是否有中断…

【linux】软链接创建(linux的快捷方式创建)

软连接的概念 类似于windows系统中的快捷方式。有的文件目录很长或者每次使用都要找很不方便,于是可以用类似windows的快捷方式的软链接在home(初始目录类似于桌面)上创建一些软链接方便使用。 软链接的语法 ln -s 参数1 参数2 参数1&#…

批评与自我批评组织生活会发言材料2024年六个方面

生活就像一场马拉松,成功需要坚持不懈的奔跑。每一步都可能会遇到挫折和困难,但只要你努力向前,坚持不放弃,你就一定能够迎接胜利的喜悦。不要害怕失败,因为失败是成功的垫脚石。相信自己的能力,追求自己的…

反射助你无痛使用Semantic Kernel接入离线大模型

本文主要介绍如何使用 llama 的 server 部署离线大模型,并通过反射技术修改 Semantic Kernel 的 OpenAIClient 类,从而实现指定端点的功能。最后也推荐了一些学习 Semantic Kernel 的资料,希望能对你有所帮助。 封面图片: Dalle3 …

Java零基础教学文档servlet(1)

【Web开发和HTTP协议】 1. Web开发概述 1.1 web概述 万维网(英语:World Wide Web)亦作WWW、Web、全球广域网,是一个透过互联网访问的,由许多互相链接的超文本组成的信息系统。英国科学家蒂姆伯纳斯-李于1989年发明了…

更换为mainwindow.ui更新工程架构

文章目录 前言一、新建带mainwindow.ui的工程1.新建工程2. 添加工程模块添加opencv的库3.添加资源3.1工程上添加资源3.2引用资源 4.添加曲线文件4.1 复制关键文件到新工程4.2 新进显示曲线的ui带.h的为了方面名字取一样4.3添加曲线显示控件4.4 添加工具 5. 添加曲线.h文件内容6…

OpenCV-Python(39):Meanshift和Camshift算法

目标 学习了解Meanshift 和Camshift 算法在视频中找到并跟踪目标 Meanshift 原理 Meanshift算法是一种基于密度的聚类算法,用于将数据点划分为不同的类别。它的原理是通过数据点的密度分布来确定聚类中心,然后将数据点移动到离其最近的聚类中心&#…