NLP论文阅读记录 - 2022 | WOS 一种新颖的优化的与语言无关的文本摘要技术

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.前提
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

A Novel Optimized Language-Independent Text Summarization Technique(2204)

0、论文摘要

大量文本数据以多种语言以电子方式呈现。这些文本将齿轮导向信息冗余。消除这种冗余并减少这些数据的读取时间至关重要。因此,我们需要一种计算机化的文本摘要技术来从具有相关主题的文本文档组中提取相关信息。
本文提出了一种与语言无关的提取摘要技术。所提出的技术提出了一种基于聚类的优化技术。聚类技术确定文本的主要主题,而所提出的优化技术则最大限度地减少冗余并最大化重要性。
使用英语的 BillSum 数据集、德语和俄语的 MLSUM 以及阿拉伯语的 Mawdoo3 来设计和评估实验。使用 ROUGE 指标评估实验。结果表明,与其他依赖于语言和独立于语言的摘要技术相比,所提出的技术是有效的。我们的技术为所有使用的数据集实现了更好的 ROUGE 指标。
对于使用所有三个目标的所有数据集,该技术平均实现了 Rouge-1 41.9%、Rouge-2 18.7%、Rouge-3 39.4% 和 Rouge-4 16.8% 的 F 测量。我们的系统还表现出 26.6%、35.5%、34.65% 和 31.54% w.r.t. 的改进。最近的模型在 ROUGE 度量评估方面对 BillSum 的总结做出了贡献。我们的模型的性能高于对比模型,特别是在二元匹配的 ROUGE_2 的度量结果中。

一、Introduction

1.1目标问题

大量不同语言的电子数据增加了从中挖掘有用信息的难度。人们很难阅读如此庞大的文章信息。因此,有必要采用计算机化的摘要技术来推断重要的内容。并迅速突出信息。计算机摘要技术已应用于不同领域,例如网页和在线表格。例如,[1] 中的作者建议使用文本标记提取来改善搜索结果。 [2] 中的作者提出了一种用于媒体分析的文本标记提取方法。与语言无关的摘要提取器是语言分析应用程序。它们的目标是从单个或多文本文档生成较短的文本,同时保持含义。摘要技术可以根据输入、语言、方法或输出进行分类,如图 1 所示[3,4]。可以对单个文本文档或多文本文档的输入进行摘要。在多文本文档摘要中使用一组相关的文本文档。单文本文档源不会显示不一致,但是,在多文本文档源中可能会发现冲突和冗余。因此,多文本文档源摘要比单源文本文档更困难[3-5]。此外,摘要输出可以是非特定的,讨论一个巨大的社区,也可以是基于文本标记的,强调与文本标记相关的特定主题。这对于将该技术分类为指示性过程非常重要[3,4]。
摘要过程也可以定义为提取式,其中摘要输出是通过根据语言特征和统计方面选择主要短语来生成基于加权和的解决方案[3-8]。而摘要依赖于使用自然语言处理技术分析文本语义来生成掌握源文本文档中主要思想的新短语[3,4]。摘要概要更易于理解,类似于人类所做的摘要,但它们需要对源文本有深刻的了解,并且还需要解析器和文本生成器[6,7]。深度学习和迁移学习可以用于抽象概括。深度学习通常可以产生良好的结果。提取摘要利用预定义的特征选择重要的短语。然后组合所选短语以产生摘要输出。在多文本文档中,由于从多个文本文档中挖掘短语,因此出现了冗余问题。在这种情况下必须处理冗余。此外,受限摘要需要选择最佳的摘要输出,而不是杰出的短语。因此,多文本文档摘要将导致全局优化需求[8-10]。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:
1.本文提出了一种与语言无关的提取摘要技术。
2.所提出的技术提出了一种基于聚类的优化技术。
3. 聚类技术确定文本的主要主题,而所提出的优化技术则最大限度地减少冗余并最大化重要性。
4. 针对不同语言设计并评估实验,以证明模型的独立特征。
5. 在英语、德语、俄语和阿拉伯语语言的数据集上进行实验。

二.前提

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

总之,我们将多语言无关的文本摘要过程制定为目标优化过程(同时最大化多个目标)。该模型采用四个阶段:第一阶段是预处理过程,然后进行特征提取和聚类,最后一个阶段是多目标同时优化。通过标记化、停用词去除和规范化等预处理,以统一的形式对句子进行建模。选择统计特征并将其用于每个短语的重要性评分。相关文档的主题是使用质心聚类来定义的。最后一个阶段使用多目标优化进化方法生成最佳摘要,最大化重要性并最小化冗余。结果通过测量 ROUGE 指标验证了我们的模型相对于最先进模型的有效性。我们仍然有一些限制,如下:(i)句子分数是通过实验计算的,可以通过遗传算法计算,以及(ii)我们没有包括输出的一致性,我们可以将其包括到要优化的目标中。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/321230.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统编程(十):线程同步(下)

参考引用 UNIX 环境高级编程 (第3版)嵌入式Linux C应用编程-正点原子 1. 为什么需要线程同步? 线程同步是为了对共享资源的访问进行保护 共享资源指的是多个线程都会进行访问的资源(如:全局变量) 保护的目的是为了解决数据一致性…

前端对接电子秤、扫码枪设备serialPort 串口使用教程

因为最近工作项目中用到了电子秤,需要对接电子秤设备。以前也没有对接过这种设备,当时也是一脸懵逼,脑袋空空。后来就去网上搜了一下前端怎么对接,然后就发现了SerialPort串口。 Serialport 官网地址:https://serialpo…

C# 静态代码织入AOP组件之肉夹馍

写在前面 关于肉夹馍组件的官方介绍说明: Rougamo是一个静态代码织入的AOP组件,同为AOP组件较为常用的有Castle、Autofac、AspectCore等,与这些组件不同的是,这些组件基本都是通过动态代理IoC的方式实现AOP,是运行时…

Mysql-redoLog

Redo Log redo log进行刷盘的效率要远高于数据页刷盘,具体表现如下 redo log体积小,只记录了哪一页修改的内容,因此体积小,刷盘快 redo log是一直往末尾进行追加,属于顺序IO。效率显然比随机IO来的快Redo log 格式 在MySQL的InnoDB存储引擎中,redo log(重做日志)被用…

【EMC专题】浪涌的成因与ICE 61000-4-5标准

什么是浪涌? 浪涌是一种无法预料的瞬态电压或电流尖峰,由附近的电子产品或是环境导致。 了解浪涌非常重要,因为浪涌有可能会导致设备的电气过应力损坏,造成系统故障等。 对于系统设计来说,重要的一点是我们如果无法控制浪涌的产生,那么只能通过将瞬态峰值电流导入到地,…

Mysql查询与更新语句的执行

一条SQL查询语句的执行顺序 FROM&#xff1a;对 FROM 子句中的左表<left_table>和右表<right_table>执行笛卡儿积&#xff08;Cartesianproduct&#xff09;&#xff0c;产生虚拟表 VT1 ON&#xff1a;对虚拟表 VT1 应用 ON 筛选&#xff0c;只有那些符合<join_…

Kafka消费全流程

Kafka消费全流程 1.Kafka一条消息发送和消费的流程图(非集群) 2.三种发送方式 准备工作 创建maven工程&#xff0c;引入依赖 <dependency><groupId>org.apache.kafka</groupId><artifactId>kafka-clients</artifactId><version>3.3.1&l…

UDS 诊断通讯

UDS有哪些车型支持 UDS(统一诊断服务)协议被广泛应用于汽车行业中,支持多种车型。具体来说,UDS协议被用于汽车电子控制单元(ECU)之间的通讯,以实现故障诊断、标定、编程和监控等功能。 支持UDS协议的车型包括但不限于以下几种: 奥迪(Audi)车型:包括A3、A4、A5、A6…

C++I/O流——(4)文件输入/输出(第一节)

归纳编程学习的感悟&#xff0c; 记录奋斗路上的点滴&#xff0c; 希望能帮到一样刻苦的你&#xff01; 如有不足欢迎指正&#xff01; 共同学习交流&#xff01; &#x1f30e;欢迎各位→点赞 &#x1f44d; 收藏⭐ 留言​&#x1f4dd; 含泪播种的人一定能含笑收获&#xff…

外部晶振、复位按键、唤醒按键、扩展排针原理图详解

前言&#xff1a;本文对外部晶振、复位按键、唤醒按键、扩展排针原理图详解。本文使用的MCU是GD32F103C8T6 目录 外部晶振原理图 复位按键、唤醒按键原理图 扩展排针部分原理图 ​外部晶振原理图 如下图&#xff0c;两个外部晶振&#xff0c;分别是8M&#xff08;主晶振&a…

git的三种状态概念

git的三种状态 Git 有三种状态&#xff0c;你的文件可能处于其中之一&#xff1a; 已提交&#xff08;committed&#xff09;、已修改&#xff08;modified&#xff09; 和 已暂存&#xff08;staged&#xff09;。 已修改表示修改了文件&#xff0c;但还没保存到数据库中。 …

Rust-函数

简介 Rust的函数使用关键字fn开头。 函数可以有一系列的输入参数&#xff0c;还有一个返回类型。 函数体包含一系列的语句(或者表达式)。 函数返回可以使用return语句&#xff0c;也可以使用表达式。 Rust编写的可执行程序的入口就是fn main()函数。 以下是一个函数的示例…

案例121:基于微信小程序的作品集展示系统设计与实现

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

解决ERROR 24680 --- [ main] o.a.catalina.core.AprLifecycleListener 报错:

1.报错全称&#xff1a; ERROR 24680 --- [ main] o.a.catalina.core.AprLifecycleListener : An incompatible version [1.2.32] of the Apache Tomcat Native library is installed, while Tomcat requires version [1.2.34] 2.解决方案&#xff1a; 步骤一 在…

高创新!EI论文复现+改进:聚合温度调控策略的综合能源系统/微电网/虚拟电厂多目标优化调度程序代码!

程序考虑供热的热惯性&#xff0c;并根据室内供热效果进行柔性供热&#xff0c;发挥热温度负荷的“储能”能力&#xff1b;针对普适性参数的室内空调进行集群研究&#xff0c;深入剖析温度设定值调整导致负荷波动的机理&#xff0c;并提出一种新的温度调整方法&#xff0c;平抑…

「 典型安全漏洞系列 」03.跨站请求伪造CSRF详解

引言&#xff1a;CSRF&#xff08;Cross-Site Request Forgery&#xff0c;跨站请求伪造&#xff09;是一种攻击技术&#xff0c;通过使用用户的身份进行不诚实地操作&#xff0c;恶意用户可以在受害者&#xff08;目标&#xff09;的机器上执行一些未授权的操作。这可能会危及…

行业分享----dbaplus174期:美团基于Orchestrator的MySQL高可用实践

记录 MySQL高可用方案-MMM、MHA、MGR、PXC https://blog.csdn.net/jycjyc/article/details/119731980 美团数据库高可用架构的演进与设想 https://tech.meituan.com/2017/06/29/database-availability-architecture.html

推荐一款通过ssh连接linux服务的开源工具WindTerm

文章目录 前言WindTerm介绍WindTerm使用主密码和锁屏总结 前言 工作一入门便是游戏服务器开发&#xff0c;所以常常有连接Linux服务器的需求&#xff0c;之前用的最多的是Xshell&#xff0c;最近这个软件个人版只能免费使用一个月了&#xff0c;超过时间会提示更新无法正常使用…

NLP论文阅读记录 - 2022 WOS | 语义提取文本摘要的新方法

文章目录 前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献 二.背景三.本文方法四 实验效果4.1数据集4.2 对比模型4.3实施细节4.4评估指标4.5 实验结果4.6 细粒度分析 五 总结思考 前言 A Novel Approach for Semantic Extractive Text Summarization&…

面向对象三大特征之三:多态--java学习笔记

什么是多态 多态是在继承/实现情况下的一种现象&#xff0c;表现为&#xff1a;对象多态、行为多态 对象多态&#xff1a;举个栗子&#xff0c;比如一个人&#xff0c;他可以是一个老师&#xff0c;也可以是一个歌手&#xff0c;也可以是一个丈夫...... 行为多态&#xff1a;举…