NLP论文阅读记录 - 2022 | WOS 数据驱动的英文文本摘要抽取模型的构建与应用

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结


前言

在这里插入图片描述

Construction and Application of a Data-Driven Abstract Extraction Model for English Text(2204)

0、论文摘要

本文以单个英文文本为研究对象,采用数据驱动的方法研究文本摘要的自动提取方法。 +is论文以单个文本为研究对象,建立文章句子之间的连接关系,提出一种基于图模型和主题模型的文本摘要自动提取方法。 +e方法结合文本图模型、复杂网络理论和LDA主题模型构建句子综合评分函数来计算文本单句权重,并将文本阈值内的句子按降序输出作为文本摘要。 +e算法提高了文本摘要的可读性,同时为文本摘要提供了足够的信息。
在本文中,我们提出了一种基于神经主题模型的基于 BERT 的主题感知文本摘要模型。 +e方法利用神经主题模型编码的潜在主题嵌入表示与BERT的嵌入表示相匹配来指导主题生成,以满足文本语义表示的要求,并在端到端中联合探索主题推理和摘要生成。通过变压器架构以最终方式捕获语义特征,同时通过自我关注机制对远程依赖关系进行建模。
在本文中,我们提出了基于提取和生成算法的预训练模型的改进,使它们增强了全局信息记忆。结合两种算法的优点,提出了一种新的联合模型,使得能够生成与原始主题更加一致的摘要,并且对于均匀分布的文章信息具有降低的重复率。对多个数据集进行了对比实验,构建了小型均匀分布的私有数据集。在多次对比实验中,评价指标提高了高达2.5个百分点,证明了该方法的有效性,并构建了自动摘要生成原型系统来验证结果。

一、Introduction

1.1目标问题

+文本的价值不在于静态数据,而在于文本理解和传递所产生的数据和信息的价值。近年来,对大量文本的自动化处理而不是手动注释的需求不断增长,这迫使需要对机器进行训练来学习人类如何处理文本和理解通信[1]。自然语言处理的存在是为了让机器能够更好地模仿人类对自然语言的处理,能够像人脑一样智能地执行自动语音对话、自动文本编写和其他大数据任务等任务。在这个劳动力成本极其昂贵的大数据时代,自然语言处理技术可以从文本中获取大量信息和价值,成为未来人类与机器无障碍沟通的重要技术之一[2]。 TFIDF改善了词频统计方法的不足。除了考虑词频之外,它还计算词的逆文档频率。 +e的基本思想是,如果一个词出现在语料库中的大部分文章中,即使该词的词频很高,但它的TFIDF值也不一定很高。
尽管人工智能近年来在各个领域取得了快速发展,计算机比人类任何时代都更接近人脑,但计算机不是人脑,无法理解含义并准确生成认知。像人类一样阅读一些相关文本,但他们只能通过统计、机器学习、简单推理机和基本记忆机制来处理文档[3]。 +他们只能提取或简单地“思考处理”文档,通过统计、机器学习、简单的推理机以及基本的记忆机制来组成文章的最终摘要。本文的+e模型对于长文本的上下文语义获取更加准确,并且提高了长距离的依赖能力。当输入文本较短时,发现纯Transformer模型和PGEN模型的评价指标结果相似,说明简单的Transformer模型处理短文本的能力很强,生成能力可以媲美LSTM 网络增加了注意力机制。然而,我们期望文本摘要是对文本的“深刻理解”,而计算机并不能“理解”文档的真正含义。目前大多数关于自动文本摘要的研究倾向于从原始文本中提取表达文本核心含义的句子,使其包含尽可能多的文本信息[4]。然而,无论从文档中提取哪些句子,都无法完全表达文本的主要含义。近年来,随着神经网络序列模型和分布式表示学习在自然语言处理任务中的技术突破和创新,文本摘要及其应用越来越受到研究人员的关注。

1.2相关的尝试

1.3本文贡献

在社交网络时代,信息检索和自然语言处理中数据挖掘的快速发展使得自动文本摘要任务成为必要,如何有效地处理和利用文本资源已成为研究热点[5]。 +e 文本摘要任务旨在将文本转换为包含关键信息的摘要。当今的自动文本摘要方法主要分为提取模型和生成模型。尽管这些模型具有强大的编码能力,但它们仍然无法解决长文本依赖性和语义不准确的问题。因此,本文进行了深入研究,以进一步解决生成的摘要与源文本事实不匹配的主要问题[6]。

二.相关工作

+“数据驱动”一词最早来自计算机科学领域;当我们构建往往无法用准确真实(一般真实原理简单准确)方法解决的数学模型时,我们也会根据之前的历史数据,通过大量的数据细化,构建近似模型来逼近真实情况[7] ,由数据驱动控制模型得出。赫尔登斯等人。提出了模型驱动的数据再工程、用于创建元模型的模型转换 MDE 工具以及模型转换语言。 Bernhard Hohmann 提出了一种基于 GML 的建模语言来生成参数驱动的提取模型 [8]。在国外,数据驱动的方法已逐渐从通常用于计算机的数据转换和重新设计转向参数化设计和模型构建驱动。东北大学的徐和党在《数据驱动建模方法的仿真研究》中总结了联合供热站TE数据驱动建立的基于BP神经网络的模型[9]。徐等人。杜克大学的研究人员分析了 Revit Structure 和 Robot Structural Analysis 之间的双向联系,并将分析结果与 PKPM 的计算结果进行了比较 [10]。
自动文本摘要任务作为自然语言处理任务的重要分支受到越来越多的关注。从内容上来说,自动摘要分为单文档摘要和多文档摘要。从方法上来说,它分为抽取式总结和生成式总结[11]。主题建模是文本挖掘的强大工具之一,可以通过文本的先验知识挖掘数据之间、数据与文本之间的潜在联系。主题建模在处理离散数据的源文本时可以发挥最大的优势。 +这些模型使用吉布采样、非负矩阵分解、变分推理和其他机器学习算法从特征文本空间推断隐藏的主题信息,特别是对于高维和稀疏特征文本[12]。 +e概率主题模型诞生了,它从海量文本中提取出能够表达文本主题的主题词及其概率组合,并大量剖析文档语义,从而对文本进行更深层次的分类或聚类。早期的概率主题模型以PLSA和广泛使用的LDA模型为代表,吸引了越来越多的研究人员对主题模型从模型假设、参数推断、主题数量到监督等各个方面进行改进和应用。纳迪姆等人。使用LDA模型来标记源文本的主题,并使用形式概念分析来构建结构等等。拉金德拉等人。提出了一种启发式方法,通过潜在的狄利克雷分配技术来确保生成的文本包含语料库原始文档的必要组成信息,以匹配源文本的最佳主题数量[13]。此外,一些研究将基于Pinball分配模型(PAM)的两级主题模型与文本排名算法相结合来完成主题文本摘要。然而,这些传统的基于词共现的长文本主题建模算法有很大的局限性,文本中信息和词汇量有限的问题没有得到很好的解决[14]。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

本文基于数据驱动不确定性分析理论,提出一种数据驱动建模方法,通过对模型组件进行参数化设计,然后对其进行数据驱动分析,最后以Revit为载体进行参数化二次开发。组件来实现数据驱动建模。为了获得更高、更适合摘要的词向量表示,本文提出了一种结合词汇性的细粒度词向量表示方法,因为表示学习是进行自然语言处理的基础任务,也是后续进行自然语言研究的基石。相关任务。本文通过结合词汇和位置信息,构建了一种新的、细粒度的用于文本摘要的词向量表示,并结合<word,lexical>词向量的二维表表示来减少词向量查找表的大小,提高查询效率效率高,实验表明该方法具有更好的文本语义表示能力。由于现有方法大多关注摘要所包含的文本信息量而忽略摘要本身的连贯性,因此本文结合文本图模型、复杂网络理论和LDA主题模型构建句子综合评分函数来计算对文本单句进行加权,将文本阈值内的句子按降序输出作为文本摘要。 +e算法提高了摘要的可读性,同时在摘要中提供了足够的信息。在下一步的研究中,将加强对文本的语义分析,进一步完善文摘的语义信息;此外,还可以扩展自建语料库,探索本文方法对其他类型中文文本摘要的准确性和可读性的提高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/323113.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

社会科学杂志社会科学杂志社社会科学编辑部2023年第12期部分目录

铁路部门档案管理中存在的问题及对策 尚芝维 公共图书馆共享服务模式分析 高翔 关于加强国有企业固定资产管理的对策 任美琪 大数据时代高校档案管理人才队伍建设策略 胡永芳 数据治理背景下档案数据馆员能力建设研究 许颖 新时代事业单位档案管理人才培养…

做品牌,怎么挖掘用户深层需求?

品牌想要长久发展&#xff0c;就需要去挖掘用户深层需求&#xff0c;什么是用户深层需求&#xff0c;比如做美业的认为用户想要变美是深层次的需求&#xff0c;但其实由美貌带来的附加利益比如说更上镜、竞争优势更大等才属于深层需求&#xff0c;今天媒介盒子就来和大家聊聊&a…

基于树莓派5(Raspberry Pi 5)的高性能工业平板电脑升级版!

​ 上海晶珩继推出首个搭载 Raspberry Pi 5 的平板电脑ED-HMI3010系列后&#xff0c;又推出了具备高性能和多功能特性的 Raspberry Pi 5 的平板电脑ED-HMI3020系列。ED-HMI3020支持选择7英寸和10.1英寸两种尺寸的触摸屏&#xff0c;可选配 M.2 NVMe SSD 存储扩展&#xff0c;提…

ros rqt_bag 用法汇总和用例

文章目录 基本用法高级功能典型用例 rqt_bag 是一个用于ROS&#xff08;机器人操作系统&#xff09;中查看和编辑bag文件的工具。Bag文件是ROS用于记录和回放消息数据的一种格式。以下是 rqt_bag 的主要用法汇总和一些典型用例&#xff1a; 基本用法 启动 rqt_bag 在终端中输入…

FineBI实战项目一(19):每小时订单笔数分析开发

点击新建组件&#xff0c;创建下每小时订单笔数组件。 选择饼图&#xff0c;拖拽cnt&#xff08;总数&#xff09;到角度&#xff0c;拖拽hourstr到颜色&#xff0c;调节内径。 修改现在的文字 拖拽组件到仪表盘。 效果如下&#xff1a;

如何在 PHP 中动态调用类中的方法?

在PHP中&#xff0c;我们可以通过动态调用类方法的方式来实现更加灵活的编程。这种方法可以使我们在运行时根据具体的需要来动态调用类中的方法。 1.使用call_user_func函数 PHP中提供了call_user_func函数用于动态调用类方法。 call_user_func(array($object, $methodName), $…

网络机顶盒什么牌子好?横评30款整理网络机顶盒排行榜

网络机顶盒什么牌子好是大家热议话题&#xff0c;每次发布完测评后会有网友评论不知道如何挑选网络机顶盒&#xff0c;希望我能分享网络机顶盒排行榜&#xff0c;为此我自费购入三十款网络机顶盒&#xff0c;通过多角度对比后整理了这份网络机顶盒排行榜&#xff0c;想知道网络…

element + table 每两行对比相同值列合并

在开始之前先要明确几个概念&#xff1a; 保持不变&#xff1a;{ rowspan: 1, colspan: 1 } 删除一个单元格&#xff1a;{ rowspan: 0, colspan: 0 } 合并一个单元格&#xff1a;{ rowspan: 2, colspan: 1 } <template><div><el-table:data"tableData&quo…

1.15寒假集训

A: 解题思路&#xff1a; 题目意思就是找大于等于n的最小3的倍数&#xff0c;当&#xff4e;为&#xff13;的倍数时&#xff0c;最小就为&#xff4e;&#xff0c;否则输出&#xff13; * (n / 3 1)。 下面是c代码&#xff1a; #include<iostream> using namespace…

Java中单体应用锁的局限性分布式锁

互联网系统架构的演进 在互联网系统发展之初&#xff0c;系统比较简单&#xff0c;消耗资源小&#xff0c;用户访问量也比较少&#xff0c;我们只部署一个Tomcat应用就可以满足需求。系统架构图如下: 一个Tomcat可以看作是一个JVM进程&#xff0c;当大量的请求并发到达系统时&…

聚合收益协议 InsFi :打开铭文赛道全新叙事的旋转门

​“InsFi 协议构建了一套以铭文资产为基础的聚合收益体系&#xff0c;该体系正在为铭文资产捕获流动性、释放价值提供基础&#xff0c;该生态也正在成为铭文赛道掘金的新热土。” 在 2023 年年初&#xff0c;Ordinals 协议在比特币链上被推出后&#xff0c;为比特币链上带来了…

点击切换图片,样式

切换场景&#xff1a; 本文章向大家介绍uniapp之 点击图片切换&#xff0c;使用实例、应用技巧、基本知识点总结和需要注意事项&#xff0c;具有一定的参考价值&#xff0c;需要的朋友可以参考一下。 提示&#xff1a;点击时进行角色切换&#xff0c;【图片切换&#xff0c;并…

idea安装go

1.根据系统平台&#xff0c;下载安装Go&#xff1a; 知乎 - 安全中心 2.windows系统&#xff0c;下载安装MinGW(gcc)&#xff1a; 知乎 - 安全中心 3.安装后cmd输入一下 go env 4.代理设置 go env -w GOPROXYhttps://goproxy.cn,direct 5.idea插件安装 file->setti…

Pandas.DataFrame.loc[ ] 筛选数据-标签法 详解 含代码 含测试数据集 随Pandas版本持续更新

关于Pandas版本&#xff1a; 本文基于 pandas2.1.2 编写。 关于本文内容更新&#xff1a; 随着pandas的stable版本更迭&#xff0c;本文持续更新&#xff0c;不断完善补充。 Pandas稳定版更新及变动内容整合专题&#xff1a; Pandas稳定版更新及变动迭持续更新。 Pandas API参…

Win和Mac系统重置系统方法

注意&#xff1a;重置系统前&#xff0c;请备份好系统盘资料到其他盘符&#xff01;重置系统将会删除应用和系统设置&#xff0c;甚至用户文件&#xff0c;还原为出厂设置模式。 Windows重置系统操作方法。&#xff08;目前支持WIN8&#xff0c;WIN10&#xff0c;WIN11&#x…

Hotspot源码解析-第十九章-ClassLoaderData、符号表、字符串表的初始化

第十九章-ClassLoaderData初始化 讲解本章先从一张图开始 众所周知&#xff0c;Java类的相关信息都是存储在元空间中的&#xff0c;但是是怎么存储的&#xff0c;相信很多读者是不清楚的&#xff0c;这里就不得不涉及到ClassLoaderDataGraph、classLoader、classLoaderData&…

.Net6使用SignalR实现前后端实时通信

代码部分 后端代码 &#xff08;Asp.net core web api&#xff0c;用的.net6&#xff09;Program.cs 代码运行逻辑&#xff1a; ​1. 通过 WebApplication.CreateBuilder(args) 创建一个 ASP.NET Core 应用程序建造器。 2. 使用 builder.Services.AddControllers() 添加 MVC 控…

JavaScript之函数、数组作业

1.计算用户指定的数值内的奇数和&#xff0c;例如用户输入的是10&#xff0c;则计算1 3 5 7 9的和&#xff1b; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content&qu…

Mr_HJ / form-generator项目学习-增加自定义的超融组件(二)

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码&#xff1a; https://gitee.com/nbacheng/ruoyi-nbcio 演示地址&#xff1a;RuoYi-Nbcio后台管理系统 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a; https://gitee.com/nbacheng/n…