【人工智能】文本提取技术的算法延伸

在这里插入图片描述

✍🏻记录学习过程中的输出,坚持每天学习一点点~
❤️希望能给大家提供帮助~欢迎点赞👍🏻+收藏⭐+评论✍🏻+指点🙏
在这里插入图片描述

文本提取技术中用到的算法

TF-IDF(Term Frequency-Inverse Document Frequency)

TF-IDF是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TFIDF实际上是:TF * IDF
TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的频率,对于某一特定文件里的词语来说,它的重要性可表示为:
在这里插入图片描述

以上式子中分子式该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。IDF逆向文件频率(Inverse Document Frequency)是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数据除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到:
[图片]

其中,|D|为语料库中的文件总数。由于考虑到词语可能不在语料库中,所以用这个分母表示。然后再计算TF与IDF的乘积。
[图片]

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

TextRank

概念
TextRank算法是一种用于从文本中提取关键信息的算法,它基于图的排序算法。该算法的基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(如单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序。TextRank算法不需要事先对多篇文档进行学习训练,仅利用单篇文档本身的信息即可实现关键词提取、文摘等任务。

流程
TextRank算法的一般流程如下:

文本预处理:将所有文章整合成文本数据,并进行必要的文本清洗和分词处理。
构建图模型
关键词提取:将文本中的每个单词视为一个节点,通过设置一个滑动窗口(例如长度为N),将窗口内的词视为相邻节点,构建无向词图。
句子提取:将文本中的每个句子视为一个节点,计算句子之间的相似性(如使用同时出现在两个句子中的词的个数作为相似度衡量标准),并根据相似度构建以句子为节点、相似性得分为边的图结构。
权重计算:在图中,每个节点都有一个初始的权重值。通过迭代计算,根据节点与其他节点之间的关联以及它们之间的权重值,不断更新节点的权重值,直到收敛为止。
结果提取
关键词提取:根据节点的权重值,选择权重值较高的节点作为关键词。
句子提取:根据节点的权重值(即句子的TextRank值),选择权重值较高的句子作为文本摘要。
应用场景
TextRank算法在文本处理领域有着广泛的应用,包括但不限于以下场景:

文本摘要:通过提取文本中权重值较高的句子,自动生成文本摘要,帮助用户快速了解文本的主要内容。
关键词提取:从文本中提取出权重值较高的单词或短语,作为文本的关键词,有助于用户快速了解文本的主题和重点。
内容管理:在内容管理系统中,可以使用TextRank算法对文章进行分类、标签生成、推荐等,提高内容管理的效率和质量。
问答系统:在问答系统中,可以使用TextRank算法对问题和答案进行相似度计算,从而找到与问题最匹配的答案。
社交网络分析:在社交网络分析中,TextRank算法可以用于分析用户生成的内容(如微博、评论等),提取关键信息,帮助理解用户的兴趣和行为。
通过以上介绍,可以看出TextRank算法在文本处理领域具有广泛的应用前景和实用价值。

LDA(Latent Dirichlet Allocation)

概念
LDA(Latent Dirichlet Allocation)是一种概率模型,属于生成模型的一种,用于从文档集合中发掘隐藏的主题结构。它假设每篇文档都是由一系列主题(Theme)按照一定的比例混合而成,而每个主题又由一系列词汇按照特定的概率分布来表达。LDA利用贝叶斯统计方法,通过迭代计算来估计出文档-主题分布和主题-词分布,从而揭示文档集中的隐含主题结构。

流程

  1. 初始化:为每个文档的每个单词随机分配一个主题标签,同时初始化文档-主题分布θ和主题-词分布β的参数。
  2. 采样:对于每篇文档中的每个词,依据当前的文档-主题分布和主题-词分布,重新采样这个词的主题标签,使得分配更加合理。
  3. 更新参数:根据新的主题分配,更新文档-主题分布θ和主题-词分布β的参数。
  4. 重复迭代:重复执行采样和参数更新步骤,直到模型参数收敛,即主题分配稳定或达到预定的迭代次数。

应用场景

  1. 文本挖掘与分析:LDA常用于新闻文章、社交媒体内容、科研论文等大量文本数据的分析,帮助理解数据中的主要话题。
  2. 文档分类与聚类:基于LDA提取的主题,可以作为文档的特征向量,用于文档的自动分类或聚类。
  3. 推荐系统:结合用户行为数据和内容信息,LDA可以帮助构建个性化推荐系统,提升推荐的准确性和多样性。
  4. 信息检索与过滤:通过主题建模优化查询扩展和相关性排名,提高搜索引擎的性能。
  5. 市场研究:分析消费者评论或反馈,发现产品特性、品牌印象等市场热点,指导营销策略。
  6. 社交网络分析:理解用户兴趣、社群结构,为用户画像和社群发现提供依据。

LDA因其强大的主题发现能力,在多个领域展现出广泛的应用价值,特别是在处理大规模无结构文本数据时,能够有效地提取出有价值的信息模式。

Word2Vec

概念
Word2Vec是一种用于学习文本数据中词的向量表示(词嵌入)的技术,由Google在2013年开源。它通过浅层神经网络模型,将自然语言中的词汇映射到一个连续的向量空间中,使得语义上相似的词在该空间中的向量也相近。Word2Vec不仅保留了词语的语法和语义信息,还能捕捉到词语之间的复杂关系,如类比推理(“国王"相对于"女王"就像"男人"相对于"女人”)。

流程
Word2Vec主要包含两种模型:CBOW(Continuous Bag of Words)和Skip-gram。其基本流程如下:

  1. 数据预处理:将原始文本数据清洗并转换成词序列,通常需要去除停用词、标点符号,并进行词干提取或词形还原。

  2. 模型选择与设置:选择CBOW或Skip-gram模型,设定向量的维度(比如100、300维)、窗口大小(决定上下文的范围)等超参数。

  3. 训练

    • CBOW:根据中心词周围的上下文词预测中心词。模型试图最小化从上下文词向量的组合预测中心词的概率的负对数似然。
    • Skip-gram:相反,给定一个中心词,预测其周围的上下文词。模型通过最大化给定中心词向量预测其上下文词的概率来学习。
  4. 优化:使用梯度下降法或其他优化算法,如Negative Sampling或Hierarchical Softmax来加速训练过程并减少计算复杂度。

  5. 输出:训练完成后,每个词都被赋予一个高维向量,这些向量就是最终的词嵌入,可用于后续的自然语言处理任务。

应用场景

  1. 语义相似度计算:通过计算词向量间的余弦相似度或欧氏距离,评估词语间的语义相似度,用于信息检索、推荐系统中的相关性排序。
  2. 文本分类与情感分析:词嵌入作为文本特征,增强模型理解文本的能力,提高分类准确性。
  3. 机器翻译:词向量可以作为跨语言模型的输入,帮助捕捉不同语言间词汇的对应关系。
  4. 文本生成:基于词向量的连续性,可以用于生成连贯的文本段落。
  5. 命名实体识别:词嵌入有助于模型理解上下文,从而更准确地识别出文本中的实体。
  6. 问答系统:利用词向量理解问题与答案的语义,提升问答系统的精确匹配度。

Word2Vec由于其高效和强大的泛化能力,已经成为自然语言处理领域的重要基石之一。

深度学习算法

概念
深度学习算法是机器学习的一个子领域,它使用深层的神经网络结构来学习复杂的数据表示。这些网络由多个层次组成,每一层对输入数据进行逐步的抽象和转换,从低级特征逐渐提炼到高级特征。深度学习算法的核心在于其自动特征学习能力,即不需要手动设计特征,而是让模型从原始数据中自动学习有用的表示。

主流学习模型及其特点和应用

  1. 循环神经网络 (RNN):

    • 特点: RNN具有循环结构,允许信息在序列中传递,使得每个时间步的输出不仅依赖于当前输入,还依赖于过去的信息。LSTM(长短期记忆)和GRU(门控循环单元)是RNN的变种,通过门机制解决了长期依赖问题。
    • 应用: 适用于时间序列数据处理,如自然语言处理(NLP)、语音识别、音乐生成、股票市场预测等。
  2. 卷积神经网络 (CNN):

    • 特点: 利用卷积层和池化层高效提取数据的局部特征,特别是对于图像和音频信号,能够通过权值共享减少参数量,提高模型效率。
    • 应用: 主要用于图像识别、物体检测、视频分析、语音识别、图像生成等领域。
  3. Transformer:

    • 特点: 引入自注意力机制,能够并行处理整个序列,有效处理长距离依赖,无需递归结构,提高了处理速度和模型规模。
    • 应用: 在自然语言处理领域取得了巨大成功,如机器翻译、文本摘要、问答系统、情感分析等,代表性模型包括BERT、GPT系列。
  4. BERT (Bidirectional Encoder Representations from Transformers):

    • 特点: 使用双向Transformer编码器学习文本的深度上下文表示,能够理解词汇在句子中的前后文关系。
    • 应用: 在多项NLP任务中刷新纪录,包括问答、文本分类、命名实体识别等。
  5. GPT (Generative Pre-trained Transformer):

    • 特点: 是一种生成式的预训练模型,基于Transformer架构,通过无监督学习在大量文本数据上预先训练,然后针对特定任务进行微调。
    • 应用: 文本生成、语言建模、对话系统、文章创作等,特别是在生成连贯、高质量的文本内容方面表现突出。

这些模型的特点和应用展示了深度学习在处理不同类型数据和解决复杂问题上的强大灵活性和有效性。随着技术的不断进步,深度学习算法正被不断探索和优化,以适应更多领域和挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/702598.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据分类分级,误把起点当终点

数据分类分级 吉祥学安全知识星球🔗除了包含技术干货:Java代码审计、web安全、应急响应等,还包含了安全中常见的售前护网案例、售前方案、ppt等,同时也有面向学生的网络安全面试、护网面试等。 01 — 数据分类分级的定义 数据分…

Tuxera NTFS for Mac 2023软件:超级详细安装步骤(最新版软件下载)

软件简介: 在 Mac 上打开、编辑、复制、移动或删除存储在 Windows NTFS 格式 USB 驱动器上的文件。当您获得一台新 Mac 时,它只能读取 Windows NTFS 格式的 USB 驱动器。要将文件添加、保存或写入您的 Mac,您需要一个附加的 NTFS 驱动程序。…

论文Abstract怎么写

摘要是你要写的最后一项内容 步骤 首先先通读自己的文章,清楚自己写的文章是研究型还是技术型,适合描述性的摘要还是知识性。 描述性摘要内含研究目的、目标及方向等,不讲研究结果。字数大约100-200字。知识性摘要则包含研究结果&#xff0c…

语法05 C++ 浮点型/实数类型

什么是实数类型 实数类型是一种数据类型&#xff0c;实数类型变量里能存放小数和整数。 定义格式&#xff1a;double a; 赋值&#xff1a;a0.4; 输入&#xff1a;cin>>a; 输出&#xff1a;cout<<a; 训练&#xff1a;尺子的价格 小知在文具店买铅笔&#xff…

如何用Vue3构建一个交互式音乐播放器

本文由ScriptEcho平台提供技术支持 项目地址&#xff1a;传送门 Vue.js 开发音乐播放器卡片 应用场景 这款音乐播放器卡片旨在为音乐应用程序提供一个现代而交互式的用户界面。它包含诸如歌曲信息、播放进度条和控制按钮等关键功能。 基本功能 **歌曲信息显示&#xff1a…

The Sandbox 游戏创作比赛|巴黎 CITY JAM

The Sandbox City Jam 邀请大家参与 The Sandbox 全新 Game Jam&#xff1a;City Jam&#xff01;活动将以社区为中心&#xff0c;每次一个城市&#xff0c;旨在将国际文化带入The Sandbox。你可以通过参与比赛赢得奖品&#xff0c;发展技能&#xff0c;并与其他创作者为伴&…

国标GB28181安防视频监控EasyCVR平台级联时上级平台不显示通道是什么原因?

国标GB28181安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台部署轻快&#xff0c;可支持的主流标准协议有GA/T 1400、国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。 有用户反馈&#xff…

【大模型应用开发极简入门】提示工程一:1. 通过context、task、role文本结构设计有效的提示词、 2. OpenAI的提示词任务示例

文章目录 一. chat_completion函数二. 设计有效的提示词1.上下文1.1. 更多细节的上下文1.2. 让GPT改进上下文 2.任务2.1. 提供足够的任务信息2.2. OpenAI的任务示例语法纠正总结TL;DR概要Python转自然语言计算时间复杂度修复Python bug产生python函数 3.角色 了解LLM和OpenAI A…

IEOSE 2024北京国际教育留学海外院校展览会11月举办

IEOSE 2024北京国际教育留学展览会 IEOSE 2024 Beijing International Education and Overseas Study Exhibition 2024年11月15日-11月17日&#xff08;周五-周日&#xff09; 15th-17th November, 2024 北京国家会议中心 China National Convention Ce…

【Three.js】知识梳理十:Three.js纹理贴图

1. 纹理贴图 在Three.js中&#xff0c;纹理贴图是一种将二维图像贴到三维物体表面的技术&#xff0c;以增强物体的视觉表现。纹理贴图可以使物体表面更加真实、细腻&#xff0c;为场景增色不少。 在Three.js中&#xff0c;纹理贴图的加载主要通过THREE.TextureLoader类实现。…

LeetCode | 26.删除有序数组中的重复项

在我接触到这道题的时候想的就是一次遍历&#xff0c;设置两个变量记录当前遍历到的数字和对应原数组应该修改的index&#xff0c;在运行过程中&#xff0c;因为原数组已经是有序的了&#xff0c;只不过会存在重复的数字&#xff0c;但是这些重复的数字也是挨在一起的&#xff…

RT-Thread系统使用STM32H7芯片串口5不工作

使用stm32h743芯片串口5不工作&#xff0c;其他串口都正常&#xff0c;TX5->PC12,RX5->PD2 drv_usart.c里面串口5的TX和RX反了&#xff0c;将TX和RX对调后解决。

opencv学习笔记 -- 如何扫描图像

本节主要解决以下几个问题&#xff1a; 如何遍历图像的每一个像素如何存储opencv的矩阵如何衡量算法的性能查询表是什么并且为何要使用该表 举一个例子 如果是使用RGB的格式&#xff0c;数据格式采用unsigned char来进行储存&#xff0c;则每个像素点有256个不同的值&#x…

如何给自己的项目实现在线测试的接口文档knife4j

配置实现Knife4j在线接口测试文档 为什么要是实现这个东西呢&#xff1f;肯定是对我们有用的&#xff0c;后端主要编写的就是接口&#xff0c;然后我们将接口编写好了之后肯定还是需要进行调试看是否能够正常使用且按照规范返回对应的数据。相信大家测试都是基本上使用的是一些…

【紧急警示】Locked勒索病毒利用最新PHP远程代码执行漏洞大规模批量勒索!文末附详细加固方案

1. Locked勒索病毒介绍 locked勒索病毒属于TellYouThePass勒索病毒家族的变种&#xff0c;其家族最早于2019年3月出现&#xff0c;擅长利用高危漏洞被披露后的短时间内&#xff0c;利用1Day对暴露于网络上并存在有漏洞未修复的机器发起攻击。该家族在2023年下半年开始&#xf…

【CS.PL】Lua 编程之道: 基础语法和数据类型 - 进度16%

2 初级阶段 —— 基础语法和数据类型 文章目录 2 初级阶段 —— 基础语法和数据类型2.0 关键字(keywords) &#x1f525;2.1 注释与标识符2.1.1 注释2.1.2 标识符 2.2 变量与赋值2.2.1 所有变量默认是全局变量 ≠ local, 有一个例外2.2.2 local变量是局部变量, 以end作为边界2.…

ARM32开发--RTC内置实时时钟

知不足而奋进 望远山而前行 目录 系列文章目录 文章目录 前言 学习目标 学习内容 RTC时钟介绍 RTC结构框图 RTC原理图 RTC时钟电源 RTC的配置流程 RTC时钟 开发流程 RTC初始化 时钟配置 时钟获取 BCD格式转化 完整代码 RTC时钟备份寄存器 总结 前言 在嵌入式…

【CS.DB】深度解析:ClickHouse与Elasticsearch在大数据分析中的应用与优化

文章目录 《深入对比&#xff1a;在大数据分析中的 ClickHouse和Elasticsearch》 1 介绍 2 深入非关系型数据库的世界2.1 非关系型数据库的种类2.2 列存储数据库&#xff08;如ClickHouse&#xff09;2.3 搜索引擎&#xff08;如Elasticsearch&#xff09;2.4 核心优势的归纳 3…

准研究生了解内容:如何挑选论文并下载

本文主要纪录自己从0开始摸索如何找论文&#xff0c;下载论文等的过程。 前言 &#xff08;一点想法&#xff09;## 作为准研究生&#xff0c;上岸后一直非常颓废&#xff0c;除了给人补课挣了点money&#xff0c;剩下时间都是打游戏&#xff0c;被老姐训诫后决定继续学习。毕…

跟着AI学AI_07张量、数组、矩阵

说明这三个概念不是一个范畴的东西&#xff0c;但是很容易混淆&#xff0c;因此放到一起进行说明。 张量&#xff08;Tensor&#xff09; 张量是一个多维数组的通用概念&#xff0c;用于表示具有任意维度的数值数据。在数学和计算机科学中&#xff0c;张量是广泛用于表示数据的…