02 Pytorch_NLP

1. N-gram

n决定关联信息

2. TF____IDF 

TF:词频

IDF:逆向序列

        假如:TF * IDF 就是当前的文件,那么乘积反而更大!

                        因为它只出现在 特定的文章中!

TF-IDF 简介

TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词在文档集合中的重要程度。它由两部分组成:

  • TF(词频):一个词在文档中出现的次数。
  • IDF(逆文档频率):该词在整个语料库中出现的频率的逆。

代码示例

下面的代码展示了如何计算一个文本语料库中每个词的TF-IDF值,并将每个句子编码为一个包含这些TF-IDF值的向量。

from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档
documents = [
    "The cat sat on the mat",
    "The dog sat on the log",
    "The cat chased the mouse",
    "The dog chased the cat"
]

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 对文档进行TF-IDF转换
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取词汇表
feature_names = vectorizer.get_feature_names_out()

# 打印TF-IDF矩阵
print(tfidf_matrix.toarray())

# 打印词汇表
print(feature_names)

代码解释

  1. 创建示例文档:包含四个简单的句子。
  2. 创建TF-IDF向量化器:使用 TfidfVectorizer 类。
  3. 进行TF-IDF转换:将文档列表传递给向量化器的 fit_transform 方法,生成TF-IDF矩阵。
  4. 获取词汇表:使用 get_feature_names_out 方法获取词汇表中的词。
  5. 打印TF-IDF矩阵词汇表:分别打印TF-IDF矩阵和词汇表。

示例输出

假设上述代码的输出如下:

[[0.        0.        0.        0.469417   0.580285 0.469417   0.469417   0.        0.        0.        0.        ]
 [0.        0.        0.        0.469417   0.580285 0.469417   0.        0.469417   0.        0.        0.        ]
 [0.469417   0.469417   0.        0.        0.        0.        0.469417   0.        0.        0.580285 0.469417   ]
 [0.469417   0.469417   0.469417   0.        0.        0.        0.469417   0.        0.580285 0.        0.        ]]
['cat' 'chased' 'dog' 'log' 'mat' 'mouse' 'on' 'sat' 'the']

每一行对应一个文档,每一列对应一个词汇表中的词。值是该词在该文档中的TF-IDF值。

解释图片中的步骤

  1. 切分所有的词,记词的数量为 n

    • 对文档进行词切分,统计每个词的数量,得到词汇表大小 n。
  2. 计算每个词的 TF-IDF 值

    • 使用上面代码中的 TfidfVectorizer 计算每个词的 TF-IDF 值。
  3. 对每个句子进行编码

    • 使用 TF-IDF 值将每个句子编码为一个向量,向量的维度为 n。如果一个词在句子中出现,其值为该词的 TF-IDF 值,如果未出现则值为 0。
  4. 降维操作

    • 由于 n 可能很大,可以使用 PCA、SVD、LDA 等方法对向量进行降维。

这个过程可以将文档转化为向量表示,便于后续的机器学习和数据分析。


2.8 在比赛中的应用

3.Word2Vec算法简 

3.1数据挖掘 应用 

        

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/726824.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Ansys Mechanical|学习方法

Ansys Mechanical是Ansys的旗舰产品之一,涉及的学科体系全面丰富,包括的力学分支主要有理论力学,振动理论,连续介质力学,固态力学,物理力学,爆炸力学及应用力学等。 在自媒体及数字经济飞速发展…

【CSS in Depth2精译】1.2 继承~1.3 特殊值

文章目录 1.2 继承1.3 特殊值1.3.1 inherit 关键字1.3.2 initial 关键字1.3.3 unset 关键字1.3.4 revert 关键字 1.2 继承 除了层叠,还有一种给元素设置样式的方式:继承。经常有人把层叠与继承的概念弄混淆。它们虽然有关联,但也应该分辨清楚…

react实现窗口悬浮框,可拖拽、折叠、滚动

1、效果如下 2、如下两个文件不需要修改 drag.js import React from "react"; import PropTypes from "prop-types";export default class DragM extends React.Component {static propTypes {children: PropTypes.element.isRequired};static defaultP…

什么是片上端接校准(On Die Termination Calibration)技术?

On Die Termination Calibration 随着对于数字系统性能要求的不断提高,对信号完整性的要求也越来越高,从而能够在更高的速率下可靠运行。信号线端接是信号完整性管理中的有用元件,可以在memory外部或memory内部使用。在DRAM器件中加入电阻端接…

ChatmoneyAI如狂风般席卷广告创意舞台,轻松闯荡财富之海!

本文由 ChatMoney团队出品 引言 在广告创意行业,创新和高效是赢得市场的关键。而我今天要分享的就是如何利用ChatmoneyAI这款强大的人工智能工具,打破创新难题,赚取丰厚收益。 让我告诉你一个小秘密,有客户曾在一个月内&#xf…

React Native性能优化红宝书

一、React Native介绍 React Native 是Facebook在React.js Conf2015 推出的开源框架,使用React和应用平台的原生功能来构建 Android 和 iOS 应用。通过 React Native,可以使用 JavaScript 来访问移动平台的 API,使用 React 组件来描述 UI 的…

MATLAB直方图有关的函数

histogram Histogram plot画直方图 histcounts 直方图 bin 计数 histcounts是histogram的主要计算函数。 discretize 将数据划分为 bin 或类别 histogram2 画二元直方图 histcounts2 二元直方图 bin 计数 hist和histc过时了。替换不建议使用的 hist 和 histc 实例 hist → \r…

202483读书笔记|《把你写进诗歌里》——人生是一场不知何时散场的约会,爱慕向来短暂,失去才是唯一出路

202483读书笔记|《把你写进诗歌里》——人生是一场不知何时散场的约会,爱慕向来短暂,失去才是唯一出路 摘录 《把你写进诗歌里(2020年度中国优秀诗歌)》,作者上官文露。并不惊艳,中英文双语对照的一本诗集&…

压缩pdf文件大小在线,在线免费压缩pdf

在现在办公中,PDF文档已经成为我们日常工作中不可或缺的一部分。然而,随着文档内容的不断丰富,PDF文件的大小也逐渐增大,这不仅占用了大量的存储空间,而且在传输和共享时也显得尤为不便。所以有时候我们需要把pdf压缩小…

connect-caption-and-trace——用于共同建模图像、文本和人类凝视轨迹预测

介绍 论文地址:https://arxiv.org/abs/2105.05964 源码地址:https://github.com/facebookresearch/connect-caption-and-trace 在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两…

AI音乐大模型:是创意的助力还是产业的挑战?

近期音乐界迎来了一场前所未有的革命。随着多家科技公司纷纷推出音乐大模型,素人生产音乐的门槛被前所未有地拉低,一个崭新的“全民音乐时代”似乎已近在眼前。然而,在这场技术革新的浪潮中,关于AI产品版权归属、创意产业如何在AI…

服务器无法远程桌面连接,解决服务器进行无法远程桌面连接方法有哪些

当服务器无法建立远程桌面连接时,通常涉及多个层面的排查和修复。下面将详细列举一些专业的解决方法,以应对服务器远程桌面连接问题。 一、基础排查与验证 1. 确认网络连通性: - 使用ping命令检查客户端与服务器之间的网络连通性。 - …

数据结构之B数

目录 1.概述 2.特点 3.诞生 4.优缺点 4.1.优点 4.2.缺点 5.应用场景 6.C语言中的B树实现例子 7.总结 1.概述 B树(B-tree)是一种自平衡的树数据结构,广泛应用于数据库和文件系统中,以便高效地进行顺序读取、写入以及查找…

Cytoscape之操作界面介绍

Cytoscape 简介 Cytoscape是一个专注于开源网络可视化和分析的软件。软件的核心部分提供了网络显示、布局、查询等方面的基本功能。软件的核心可以通过插件架构进行扩展,这样就能快速地开发出新的功能。 Cytoscape 源自系统生物学,用于将生物分子交互网…

win10成功安装stable-diffusion-webui

目录 1.python下载安装 2.git下载安装 3.stable-diffusion-webui下载 4.安装s-d-webui的依赖包(用国内镜像提速) 5.git下载的stable-diffusion-webui,依赖包提示已安装,但运行webui-user.bat后,又开始下载 6.修改…

2024最新AI大模型-LLm八股合集(八)-Transformer模型

更多2024最新AI大模型-LLm八股合集可以拉到文末!!! MHA & MQA & MGA (1)MHA 从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换层,其实并不是,只有使用了一…

ARM Linux 设备树详细介绍(1)

1. ARM&Device&Tree 起源 Linus Torvalds 在 2011 年 3 月 17 日的 ARM Linux 邮件列表宣称“this whole ARM thing is a f*cking pain in the ass”,引发 ARM Linux 社区的地震,随后 ARM 社区进行了一系列 的重大修正。 在过去的 ARM Linux 中&…

Pointnet++改进即插即用系列:全网首发FastKAN|即插即用,提升特征提取模块性能

简介:1.该教程提供大量的首发改进的方式,降低上手难度,多种结构改进,助力寻找创新点!2.本篇文章对Pointnet++特征提取模块进行改进,加入FastKAN,提升性能。3.专栏持续更新,紧随最新的研究内容。 目录 1.理论介绍 2.修改步骤 2.1 步骤一 2.2 步骤二 2.3 步骤三 1.理…

360vr党建线上主题展立体化呈现企业的文化理念和品牌形象

在现代科技的引领下,艺术与VR虚拟现实技术相融合必将成为趋势,深圳VR公司华锐视点荣幸地推出VR艺术品虚拟展厅,为您带来前所未有的艺术观赏体验。体验者足不出户即可置身于一个充满创意与灵感的虚拟艺术空间。 我们深入了解每一位客户的需求与…

计算机网络 —— 应用层(万维网)

计算机网络 —— 应用层(万维网) 万维网核心组成部分特点 URLHTTP版本请求消息结构响应消息结构工作流程 Cookie如何工作主要用途安全与隐私类型 Web缓存客户端缓存(浏览器缓存)服务器端缓存 今天我们来了解万维网: 万…