N5 使用Gensim库训练Word2Vec模型

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊# 前言

前言

这周学习训练一个Word2Vec模型，并进行一些基本的词向量操作。

Word2Vec 模型

Word2Vec 是一种基于神经网络的词向量表示方法，通过从大规模文本语料中学习到的词向量，捕捉词汇之间的语义关系。

训练一个Word2Vec模型

1. 导入所需的库

import jieba
import jieba.analyse
import chardet

jieba用于中文分词。
chardet用于检测文件编码。
jieba.analyse用于关键词提取（未在本代码中使用）。

2. 添加自定义词频

jieba.suggest_freq('沙瑞金', True)
# ... (其他类似的词)
jieba.suggest_freq('赵德汉', True)

suggest_freq方法用于调整词频，使得分词器能够更好地识别这些特定词汇。

3. 读取和分词处理文本文件

result_cut = []
with open('./in_the_name_of_people.txt', 'rb') as f:
    raw_data = f.read()
    encoding = chardet.detect(raw_data)['encoding']
    lines = raw_data.decode(encoding).splitlines()
    for line in lines:
        result_cut.append(list(jieba.cut(line)))

以二进制方式读取文本文件内容。
使用chardet检测文件编码，并进行解码。
将文本按行分割，并对每行使用jieba.cut进行分词，结果存入result_cut列表。

4. 去除停用词

stopwords_list = ["，", "。", "\n", "\u3000", " ", "：", "！", "？", "…"]

def remove_stopwords(ls):
    return [word for word in ls if word not in stopwords_list]

result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]

定义一个停用词列表，包括常见的标点符号和空格。
remove_stopwords函数用于从分词结果中去除停用词。
对分词结果result_cut应用remove_stopwords函数，得到result_stop。

5. 训练Word2Vec模型

from gensim.models import Word2Vec

model = Word2Vec(result_stop, 
                 vector_size=100, 
                 window=5, 
                 min_count=1)

使用gensim库的Word2Vec模型训练词向量。
vector_size设置词向量的维度为100。
window设置上下文窗口大小为5。
min_count设置为1，即出现次数少于1次的词语将被忽略。

6. 计算词语相似度

print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))

使用similarity方法计算两个词语之间的相似度。

7. 找出最相似的词

for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):
    print(e[0], e[1])

使用most_similar方法找出与’沙瑞金’最相似的5个词语及其相似度。

8. 找出不匹配的词

odd_word = model.wv.doesnt_match(["苹果", "香蕉", "橙子", "书"])
print(f"在这组词汇中不匹配的词汇：{odd_word}")

使用doesnt_match方法找出列表中最不符合其余词语的词语。

9. 获取词频

word_frequency = model.wv.get_vecattr("沙瑞金", "count")
print(f"沙瑞金：{word_frequency}")

使用get_vecattr方法获取词语’沙瑞金’在语料中的出现次数。

结果

在这里插入图片描述

总结

通过Word2Vec模型，我们可以有效地捕捉词汇之间的语义关系，应用在自然语言处理任务中如文本分类、聚类和推荐系统等。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/769070.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

N5 使用Gensim库训练Word2Vec模型

前言

Word2Vec 模型

训练一个Word2Vec模型

1. 导入所需的库

2. 添加自定义词频

3. 读取和分词处理文本文件

4. 去除停用词

5. 训练Word2Vec模型

6. 计算词语相似度

7. 找出最相似的词

8. 找出不匹配的词

9. 获取词频

结果

总结

相关文章

Qt Q_ASSERT详解

API 授权最佳实践

嵌入式C语言中指针与链表的关系详解

Vuex的基本使用

Linux安装Node-RED并实现后台运行及开机启动

antd Select前端加模糊搜索

视频分析、目标检测的过去和未来：目标检测从入门到精通 ------ YOLOv8 到多模态大模型处理视觉基础任务

构建安全稳定的应用：Spring Security 实用指南

招聘应聘，HR如何测试候选人的领导能力？

网页报错dns_probe_possible 怎么办？——错误代码有效修复

ctfshow-xss(web316-web330)

GPT-4预测股票涨跌更更更准了！东京大学新框架LLMFactor提升显著｜ ACL 2024

代码便利工具

DeepFaceLive----AI换脸简单使用

JAVA+SSM+VUE《病人跟踪治疗信息管理系统》

2024鲲鹏昇腾创新大赛集训营Ascend C算子学习笔记

[leetcode hot 150]第三题，无重复字符的最长子串

Spring源码九：BeanFactoryPostProcessor

每周题解：最大半连通子图

Go语言实现钉钉机器人接入Dify工作流