【传知代码】私人订制词云图-论文复现

文章目录

  • 概述
  • 原理介绍
  • 核心逻辑
    • 1、选取需要解析的txt文档
    • 2、选取背景图明确形状
    • 3、配置停用词
    • 4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题
  • 技巧
    • 1、中文乱码问题,使用的时候指定使用的文字字体
    • 2、更换背景图
    • 3、词库下载以及格式转换方式
    • 4、jieba的快速说明
    • 5、支持自定义文字颜色
  • 环境配置/部署方式
  • 小结

本文涉及的源码可从私人订制词云图该文章下方附件获取

概述

词云图(Word Cloud)是一种文本数据的可视化表示方法,它通过将文本中每个单词的大小与其在文本中出现的频率或重要性相关联,从而以视觉方式展示文本数据的关键信息。词云图在数据分析、文本挖掘、社交媒体分析等领域中广泛应用,因为它能够直观地展示大量文本数据中的主题、关键词或情感倾向。

在这里插入图片描述

在这里插入图片描述

原理介绍

词云图(Word Cloud)的原理可以清晰地分为以下几个步骤,这些步骤共同协作,以生成一种可视化的文本数据表示方式:

  1. 分词
    • 词云图的第一步是将输入的文本数据划分为一个个单独的词语。这个过程通常被称为分词,它涉及到将连续的文本字符串拆分成单独的词汇单元。
  2. 统计词频
    • 在分词完成后,词云图生成工具会统计每个词语在文本中出现的次数。这个步骤是确定词语在词云图中重要性的关键,因为词频高的词语通常会被视为更重要或更相关的。
  3. 去除停用词
    • 停用词是指那些出现频率高但通常不带有实际意义的词语,如“的”、“了”等。为了提高词云图的质量,这些词语通常会被从词频统计中去除,以便更准确地反映文本的主题。
  4. 去除重复词语
    • 如果文本中存在多个相同的词语,词云图生成工具通常只会计算它们的一次出现。这是为了确保词频统计的准确性,避免重复计数。
  5. 计算权重
    • 根据词语在文本中出现的频率,词云图生成工具会计算每个词语的权重。这个过程可能会使用到不同的算法,如TF-IDF(词频逆文档频率)算法,以更准确地反映词语在文本中的重要性。
  6. 显示词云
    • 在计算完词语的权重后,词云图生成工具会将这些词语按照其权重进行排列和分布,形成词云图。在这个过程中,词语的大小、颜色等视觉元素通常会被用来表示其权重,即出现频率高或重要性大的词语会显得更大、更突出。

核心逻辑

以python为例,主要使用的库

import wordcloud #词云库
import jieba #分词工具

1、选取需要解析的txt文档

text_file_path = "./《山海经》先秦白话文版.txt"

也可以从解析某个网站数据(本文是以txt文本为例,没有采取下面代码方式)

# 从网站获取文本内容
url = "https://baidu.com"
response = requests.get(url)
response.encoding = 'utf-8'  # 设置编码,确保正确处理中文字符
html_content = response.text

# 使用BeautifulSoup解析HTML,提取文本内容
soup = BeautifulSoup(html_content, "html.parser")
text_data = soup.get_text()

2、选取背景图明确形状

background_image_path = "./心.png" # 地图.png

3、配置停用词

# 设置停用词
#wordcloud库允你排除一些词汇,这样它们就不会出现在词云图中。你可以使用 stopwords 参数来指定要排除的词汇。
def load_stopwords(file_path):
    with open(file_path, "r", encoding="gb18030") as file:
        return set(file.read().splitlines())

stopwords_path = "./stopwords.txt"
stopwords = load_stopwords(stopwords_path)
# 添加额外的停用词
stopwords.update(["注释", "译文", "这座", "名称", "很多", "名曰", "之山", "一种"])

4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题

# 加载词典(分词的时候不拆开,比如‘山海经’不应该被拆成‘山’、‘海’、‘经’等)
# 主要用于定义一些专有名词
jieba.load_userdict('山海经异兽_22个.txt')
jieba.add_word('山海经')
jieba.add_word('先秦')

技巧

所有技巧(坑)都在演示视频里面逐一演示,注意避坑。

1、中文乱码问题,使用的时候指定使用的文字字体

font_path = ("./simsun.ttc") #指定字体,否则可能会中文乱码

2、更换背景图

需要选择透明背景色的,有的白底的图,肉眼看起来没问题,但是程序却认为整张图片是一个形状,比如下面的图就不行(出来的词云图是外框矩形):

而这张图就可以:

在这里插入图片描述

3、词库下载以及格式转换方式

词库搜索下载地址

在这里插入图片描述

现在下来后的格式是.scel的,需要转换成txt
转换地址

在这里插入图片描述

4、jieba的快速说明

# -*- coding: utf-8 -*-
import jieba

seg_str = "好好学习,天天向上。"

print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

结果:

好好学习/,/天天向上/。
好好/好好学/好好学习/好学/学习/,/天天/天天向上/向上/。
好好/好学/学习/好好学/好好学习/,/天天/向上/天天向上/。

5、支持自定义文字颜色

colormaps = mpl.colormaps['tab10'] # tab20
# 也支持自定义文字颜色
# colormaps = colors.ListedColormap(['#FF0000','#FF7F50','#FFE4C4'])

环境配置/部署方式

python wordsCloud.py

小结

词云图的一些主要特点:

  1. 可视化效果:词云图以图像的形式呈现文本数据,使得人们能够直观地看到文本中的主要词汇和它们之间的关系。通过颜色、大小、字体等视觉元素,词云图能够突出显示重要的词汇,帮助用户快速理解文本的核心内容。
  2. 频率或重要性表示:在词云图中,每个单词的大小通常与其在文本中出现的频率或重要性成正比。这意味着出现频率高或重要性大的词汇在词云图中会显得更大、更突出。这种表示方式有助于用户快速识别文本中的关键信息。
  3. 自定义程度高:词云图具有很高的自定义程度,用户可以根据需要调整词汇的颜色、大小、字体等属性,以及选择特定的词汇过滤条件,从而生成符合自己需求的词云图。
  4. 支持多种文本数据源:词云图可以处理来自各种文本数据源的数据,包括社交媒体帖子、新闻报道、用户评论、书籍、文章等。这使得词云图在各个领域都有广泛的应用前景。
  5. 揭示文本主题:通过词云图,用户可以快速了解文本的主题和关键词。例如,在社交媒体分析中,词云图可以帮助用户了解用户讨论的热点话题和关键词;在新闻报道分析中,词云图可以帮助用户了解新闻的主要内容和情感倾向。
  6. 局限性:虽然词云图具有很多优点,但也存在一些局限性。例如,词云图通常只能展示文本中的词汇信息,而无法展示词汇之间的语法关系或上下文信息。此外,词云图对于某些特定的文本数据可能不太适用,例如诗歌、散文等文学作品。

词云图是一种非常有用的文本数据可视化工具,它能够帮助用户快速了解文本的主要内容和关键词,揭示文本的主题和情感倾向。在实际应用中,用户可以根据需要选择合适的词云图生成工具和数据源,以生成符合自己需求的词云图。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/650951.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vscode在Ubantu键位错乱问题

摘要:抄的vscode键位错乱_有没有在使用vscode时偶尔遇到退格键无法正常删除内容的情况?如果有的话,你是如何-CSDN博客 只是作为记录,查找方便

ThreadLocal一步梭哈

大家好,这里是教授.F 引入: 1. ThreadLocal 的作用,可以实现在同一个线程数据共享, 从而解决多线程数据安全问题. 2. ThreadLocal 可以给当前线程关联一个数据(普通变量、对象、数组)set 方法[源码!] 3. ThreadLocal 可以像 Map 一样存取数据…

vue3中表格中通过判断某个字段来设置对应按钮和消息提示的disabled展示

vue3中表格中通过判断某个字段来设置对应按钮和消息提示的disabled展示 一、前言1.代码案例2.效果展示 一、前言 当使用 Vue 3 和 Element UI 的 el-table 组件时,你可以通过判断字段的值来设置对应的 el-button 的 disabled 属性和消息提示。下面是一个简单的示例…

机器学习之朴素贝叶斯

目录 前言 1、核心思想 2、应用领域 一、数学基础 二、贝叶斯 三、朴素贝叶斯 1、定义 2、拉普拉斯平滑系数 四、API 1、API 2、案例 五、总结 前言 朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理和特征条件独立性假设的常见的机器学习分类算…

Bug:Linux用户拥有r权限但无法打开文件【Linux权限体系】

Bug:Linux用户拥有r权限但无法打开文件【Linux权限体系】 0 问题描述&解决 问题描述: 通过go编写了一个程序,产生的/var/log/xx日志文件发现普通用户无权限打开 - 查看文件权限发现该文件所有者、所有者组、其他用户均有r权限 - 查看该日…

如何免费把微信视频号的视频下载下来?电脑手机都可使用

今天,我将为大家分享一个实用的技巧:如何免费将微信视频号的视频下载下来。 微信视频号作为一个流行的短视频平台,拥有大量优质内容。然而,由于平台政策限制,我们无法直接下载视频。不过,别担心&#xff0…

单点登录(JWT实现)

单点登陆的英文名是:Single Sign On(简称SSO),只需要登陆一次,就可以访问所有信任的应用系统。 在单体项目中,我们登陆之后可以把验证用户信息的值放入session中,单个tomcat中的session是可以共…

数字水印 | 离散余弦变换 DCT 基本原理及 Python 代码实现

目录 1 基本原理2 代码实现3 图像压缩 1 基本原理 参考博客:https://www.cnblogs.com/zxporz/p/16072580.html D C T \mathsf{DCT} DCT 全称为 D i s c r e t e C o s i n e T r a n s f o r m \mathsf{Discrete\ Cosine\ Transform} Discrete Cosine Transfo…

堆结构知识点复习——玩转堆结构

前言:堆算是一种相对简单的数据结构, 本篇文章将详细的讲解堆中的知识点, 包括那些我们第一次学习堆的时候容易忽略的内容, 本篇文章会作为重点详细提到。 本篇内容适合已经学完C语言数组和函数部分的友友们观看。 目录 什么是堆 建堆算法…

蓝桥杯2023(十四届)省赛——接龙数列(DP)

接龙数列(DP) 1.接龙数列 - 蓝桥云课 (lanqiao.cn) 琢磨半天,本来是开一个三维的,dp[i][j][k] 表示 前i个,以j为首项,k为尾项的最大子集个数,但是实际上用二维即可。想求的是删除个数&#xf…

java并发工具类都有哪些

Java中的并发工具类包括: CountDownLatch CountDownLatch允许一个或多个线程等待其他线程完成某些操作。它通常用于线程间的同步,例如在一个线程完成其工作后通知其他线程继续执行。 CyclicBarrier CyclicBarrier是一个同步辅助类,它允许一…

STM32H743+USBHID+CubeMX配置

一、环境准备 电脑系统:Windows 10 专业版 20H2 IDE:Keil v5.35、STM32CubeMX v6.5.0 测试硬件:正点原子阿波罗STM32H743 二、测试步骤 1、使用用例工程 配置STM32H743定时器功能-CSDN博客https://blog.csdn.net/horse_2007s/article/d…

基于51单片机的电压表-数码管显示

一.硬件方案 本设计基于STC89C52单片机的一种电压测量电路,该电路采用ADC0832A/D转换芯片,实现数字电压表的硬件电路与软件设计。该系统的数字电压表电路简单, 可以测量0~9V的电压值,并在四位LED数码管上显示电压值。 二.设计功能 (1&…

HNCTF

HNCTF 文章目录 HNCTFBabyPQEZmathez_Classicf(?*?)MatrixRSABabyAESIs this Iso? BabyPQ nc签到题,跟端口连接拿到n和phin n 8336450100232098099043686671148282601664696810002345240872579498695511770993195704402414029892029461830476866385453475141207…

211大学计算机专业不考408,新增的交叉专业却考408!南京农业大学计算机考研考情分析!

南京农业大学信息科技学院可追溯至1981年成立的计算中心和1985年筹建的农业图书情报专业。1987年设立了农业图书情报系,1993 年农业图书情报系更名为信息管理系,本科专业名称也于1999年更名为信息管理与信息系统专业。1994年计算中心开始招收计算机应用专…

SpringBootTest测试框架四

dubbo调用mock 同理,为了实现dubbo的mock,也是要在dubbo调用的过程中添加拦截器 dubbo原始的执行拦截器 Proxy.getProxy(interfaces).newInstance(new InvokerInvocationHandler(invoker)) 这里代码写死了,没办法了,只能将整个JavassistProxyFactory 替换掉 public class J…

Nvidia Orin/Jetson +GMSL/RLINC/VbyOne/FPDLink 同轴AI多相机同步车载视觉解决方案

在本次演讲中,介绍了多相机同步技术在自主机器中的应用情况,围绕无人配送小车、控制器视觉传感器方案升级、人形机器人三个典型案例中如何为客户提供高效的多相机同步解决方案进行了详细的讲解,并进一步介绍如何通过创新的多相机同步技术&…

Facebook的心灵之镜:探寻数字社交的灵魂深处

在当今数字化时代,社交媒体已经成为了人们生活的一部分,而Facebook作为其中的佼佼者,更是承载了数以亿计的用户情感和交流。然而,Facebook不仅仅是一个简单的社交平台,它更像是一面心灵之镜,反映着数字社交…

TS(TypeScript)中Array数组无法调出使用includes方法,显示红色警告

解决方法 打开tsconfig.json文件,添加"lib": ["es7", "dom"]即可。 如下图所示。

基于Qt的网上购物系统的设计与实现

企鹅:2583550535 代码和论文都有 第1章 绪论... 1 1.1 项目背景... 1 1.2 国内外研究现状... 1 1.3 项目开发意义... 3 1.4 报告主要内容... 3 第2章 关键技术介绍... 4 2.1 后端开发技术... 4 2.1.1 C. 4 2.1.2 Qt框架... 4 2.1.3 MySQL数据库... 5 2.2 …