基于小红书评论的文本词语频数挖掘和词云图

import pandas as pd
df = pd.read_csv('小红书评论.csv')  # 读取小红书评论数据
text = ' '.join(df['内容'].astype(str)).strip()  # 将内容列所有数据合成字符串
print(text)

使用jieba库,对文本数据进行分词,并统计出现频数

import jieba
from collections import Counter
import pandas as pd

def count_words(text):
    # 使用jieba进行分词
    words = jieba.cut(text)
    # 使用Counter进行词频统计
    word_counts = Counter(words)
    return word_counts  #返回的是一个字典


def main():
    # 读取文本文件
    df = pd.read_csv('小红书评论.csv')
    text = ' '.join(df['内容'].astype(str))

    # 对文本进行词频统计
    word_counts = count_words(text)

    # 打印出现次数最多的前N个词语及其出现次数
    top_n = 100  # 设置输出前N个词语
    print("出现次数最多的{}个词语:".format(top_n))
    for word, count in word_counts.most_common(top_n):
        print("{}: {}".format(word, count))

if __name__ == "__main__":
    main()

根据出现的词汇和频数,做词云图

from wordcloud import WordCloud, ImageColorGenerator
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
from os import path

d = r"C:\Users\86187\PycharmProjects\js逆向学习"
# 定义词频字典
word_freq = {
    '就业': 20,
    '港澳': 10,
    '大学生': 15,
    '政府': 14,
    '考研': 78,
    '考公': 56,
    '国企': 90,
    '深圳':190,
    '人才引进':98,
    '工资高':35,
    '内地优惠':78,
    '税收减免':55,
    '港澳台政府':19,
    '高校政策':90,
    '薪资过万':70,
    '国家':76,
    '政府万岁':43,
    '继续努力':89,
    '找不到工作':88,
    '中薪阶层':77,
    '大学生就业难':22,
    '985':23,
    '待遇':54,
    '深造':54,
}
background_Image = np.array(Image.open(path.join(d, "love.png")))
# 根据词频生成词云图
wordcloud = WordCloud(
    background_color='white',  # 设置背景颜色
    mask=background_Image,  # 设置背景图片
    font_path='SimHei.ttf',  # 若是有中文的话,这句代码必须添加,不然会出现方框,不出现汉字
    max_words=200,  # 设置最大现实的字数
    max_font_size=150,  # 设置字体最大值
    random_state=3,  # 设置有多少种随机生成状态,即有多少种配色方案
    scale=5  # 设置生成的词云图的大小
)
wordcloud.generate_from_frequencies(word_freq)

# 显示词云图
image_colors = ImageColorGenerator(background_Image)
plt.axis("off")  #不要坐标轴
plt.imshow(wordcloud.recolor(color_func=image_colors), interpolation='bilinear')
plt.show()  #展示词云图
wordcloud.to_file(path.join(d, "generate_Love_star.png"))#下载词云图

 

结果展现:

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/428135.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JMeter Body Data模拟10000个字符串

方法 **这个表达式使用了JMeter中的Groovy函数,目的是生成一个包含10000个字符 "s" 的字符串。在Groovy语言中,使用 "s" * 10000 可以生成包含10000个 "s" 的字符串。${__groovy("s" * 10000,)} 这个表达式在J…

财报解读:基本盘稳定后,联想如何进一步抢占AI时代?

从2021年下半年开始,受诸多因素影响,消费电子行业始终处在承压状态,“不景气”这一关键词屡次被市场提及。 但寒气没有持续,可以看到,消费电子行业正在逐渐回暖。国金证券在今年1月的研报中就指出,从多方面…

数字人解决方案——阿里EMO音频驱动肖像生成能说话能唱歌的逼真视频

前言 数字可以分为3D数字人和2D数字人。3D数字人以虚幻引擎的MetaHuman为代表,而2D数字人则现有的图像或者视频做为输入,然后生成对口型的数字人,比如有SadTalker和Wav2Lip。 SadTalker:SadTalker是一种2D数字人算法,…

什么是网络安全、信息安全、计算机安全,有何区别?

这三个概念都存在,一般人可能会混为一谈。 究竟它们之间是什么关系?并列?交叉? 可能从广义上来说它们都可以用来表示安全security这样一个笼统的概念。 但如果从狭义上理解,它们应该是有区别的,区别在哪呢&…

基于XTuner微调书生·浦语大模型

1 概述 XTuner 是一个傻瓜式、轻量级的大语言模型微调工具箱,由MMRazor和MMDeploy联合开发。其以配置文件的形式封装了大部分微调场景,0基础的非专业人员也能一键开始微调;对于 7B 参数量的LLM,微调所需的最小显存仅为 8GB。 常…

day11_oop_fianl_satic_多态

今日内容 零、 复习昨日 一、final 二、static 三、多态 四、向上转型&向下转型 五、多态应用 零、 复习昨日 0 类封装步骤 属性私有private提供setget方法 1 继承关键词,继承的好处 extends减少代码重复为多态做准备 2 子类可以使用父类什么 非私有的属性和方法 3 方法重写…

网络机顶盒哪个好?数码小编分享网络机顶盒排名

每次在挑选网络机顶盒的时候,很多朋友会咨询我的意见,最近每天都会收到相关的咨询,不知道网络机顶哪个好,我这次要分享的就是业内公认网络机顶盒排名,入围的几个品牌都是非常出色的,想买网络机顶盒的可以从…

亚信安慧AntDB:数智化转型的可持续动能

AntDB致力于为企业提供可持续发展的数据支持,其使命在于助力企业更好地适应不断变化的数智化时代。作为一款性能出色、可靠稳定的分布式数据库系统,AntDB为企业打造了一个高效、安全、灵活的数据管理平台,不仅拥有强大的数据处理和分析能力&a…

谁才是“内卷”之王?众多洗地机品牌哪家清洁力最强?清洁最干净?

在如今快节奏的生活中,家庭清洁工作愈发显得繁琐而耗时。添可洗地机凭借其高效的一体化清洁功能和智能化操作,为现代家庭生活带来了极大的便利。面对众多款品牌洗地机型号,消费者不禁会问:哪家洗地机清洁力最强?在性能…

IO(Linux)

文件系统 前言1. 回顾关于C文件部分函数2. 一些文件知识的共识3. 相对路径4. fwrite中的\0 一、文件描述符fd1. 概念2. 系统调用① open 和 close② write③ read 和 lseek 3. 缺省打开的fd 二、重定向1. 原理2. 系统调用dup23. stdout和stderr的区别4. 进程替换和原来进程文件…

百度AI,能否“投”出未来?

图片|freeflo.ai ©自象限原创 作者丨程心、罗辑 2月28日,百度发布了2023年四季度财报及全年未经审计的财务报告,AI大模型带来的收入和利润成为最大的亮点。 财报显示,2023年百度集团总营收达1345.98亿元,同比增…

java数据结构与算法刷题-----LeetCode337. 打家劫舍 III

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 文章目录 1. 动态规划深度优先1.1 解题思路和细节2.2 代码实现 很多人觉得…

告别信息搜寻烦恼:用fastgpt快速部署国内大模型知识库助手

Docker Compose 快速部署 使用 Docker Compose 快速部署 FastGPT 推荐配置 环境最低配置(单节点)推荐配置测试2c2g2c4g100w 组向量4c8g 50GB4c16g 50GB500w 组向量8c32g16c64g 200GB 部署架构图 1. 准备好代理环境(国外服务器可忽略&…

web游戏-飞机大战

H5小游戏源码、JS开发网页小游戏开源源码大合集。无需运行环境,解压后浏览器直接打开。有需要的订阅后,私信本人,发源码,含60小游戏源码。如五子棋、象棋、植物大战僵尸、贪吃蛇、飞机大战、坦克大战、开心消消乐、扑鱼达人、扫雷…

STM32自学☞I2C

这里只是大体介绍,具体的可参考STM32数据手册

Python算法100例-3.2 水仙花数

完整源代码项目地址,关注博主私信源代码后可获取 1.问题描述2.问题分析3.算法设计4.确定程序框架5.完整的程序6.问题拓展7.巧用字符串技巧 1.问题描述 输出所有的“水仙花数”。所谓的“水仙花数”是指一个三位数,其各位数字的立方和等于该…

[C语言]——C语言常见概念(3)

目录 一.字符和ASCII编码 二.字符串和\0 三.转义字符 四.语句和语句分类 1.空语句 2.表达式语句 3.函数调用语句 4.复合语句 5.控制语句 五.注释 1.注释的2种形式 1.1 /**/ 的形式 1.2 // 的形式 2.注释会被替换 一.字符和ASCII编码 在键盘上可以敲出各种字符&am…

【UE Niagara】纳米蠕虫效果

效果 步骤 1. 新建一个Niagara系统,选择一个空模板,这里命名为“NS_Worm” 打开“NS_Worm”,重命名发射器为“Leader” 先添加“Spawn Burst Instantaneous”模块来单次生成粒子 为了让粒子持续停留在关卡中,需要在“Particle St…

MybatisPlus的使用(一)--基本配置与无条件查询

创建测试用的数据库 CREATE DATABASE mybatis_plus /*!40100 DEFAULT CHARACTER SET utf8mb4 */; use mybatis_plus; CREATE TABLE user ( id bigint(20) NOT NULL COMMENT 主键ID, name varchar(30) DEFAULT NULL COMMENT 姓名 , age int(11) DEFAULT NULL COMMENT 年龄 , em…

JavaWeb - 1 - 概述

一.什么是Web? Web:全球广域网,也称为万维网(www World Wide Web),能够通过浏览器访问的网站 二.Web网站的工作流程 三.Web网站的开发模式 3.1 前后端分离开发(主流) 3.2 混合开发…