python 【包含数据预处理】基于词频生成词云图

基于词频生成词云图

背景目的

有一篇中文文章,或者一本小说。想要根据词频来生成词云图。

基于词频生成词云步骤

为什么中文需要分词

中文分词是理解和处理中文文本的关键步骤,它直接影响到后续的文本分析和信息提取的准确性和有效性。

  • 无明显单词分隔:中文文本不像英文那样使用空格来分隔单词,中文字符通常连续书写,没有明显的单词边界。

  • 语言单位:中文的基本语言单位是字,但单独的字往往不能表达完整的意思。中文的表达往往需要由多个字组成的词语来实现。

  • 语境依赖性:中文词语的意义很大程度上依赖于语境,相同的字在不同的词语中可能有不同的意义。

  • 词义丰富性:中文中的词语往往比单个的字具有更丰富的语义信息,分词有助于更准确地理解文本内容。

  • 语法复杂性:中文的语法结构相对复杂,词语的顺序、搭配和使用习惯对句子意义的影响很大。

  • 自然语言处理:在自然语言处理领域,分词是中文文本分析的基础步骤,无论是进行词性标注、命名实体识别还是句法分析,都需要先进行分词。

  • 信息检索和文本挖掘:分词可以提高中文信息检索和文本挖掘的准确性,有助于提取关键词和短语,从而更好地理解文本内容。

文本预处理

最终目的是,生成句子数组。

在进行中文文本分析前,必须执行数据预处理步骤,以提升后续处理的准确性和效率。这包括:

  • 移除文本中的特殊符号,因为它们通常不携带有用信息,且可能干扰分词算法。
  • 统一替换空格、换行符、制表符等空白字符为中文逗号,以保持句子的连贯性。
  • 删除无意义的英文字母,因为它们对于中文文本分析不是必要的。
  • 清除文本中的网址、图片链接、日期等信息,这些通常与文本的主题无关,可能会影响分析结果。

数据处理函数

处理文本,过滤不需要无意义的字符。

import re

def data_process(str_data):
    # 定义正则表达式模式
    # 去除换行、空格
    str_data = re.sub(r'[\n\s]+', '', str_data)
    # 匹配网址
    url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
    # 匹配日期格式如 YYYY/MM/DD, YYYY-MM-DD, YYYY年MM月DD日
    date_pattern = r'\d{4}[/\\-]?\d{1,2}[/\\-]?\d{1,2}'
    # 匹配邮箱地址
    email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
    # 匹配数字
    number_pattern = r'\d+'
    # 匹配英文字母
    english_letter_pattern = r'[a-zA-Z]'

    # 替换空白字符为空格
    str_data = re.sub(r'\s', ',', str_data)

    # 删除特殊符号、网址、日期、邮箱、数字和英文字母
    str_data = re.sub(url_pattern, '', str_data)
    str_data = re.sub(date_pattern, '', str_data)
    str_data = re.sub(email_pattern, '', str_data)
    str_data = re.sub(number_pattern, '', str_data)
    str_data = re.sub(english_letter_pattern, '', str_data)

    # 删除标点符号
    punctuation = r""""!!??#$%&'()()*+-/:;▪³/<=>@[\]^_`●{|}~⦅⦆「」、、〃》「」『』【】[]〔〕〖〗〘〙{}〚〛*°▽〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""
    str_data = re.sub(f"[{re.escape(punctuation)}]+", '', str_data)

    return str_data.strip()

sample_text = "这是一个例子。\n包含网址 http://example.com,参考文献[1]{,日期2024-06-18。"
processed_text = data_process(sample_text)
print(processed_text)

句子数组函数封装

读取txt文件生成句子数组

image-20240618101358125
def getText(filename):
    sentences = []
    with open(filename, 'r', encoding='utf-8') as fp:
        for line in fp:
            processed_line = data_process(line)
            if processed_line:  # 检查处理后的句子是否为空或只包含空白字符
                sentences.extend(re.split(r'[。!?]', processed_line))  # 使用更复杂的句子划分规则
        # 去除列表中的空字符串
    sentences = [sentence for sentence in sentences if sentence.strip()]
    return sentences

输出结果

image-20240618101500347

分词和词频统计

jieba分词

Jieba分词是一个流行的中文分词Python库,它的主要特点和作用可以简单概括为:

什么是Jieba分词:一个用于中文文本分词的库。

做了什么:识别中文文本中的单词边界,将连续的文本切分成单独的词语。

得到什么:提供分词后的结果,即文本中各个词语的列表。

img

Jieba 分词器属于概率语言模型分词,基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况构建成有向无环图,然后采用动态规划寻找最大概率路径,找出基于词频的最大切分组合。对于不存在与前缀词典中的词,采用了汉字成词能力的 HMM 模型,使用了 Viterbi 算法。Jieba 的切分模式有全模式、精确模式、搜索引擎模式,更多详细信息可以查看 github 仓库。

以下是 Jieba 分词器中一些常用函数的:

函数名描述
jieba.cut对输入文本进行分词,返回一个可迭代的分词结果
jieba.cut_for_search在搜索引擎模式下对输入文本进行分词,返回一个可迭代的分词结果
jieba.lcut对输入文本进行分词,返回一个列表形式的分词结果
jieba.lcut_for_search在搜索引擎模式下对输入文本进行分词,返回一个列表形式的分词结果
jieba.add_word向分词词典中添加新词
jieba.del_word从分词词典中删除指定词
jieba.load_userdict加载用户自定义词典
jieba.analyse.extract_tags提取文本中的关键词,返回一个列表形式的关键词结果

词频函数封装

统计句子列表中名词(‘n’, ‘nr’, ‘nz’)的词频, 返回一个字典

import jieba.posseg as psg

def getWordFrequency(sentences):
    """
    统计句子列表中名词('n', 'nr', 'nz')的词频
    :param sentences: 包含多个句子的列表
    :return: 包含名词词频的字典
    """
    words_dict = {}  # 用于存储词频的字典
    for text in sentences:
        # 去掉标点符号
        text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "", text)
        
        # 使用结巴分词进行词性标注
        wordGen = psg.cut(text)
        
        # 遍历分词结果,统计名词词频
        for word, attr in wordGen:
            if attr in ['n', 'nr', 'nz']:  # 判断词性是否为名词
                if word in words_dict.keys():
                    words_dict[word] += 1
                else:
                    words_dict[word] = 1
    return words_dict

if __name__ == "__main__":
    sentences = getText("../百度百科-黄河.txt")
    # pprint(sentences)
    words_dict = getWordFrequency(sentences)
    pprint(words_dict)

输出结果

image-20240618103345980

由词频生成词云

完整代码

点我下载代码和依赖

词云结果

image-20240618104121953

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/723252.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jumpserver堡垒机集群搭建

1、环境 操作系统:龙蜥os 7.9 firewall-cmd --permanent --zonepublic --remove-servicessh firewall-cmd --permanent --zonepublic --add-rich-rulerule familyipv4 source address10.90.101.1 port port22 protocoltcp accept firewall-cmd --reload2、安装NFS…

Blazor 中基于角色的授权

介绍 Blazor用于使用 .NET 代码库创建交互式客户端 Web UI。Microsoft 默认在 Blazor 应用程序中提供了一个用于身份验证和授权的身份框架。请注意,他们目前使用 MVC Core Razor 页面作为身份验证 UI。使用“Microsoft.AspNetCore.Identity.UI”包库来实现这一点。…

vue-cli 根据文字生成pdf格式文件 jsPDF

1.安装jspdf npm install jspdf --save 2.下载ttf格式文件 也可以用C:\Windows\Fonts下的字体文件,反正调一个需要的ttf字体文件就行,但有的字体存在部分字体乱码现象 微软雅黑ttf下载地址: FontsMarket.com - Download Microsoft YaHei …

2024zzb理论

1.下列图表中,能够识别异常值的是() 2.下列选项中,用于绘制单变量分布的函数是() 3.下列函数中,可以没置当前图形轴范围的是 4.下列函数中,可以为图表设置标题的是()。 5.下列pyplot模块的函数中,可以绘制散点图的是()…

11.【机器学习】十大算法之一随机森林算法原理讲解

【机器学习】十大算法之一随机森林算法原理讲解 一摘要二个人简介三什么是随机森林?3.1 决策树3.2 集成方法3.2.1 Bagging方法3.2.2 Boosting方法 3.3 随机森林算法3.4 随机的含义 四案例演示一4.1 利用随机森林进行特征选择,然后使用SVR进行训练4.2 利用…

数据中心节能策略

管理员可以运用多种技术来提升数据中心的能源效率。实际上,通过实施一些简单的改进措施,就能大幅减少能源消耗。 基础设施电力需求可能会增加运营费用。数据中心管理员可以通过满足CPU、存储和冷却系统的电源要求来降低公用事业成本。 数据中心的能源成…

假装热闹的618!商家被榨干,大主播集体哑火……

一年一度的618落下了帷幕,不见平台的战报,也不见品牌的战报,那些恨不得每小时公布一次销售数据的大主播,似乎也哑火了。 在热搜上,除了平台花钱买来假装热闹的话题,就是无数商家的叫苦,而消费者…

如何快速在一台新电脑上安装 Python 环境

一、下载miniconda 1.下载 我们可以在清华大学开源软件镜像站下载最新版本的miniconda。如:https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py38_4.9.2-Windows-x86_64.exe 2.安装 双击exe文件安装,如果没有特殊的需求&#x…

【微服务网关——负载均衡】

1. 四大负载均衡策略 随机负载 随机挑选目标服务器IP 轮询负载 ABC三台服务器,ABCABC依次轮询 加权负载 给目标设置访问权重,按照权重轮询 一致性hash负载 请求固定URL访问指定IP 2.随机负载均衡 可以通过random函数来随机选择一个ip 2.1 代码实现 …

反激开关电源输入电解电容选型及计算

输入电解电容波形如下 计算 1、输入电解电容经验选取法 当输入电压为220V20%(AC176-264V)时 按照输出功率选取:W/μF 耐压(400V,输入176-264V最高DC峰值373V) 当输入电压为11020%时(AC88-132V…

Python --- 如何修改Jupyter Notebook在本地保存文件的默认路径?

如何修改Jupyter Notebook在本地保存文件的默认路径? 一直以来都比较喜欢jupter notebook,自从用了以后就爱上了。平时用的时候,因为大多都是临时调用,每次在界面里直接new一个新的file就开干。 曾经也想过我创建的这些python文件…

支持的 Google Pixel 设备

Android 15 OTA 和下载内容适用于以下 Pixel 设备: Pixel 6 和 Pixel 6 ProPixel 6aPixel 7 和 Pixel 7 ProPixel 7aPixel FoldPixel TabletPixel 8 和 Pixel 8 ProPixel 8a 获取 Android 15 Beta 版 1 、HONOR Android 15 Beta 2 Magic6 Pro Android 15 Beta …

48-1 内网渗透 - 内核漏洞提权

权限提升 提权是指将普通用户的权限进行提升,也叫特权提升。在渗透测试中,通过利用各种漏洞提升webshell权限以夺得服务器权限。 系统内核漏洞提权 当目标系统存在已知的内核漏洞且没有更新安全补丁时,攻击者可以利用这些漏洞进行提权,从而获得系统级别的访问权限。 ###…

element v-loading 加载组件增加按钮

2024.06.19今天我学习了如何对v-loading组件增加按钮&#xff0c;效果如下&#xff1a; 代码如下&#xff1a; <template><el-table v-loading"loading"><template v-slot:append><el-button v-if"loading" type"warning"…

文献解读-流行病学-第十期|《SARS-CoV-2 德尔塔和奥密克戎合并感染和重组的证据》

关键词&#xff1a;基因组变异检测&#xff1b;全基因组测序&#xff1b;流行病学&#xff1b; 文献简介 标题&#xff08;英文&#xff09;&#xff1a;Evidence for SARS-CoV-2 Delta and Omicron co-infections and recombination标题&#xff08;中文&#xff09;&#xf…

【网络安全学习】漏洞扫描:-01- 漏洞数据库searchsploit的使用

漏洞数据库是收集和存储各种软件漏洞信息的资源库。 漏洞数据库通常包含漏洞的名称、编号、描述、影响范围、危害等级、解决方案等信息&#xff0c;有些还提供漏洞的分析报告、演示视频、利用代码等内容。 1.常用的在线漏洞库&#xff1a; 国家信息安全漏洞共享平台 https:/…

FREERTOS QUENE

队列&#xff1a;先进先出 将3 2 1 0 按顺序写入队列 所以读取队列信息时&#xff0c;也是 3 2 1 0

转让北京劳务派遣许可证公司需要多少钱办理要求有哪些

北京各区办理要求也不尽相同&#xff0c;有的区的劳务派遣公司相对饱和&#xff0c;审批难度也会加大&#xff0c;比如朝阳&#xff0c;朝阳的劳务公司饱和&#xff0c;办理时间周期上也会需要3-4个月&#xff0c;如果是现有的公司批劳务资质&#xff0c;公司经营范围就必须有企…

PyQT5 键盘模拟/鼠标连点器的实现

近来在玩一个游戏&#xff0c;找不到合适的鼠标连点器&#xff0c;不是有广告就是功能太复杂&#xff0c;自己写了一个&#xff0c;分享出来&#xff0c;如果有需要的可以自行运行研究。 准备工作 Python版本&#xff1a;Python 3.12.3&#xff1b;运行前确保pyQT5已经安装&a…

再次优化Notes启动速度!

大家好&#xff0c;才是真的好。 作为Notes客户机的重度爱好和使用者&#xff0c;很多人对Notes客户机的启动和运行速度表示了一定的质疑。 以前我们提到过,影响Notes运行性能是多方面的&#xff0c;比如操作系统上的杀毒软件或者windows自带的defender会扫描Notes文件&#…