这个我其实写过一篇类似的博客,但是那个的文件对象是.csv,对应到.docx文件的话,就不太适用了。如下:
Python生成词云-CSDN博客
代码:
import jieba
import os
import wordcloud
import numpy as np
from PIL import Image
from docx import Document
# 从Word文档中提取文本
doc_path ="E:\\code\\二十大报告实录.docx"
doc = Document(doc_path)
txt = ""
for one_pare in doc.paragraphs:
txt = txt + one_pare.text
# 读取形状图片
img_path =r"wujiaoxing.png"
img = Image.open(img_path)
mk = np.array(img)
# 配置词云对象参数
w = wordcloud.WordCloud(font_path="msyh.ttc", mask=mk, background_color="white")
# 使用jieba进行分词
words = jieba.lcut(txt)
abc = " ".join(jieba.lcut(txt))
# 生成词云
w.generate(abc)
# 保存词云图像文件
output_path = os.getcwd() + r"cloud0.jpg"
w.to_file(output_path)
# 显示词云图像
img = Image.open(output_path)
img.show()
这个容易出错的点就在于img_path。
生成结果: