前言
本文主要介绍通过python实现数据清洗、脚本开发、办公自动化。读取voc数据,存储新清洗后的voc数据数据。
一、业务逻辑
- 读取voc数据采集的数据
- 批处理,使用jieba进行分词,去除停用词,清洗后的评论存储到新的列中
- 保存清洗后的数据到新的Excel文件中
二、具体产出
三、执行脚本
python clean.py
四、脚本
# voc数据清洗
import pandas as pd
import jieba
import jieba.posseg as pseg
from collections import Counter
import re
fileName = "100070291457" # sku
# 加载停用词
with open('stopwordsfull', 'r', encoding='utf-8',errors='replace') as f:
stopwords = [line.strip() for line in f.readlines()]
# 加载自定义词典
jieba.load_userdict("luyouqi.txt") # luyouqi.txt is your custom dictionary
# 读取Excel文件中的所有表格
xls = pd.ExcelFile('fil