1.
打开
Jupyter
后,在工作目录中,新建一个文件夹命名为
Test01
,并且在文件夹中导入数据
集。在网页端界面点击
“upload”
按钮,在弹出的界面中选择要导入的数据集。然后数据集出现
在
jupyter
文件目录中,此时点击文件后的
“upload”
按钮即可将数据集导入。

2.
点击
New->Python 3
后,跳转至
Untitled.ipynb
(课后请重命名为
NBofSMS.ipynb
)

3.
导入所需的库文件并运行

4.
将广告类的标识置为
1
,正常邮件标识为
0
,编写创建数据集、加载数据的函数
loadDataSet()
,编写完成后编译并运行
Cell
,箭头处代码自己添加,提示:字符串转化为字符
串列表可参考本文提供的函数

5.
编写
textParse()
函数的代码并且编译运行,该函数用于接收一个大字符串并将其解析为字符串
列表

6.
在
Cell
中写入
docs2VecList()
函数的代码,该函数用于对数据集进行预处理,编写完成后 编译
并运行

7.
编写
words2Vec()
函数将单词转化为词向量。

8.
在
Cell
中写训练函数,训练
Naïve Bayes
模型,完成后编译并运行

9.
编写使用
Naive Bayes
模型的接口,如果是垃圾邮件则返回
1
,非垃圾邮件则返回
0

10.
用中文打印分类结果

11.
编写主函数调用上述函数实现本次实验
