系列文章目录
- 机器学习实验一:线性回归
- 机器学习实验二:决策树模型
- 机器学习实验三:支持向量机模型
- 机器学习实验四:贝叶斯分类器
- 机器学习实验五:集成学习
- 机器学习实验六:聚类
文章目录
- 系列文章目录
- 一、实验目的
- 二、实验原理
- 三、实验内容
- 1. 朴素贝叶斯
- 2. 半朴素贝叶斯
- 3. 高斯分布的朴素贝叶斯计算方法
- 4. 实验数据介绍
- 5. 评价指标介绍
- 四、实验步骤
- 1. 划分数据集
- 2. 训练朴素贝叶斯分类方法
- 3. 评价分类器
- 4. 使用分类器进行预测
- 总结
一、实验目的
(1)了解朴素贝叶斯与半朴素贝叶斯的区别与联系,掌握高斯分布的朴素贝叶
斯计算方法;
(2)编程实现朴素贝叶斯分类器;
(3)使用朴素贝叶斯分类器实现多分类预测,度量模型性能。
二、实验原理
使用 Python 读取数据集信息并生成对应的朴素贝叶斯分类器,随后使用生
成的分类器实现多分类预测,并根据精确率、召回率和 F1值度量模型性能。
三、实验内容
1. 朴素贝叶斯
朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征独立假设的分类方法。
使用朴素贝叶斯方法时,首先基于训练数据,基于特征条件独立假设学习输入与
输出的联合概率分布;随后对于给定的 X,利用贝叶斯定理求解后验概率最大的
输出标签。
2. 半朴素贝叶斯
半朴素贝叶斯是适当考虑一部分属性之间的相互依赖信息,其中“独依赖估
计”(One-Dependent Estimator,简称 ODE)是半朴素分类中最常用的一种策略。
所谓“独依赖估计”,也就是假设每个属性在分类类别之外最多仅依赖于一个其
他属性。
与基于特征的条件独立性假设开展的朴素贝叶斯方法相比,其最大的区别就
是半朴素贝叶斯算法放宽了条件独立假设的限制,考虑部分属性之间的相互依赖
信息。但两者有共同特点:假设训练样本所有属性变量的值都已被观测到,即训
练样本是完整的。
3. 高斯分布的朴素贝叶斯计算方法
使用条件:所有特征向量都是连续型特征变量且符合高斯分布。
概率分布密度:
4. 实验数据介绍
实验数据为来自 UCI 的鸢尾花三分类数据集 Iris Plants Database。
数据集共包含 150 组数据,分为 3 类,每类 50 组数据。每组数据包括 4 个
参数和 1 个分类标签,4 个参数分别为:萼片长度 sepal length、萼片宽度 sepal
width、花瓣长度 petal length、花瓣宽度 petal width,单位均为厘米。分类
标签共有三种,分别为 Iris Setosa、Iris Versicolour 和 Iris Virginica。
数据集格式如下图所示:
为方便后续使用,该数据集需要进行特征向量与标签分割以及标签编号。
5. 评价指标介绍
评价指标选择精确率 P、召回率 R、F1度量值 F1,计算公式如下:
具体代码实现时,可以直接调用 sklearn 库中的相应方法进行计算。
四、实验步骤
1. 划分数据集
按照实验要求,本次数据集划分采用随机划分 80%数据用于训练,其余 20%
数据用于测试。使用 sklearn 库的 train_test_split()方法划分数据,代码如
下:
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.2)
2. 训练朴素贝叶斯分类方法
由于实验数据中四个特征变量均为连续型特征变量,我们如果需要使用高斯
分布朴素贝叶斯的话,只需要验证他是否符合高斯分布即可。这里使用 Q-Q 图来
验证数据是否符合高斯分布,如果数据符合高斯分布,则该 Q-Q 图趋近于落在
y=x 线上,绘制的代码如下:
from scipy.stats import probplot
probplot(data,dist='norm',plot=plt)
plt.title('sepal length')
plt.show()
#然后,使用 sklearn 库的 GaussianNB()方法训练分类器
clf = GaussianNB()
clf.fit(X_train, y_train)
3. 评价分类器
使用精确率、召回率、F1度量值对分类器作为评价指标,使用 sklearn 库中
的 accuracy_score()、precision_score()、recall_score()、f1_score()方法
进行计算,具体代码如下:
y_pred = clf.predict(X_test)
print(precision_score(y_test, y_pred, average=None))
print(recall_score(y_test, y_pred, average=None))
print(f1_score(y_test, y_pred, average=None))
4. 使用分类器进行预测
我们选取测试集的最后一条数据进行预测,观察分类器计算得到的概率、分
类结果与真实标签的内容。具体代码如下:
y_proba = clf.predict_proba(X_test[:1])
y_pred_num = clf.predict(X_test[:1])[0]
print("预测值:"+str(y_pred_num)+ " "+label[y_pred_num])
print("预计的概率值:", y_proba)
print("实际值:"+str(y_test[:1][0])+ " "+label[y_test[:1][0]])
总结
以上就是今天要讲的内容,机器学习实验四:贝叶斯分类器