贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。
贝叶斯分类是一类利用概率统计知识进行分类的算法,其分类原理是贝叶斯定理。贝叶斯定理是由18世纪概率论和决策论的早期研究者Thomas Bayes发明的,故用其名字命名为贝叶斯定理。
贝叶斯定理是概率论中的一个结果,它跟随机变量的条件概率以及边缘分布有关。在有些关于概率的解说中,贝叶斯定理能够告诉我们如何利用新证据修改已有的看法。通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者有确定的关系,贝叶斯定理就是对这种关系的陈述。
假设 X X X、 Y Y Y是一对随机变量,它们的联合概率 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)是指 X X X取值 x x x且 Y Y Y取值 y y y的概率,条件概率是指一随机变量在另一随机变量取值已知的情况下取某一特定值的概率。例如,条件概率 P ( Y = y ∣ X = x ) P(Y=y|X=x) P(Y=y∣X=x)是指在变量 X X X取值 x x x的情况下,变量 Y Y Y取值 y y y的概率。 X X X和 Y Y Y的联合概率、条件概率满足如下关系:
P
(
X
,
Y
)
=
P
(
Y
∣
X
)
P
(
X
)
=
P
(
X
∣
Y
)
P
(
Y
)
P(X,Y)=P(Y|X)P(X)=P(X|Y)P(Y)
P(X,Y)=P(Y∣X)P(X)=P(X∣Y)P(Y)
此式变形可得到下面的公式
P
(
Y
∣
X
)
=
P
(
X
∣
Y
)
P
(
Y
)
P
(
X
)
P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}
P(Y∣X)=P(X)P(X∣Y)P(Y)
称为贝叶斯定理。
贝叶斯定理很有用,因为它允许我们用先验概率 P ( Y ) P(Y) P(Y)、条件概率 P ( X ∣ Y ) P(X|Y) P(X∣Y)和证据 P ( X ) P(X) P(X)来表示后验概率。而在贝叶斯分类器中,朴素贝叶斯最为常用,下面介绍朴素贝叶斯的原理。
朴素贝叶斯分类是一种十分简单的分类算法,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯分类器以简单的结构和良好的性能受到人们的关注,它是最优秀的分类器之一。朴素贝叶斯分类器建立在一个类条件独立性假设(朴素假设)基础之上:给定类结点(变量)后,各属性结点(变量)之间相互独立。根据朴素贝叶斯的类条件独立假设,则有
P
(
X
∣
C
i
)
=
∏
k
=
1
m
P
(
X
k
∣
C
i
)
P(X|C_i)=\prod_{k=1}^mP(X_k|C_i)
P(X∣Ci)=k=1∏mP(Xk∣Ci)
条件概率 P ( X 1 ∣ C i ) , P ( X 2 ∣ C i ) , ⋯ , P ( X k ∣ C i ) P(X_1|C_i),P(X_2|C_i),\cdots,P(X_k|C_i) P(X1∣Ci),P(X2∣Ci),⋯,P(Xk∣Ci)可以从训练数据集求得,根据此方法,对一个未知类别的样本 X X X,可以先计算出 X X X属于每一个类别的概率 P ( X ∣ C i ) P ( C i ) P(X|C_i)P(C_i) P(X∣Ci)P(Ci),然后选择其中概率最大的类别作为其类别。
朴素贝叶斯分类的正式步骤如下
-
设 x = { a 1 , a 2 , ⋯ , a m } x=\{a_1,a_2,\cdots,a_m\} x={a1,a2,⋯,am}为一个待分类项,而每个 a a a为 x x x的一个特征属性;
-
有类别集合 C = { y 1 , y 2 , ⋯ , y n } C=\{y_1,y_2,\cdots,y_n\} C={y1,y2,⋯,yn};
-
计算 P ( y 1 ∣ x ) , P ( y 2 ∣ x ) , ⋯ , P ( y n ∣ x ) P(y_1|x),P(y_2|x),\cdots,P(y_n|x) P(y1∣x),P(y2∣x),⋯,P(yn∣x);
-
如果 P ( y k ∣ x ) = m a x { P ( y 1 ∣ x ) , P ( y 2 , x ) , ⋯ , P ( y n ∣ x ) } P(y_k|x)=max\{P(y_1|x),P(y_2,x),\cdots,P(y_n|x)\} P(yk∣x)=max{P(y1∣x),P(y2,x),⋯,P(yn∣x)},则 x ∈ y k x\in y_k x∈yk。
那么现在的关键就是如何计算第(3)步中的各条件概率
-
找到一个已知分类的待分类项集合,这个集合叫作训练样本集;
-
统计得到在各类别下各个特征属性的条件概率估计,即
P ( a i ∣ y 1 ) , P ( a 2 ∣ y 1 ) , ⋯ , P ( a m ∣ y 1 ) P ( a i ∣ y 2 ) , P ( a 2 ∣ y 2 ) , ⋯ , P ( a m ∣ y 2 ) ⋮ P ( a i ∣ y n ) , P ( a 2 ∣ y n ) , ⋯ , P ( a m ∣ y n ) \begin{aligned} P(a_i|y_1),P(a_2|y_1),\cdots,P(a_m|y_1)\\ P(a_i|y_2),P(a_2|y_2),\cdots,P(a_m|y_2)\\ \vdots~~~~~~~~~~~~~~~~~~~ \\ P(a_i|y_n),P(a_2|y_n),\cdots,P(a_m|y_n) \end{aligned} P(ai∣y1),P(a2∣y1),⋯,P(am∣y1)P(ai∣y2),P(a2∣y2),⋯,P(am∣y2)⋮ P(ai∣yn),P(a2∣yn),⋯,P(am∣yn) -
如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导
P ( y i ∣ x ) = P ( x ∣ y i ) P ( y i ) P ( x ) P(y_i|x)=\dfrac{P(x|y_i)P(y_i)}{P(x)} P(yi∣x)=P(x)P(x∣yi)P(yi)因为分母对于所有类别为常数,因此只要将分子最大化即可;又因为各特征属性是条件独立的,所以有
P ( x ∣ y i ) = P ( a 1 ∣ y i ) P ( a 2 ∣ y i ) ⋯ P ( a m ∣ y i ) P ( y i ) = P ( y i ) ∏ j = 1 m P ( a j ∣ y i ) P(x|y_i)=P(a_1|y_i)P(a_2|y_i)\cdots P(a_m|y_i)P(y_i)=P(y_i)\prod_{j=1}^mP(a_j|y_i) P(x∣yi)=P(a1∣yi)P(a2∣yi)⋯P(am∣yi)P(yi)=P(yi)j=1∏mP(aj∣yi)
根据上述分析,朴素贝叶斯分类的流程可以由下图表示
由图可知,整个朴素贝叶斯分类分为三个阶段。
第一阶段:准备工作阶段。这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并为每个特征属性进行适当划分,如何由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响。分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段:分类器训练阶段。这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并记录结果。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式,由程序自动计算完成。
第三阶段:应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。
朴素贝叶斯算法成立的前提是各属性之间相互独立。当数据集满足这种独立行假设时,分类的准确度较高,否则可能较低。另外,该算法没有分类规则输出。