机器学习理论基础—贝叶斯分类器
贝叶斯决策论
概述:贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
定义
以一个多分类任务为例:假设当前有一个N分类问题,即={C1,C2,···CN}
定义一:入ij是将一个真实标记为cj的样本误分类为ci所产生的损失。
定义二:单个样本c的期望损失(条件风险)为:
其中,P (cj|x)为后验概率
定义三:全部样本构成的总体风险为:单个样本的条件风险的合集
其中,h为分类器(模型)。显然,分类效果越准确的h,其条件风险和总体风险也越小。
贝叶斯判定准则
贝叶斯判定准则:为最小化总体风险R(h),只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即
h*称之为最优分类器 R(h*)称为贝叶斯风险。
具体地,若目标是最小化分类错误率,则误判损失入ij可写为:
此时单个样本x的期望损失(条件风险)为:
将误判损失带入拆解可以得到以下的形式。
进一步推导即可得到西瓜书中的公式7.5:
按照贝叶斯准则,最小化分类错误率的贝叶斯最优分类器为:
即对每个样本x,选择后验概率P(ci|x)最大的类别ci作为标记
生成式模型和判别式模型
判别式模型:给定x直接建模P(c|x)来预测c(本章学习的贝叶斯分类器)
生成式模型:先对联合概率P(x,c)建模,然后再由此推导得出P(c|x):之前学习的模型例如决策树,神经网络和支持向量机。
说明:生成式模型和判别式模型
从贝叶斯决策论(概率框架)的角度:机器学习所要做的就是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)
从机器学习自己的角度:给定一个样本x,求一个能准确分类x的f(x),其有些算法可以看作是对后验概率建模P(c|x)(例如对数几率回归),而有些算法则是纯粹完成样本分类(例如SVM)
生成式模型建模思路
主要是依据概率论中的贝叶斯公式来进行建模
由贝叶斯定理进一步化简可以得到:
其中,P( c )是类"先验"概率,P(x|c)是样本c相对于类别标记x的类条件概率,P(x)是用于归一化的“证据”因子。
更为详细的解读可以参考西瓜书中的内容。
朴素贝叶斯分类器
模型样本的训练过程就是一个参数估计的过程。
提出了属性条件独立性假设:对已知类别,假设所有属性相互独立
其中,d为属性数目,xi为x在第i个属性上的取值
基于贝叶斯准则可以得到:
由于对所有类别来说P(x)都相同,所以P(x)视作常量可以略去,从而得到西瓜书中的(7.15)朴素贝叶斯分类器表达式
表达式计算
- 第一步:估计p( c )的值
其中,Dc表示训练集D中类别标记为c的样本集合,|Dc|表示集合Dc的样本总数
- 第二步:估计P(xi|c)其中第i个属性为离散的属性
其中,Dc,xi表示Dc中在第i个属性上取值为xi的样本组成的集合
【第i个属性为连续属性】(以正态分布假设为例)
半朴素贝叶斯分类器
半朴素贝叶斯分类器:适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。
【独依赖估计(ODE)】:假设每个属性在类别之外最多依赖于一个其他属性,即:(西瓜书中的公式7.21)
其中中间的符号表示正比于
其中,pai为属性xi所依赖的属性,称为xi的父属性。
【超父独依赖估计(SPODE)】:假设所有属性都依赖于同一个“超父"属性
对于之后的贝叶斯网的学习需要使用到后面要学习的概率图模型的基础来进行学习求解。