机器学习中,线性回归、树、集成和概率图都属于典型的统计学习方法,概率图模型会更深入地体现出‘统计’两字
概率图模型的常见算法
概率图模型中的图
概率图模型如图主要分为两种,即贝叶斯网络和马尔可夫网络,有向图与无向图;
有向图对应贝叶斯网络,无向图对应马尔可夫网络
逻辑回归可以看成无向图的结构,因为分类的结果是相互独立的,最大熵模型和条件随机场都属于无向图的概念
GMM高斯混合模型与概率图
- GMM(高斯混合模型)是由多个高斯分布按一定权重加和而成的概率分布模型。
- 公式表示为:p(x)=∑k=1K αk ⋅N(μk ,Σk ),其中∑k=1 K αk =1。
- 可视化上,GMM可以拟合数据的多模态分布。
混合模型视角
- 引入隐变量Z来表示样本来自哪个高斯分布。
- Z是一个离散随机变量,取值为Z1 ,Z2 ,...,ZK ,对应的概率为p1 ,p2 ,...,pK ,且∑k=1K pk =1。
- 样本生成过程分为两步:
- 选择隐变量Z,即选择第k个高斯分布,概率为pk 。
- 从选定的高斯分布中生成样本X,即X服从N(μk ,Σk )。
概率图模型表示
- 变量关系图:
- 隐变量Z和观测变量X之间的关系。
- Z是父节点,X是子节点。
- 联合概率分布公式:
- p(x,z)=p(z)⋅p(x∣z)
- 边缘概率p(x)=∑z p(x,z)=∑k=1K p(z)⋅p(x∣z)
站在混合模型角度,它假设样本是从不同k 个高斯分布生成的,每个样本是从某个高斯分布抽样得到的,抽中 这K个高斯分布的概率不一样,我们用一个隐变量定义这种抽样概率 大小,隐变量是服从某种概率分布的离散随机变量:
重复上述过程m次;得到一共m个样本,这m个样本来自这K个高斯分布。 用概率图模型表示为:
那么求解一个样本x的概率分布:
过概率图模型建模总结出来的上式和一开始的GMM公式一致的,权值就是隐变量的取值概率。只不过如果把GMM当做聚类算法时,我们把归类为概率更高的那个隐变量对应的高斯分布。
生成式模型与判别式模型
假设可观测的变量集合为X,需要预测的变量集合为Y,其它的变量集合为Z。
生成式模型
- 定义与建模对象:
- 生成式模型对联合分布 P(X,Y,Z) 进行建模,描述数据的生成过程。
- 通过贝叶斯定理,可以从中推导出条件概率 P(Y∣X)。
- 优点:
- 可以生成新数据,适用于数据增强和数据生成任务。
- 在数据量较少时,可以通过先验知识来弥补数据不足。
- 在处理缺失数据时,可以通过联合分布推断缺失变量的值。
- 应用场景:
- 朴素贝叶斯、隐马尔可夫模型(HMM)、高斯混合模型(GMM)等。
- 适用于图像生成任务(如生成对抗网络GAN、变分自编码器VAE)。
- 实例:
- 朴素贝叶斯:假设特征在给定类别下条件独立,通过贝叶斯定理求 P(Y∣X)。
- 隐马尔可夫模型(HMM):建模观测序列和隐藏状态序列的联合分布。
判别式模型
- 定义与建模对象:
判别式模型直接对条件概率 P(Y,Z∣X) 进行建模,关注输入到输出的映射。
- 优点:
- 在分类任务上可能表现更好,尤其是在数据量较大时,可以学习到更复杂的决策边界。
- 在高维数据下可能更容易训练,因为只需关注条件概率。
- 应用场景:
- 逻辑回归、支持向量机(SVM)、条件随机场(CRF)等。
- 适用于图像分类任务(如卷积神经网络CNN)。
- 实例:
- 逻辑回归:直接建模 P(Y∣X),适用于二分类任务。
- 条件随机场(CRF):直接建模标签序列与观测序列之间的关系。