常见推断方法一览：极大似然估计、最大后验估计、期望最大化、贝叶斯推断、马尔科夫链蒙特卡洛方法、变分推断

常见推断方法一览

推断方法区别
频率派
极大似然估计 MLE
最大后验估计 MAP
期望最大化 EM

贝叶斯推断 Bayesian
马尔科夫链蒙特卡洛方法 MCMC
变分推断 VI

推断方法区别

极大似然估计 (Maximum Likelihood Estimation, MLE):
- 解释: 假设你有一堆骰子，你投掷它们很多次，然后记录下每次的结果。
- 极大似然估计就是一种方法，用来估计这些骰子每一面出现的概率是多少。
- 根据实际观察到的数据来找到一组参数，使得这些数据出现的可能性最大。
- 是从已有的数据出发，然后去寻找最能解释这些数据的参数。
- 应用领域: 在科学实验和社会调查中，用来估计未知参数，比如估计一个新药的有效率。
最大后验估计 (Maximum A Posteriori Estimation, MAP):
- 解释: 这个方法和极大似然估计很像，但它还考虑了你之前已经知道的信息。
- 比如，如果你在估计骰子的概率时，已经知道这个骰子可能是不均匀的，这个先验知识会影响你的估计结果。
- 应用领域: 用于包含先验知识的统计问题，比如在医学图像处理中估计病变的位置。
期望最大化 (Expectation Maximization, EM):
- 解释: 这是一种处理不完整数据的方法。
- 假设你有一部分骰子的投掷数据丢失了，EM算法可以帮你估计这些丢失数据的最可能值，并据此来估计骰子的概率。
- 应用领域: 用于处理不完整数据，如在经济学研究中处理缺失数据。
贝叶斯推断 (Bayesian Inference):
- 解释: 贝叶斯推断是一种统计方法，它使用概率来量化不确定性。
- 在贝叶斯推断中，你可以用新的数据来更新你对某个参数的信念。
- 例如，你可以根据新的病例数据来更新一个疾病爆发的可能性。
- 应用领域: 广泛应用于各种领域，包括医学研究、机器学习和金融市场分析。
马尔科夫链蒙特卡洛方法 (Markov Chain Monte Carlo, MCMC):
- 解释: 这是一种通过构建“随机游走”来估计复杂概率分布的方法。
- 想象你在一个棋盘上随机移动，每一步都基于某种规则，长时间后，你的位置可以帮助我们理解棋盘上的某些特性。
- 应用领域: 在统计物理、金融和生态学中模拟复杂系统。
变分推断 (Variational Inference):
- 解释: 这是一种使用简化的概率分布来近似复杂概率分布的方法。
- 就像用一张简单的地图来代表一个复杂的地形，虽然不完全准确，但足以给出一个大概的理解。
- 应用领域: 在机器学习中，特别是在大数据和高维数据中使用，如在自然语言处理和计算机视觉中。

搭建模型需要设计目标函数（比如神经网络），绝大多数机器学习的目标函数都是基于 MLE、MAP、Bayesian搭建的。

因为这些模型在学习时，都试图找到最佳的方式去解释数据，同时考虑到现有的知识和不确定性。

频率派

极大似然估计 MLE

MLE定义给定 theta 的条件下，最大化看到所有样本的概率，最大化目标函数。

假设你有一组数据，并且你有一个模型，这个模型由一些参数（θ）控制。

MLE 的目标是找到这些参数的最佳值，使得这些参数下观察到的数据出现的概率最大，确保模型尽可能地反映出现实世界中的情况。

然后用这个接近现实世界的模式，去预测事情。

似然函数：在特定参数设定下，评估在给定模型参数下，观察到的特定数据集出现的概率。

假设你有一个硬币，想知道是不是公平的。你抛了10次，其中7次正面朝上。

似然函数会尝试不同的概率（比如50%，60%，70%…不同参数下），并计算每种情况下出现“7次正面，3次反面”的概率。

最大化似然函数：目标是找到一个概率值，使得这种结果出现的可能性最大。如果这个最大的概率发生在70%，那你就会说根据目前的数据，最有可能的情况是硬币正面朝上的概率是70%，参数就是这个。

基于实际观察到的数据来估计模型参数，这就是最大似然估计的核心思想。

但这种思想，结论可靠性高度依赖于样本的大小和实验的重复性。

如果我们只抛10次，我们得到的结论可能不太可靠。

但如果我们抛1000次，并且大约700次正面朝上，我们就更有信心认为硬币有偏差。

属于频率派搞法。

数学公式：

$M L E (θ) = a r g ma x [P (X ∣ θ)]$

在机器学习中的应用，一个神经网络模型，输入是图片，输出是图片属于“猫”或“狗”的概率。

似然函数：在这个场景中，似然函数衡量的是，在给定网络当前参数的情况下，正确分类所有训练图片的概率。
参数优化：通过调整网络的权重和偏置，我们尝试最大化这个似然函数。换句话说，我们在寻找一组参数，它们使得网络正确分类训练集中的猫和狗图片的概率最大。

最大似然估计在机器学习中的作用：它提供了一个强大的框架来指导模型参数的优化过程，使模型能够有效地从数据中学习。

这种基于概率的方法有助于确保模型不仅能够适应已见过的数据，而且能够泛化到新的、未见过的数据。

最大后验估计 MAP

极大似然估计只关注当前的样本，也就是只关注当前发生的事情，不考虑事情的先验情况。

MAP是在MLE的基础上增加了先验知识。

如果没有先验信息，或者先验信息是均匀分布的，那么MAP就简化为MLE。

MAP不仅考虑数据本身，还考虑了参数的先验概率。

试图找到使得参数在观测数据下，后验概率最大的参数值。

先验概率：这是在观测数据之前对参数的信念。例如，如果你已经知道在大多数情况下，猫和狗的图片大致平分，这个信息就可以作为先验。
直观理解：在同样的猫狗识别模型中，如果你已经知道猫的图片通常比狗的图片多（或者相反），MAP会利用这个先验知识来调整参数估计。

数学公式：

$[\frac{(P(X|θ) * P(θ))}{P(X)}]$

由于 P(X) 是固定的，我们通常简化为：
$P(X|\theta)P(\theta)$

对比 MLE 公式，发现就是多了一个先验模块 $P(\theta)$

MLE纯粹基于数据来估计参数，而 MAP在估计参数时同时考虑了数据和先验知识。

在数据稀少或有强先验知识的情况下，MAP可能比MLE更有效。

期望最大化 EM

迭代算法，用于含有隐变量的统计模型中，交替计算期望步骤和最大化步骤，来寻找参数的最优估计。

比如看故事书，但故事中有一些缺失的部分（这些就是“隐变量”）。

你的目标是填补这些缺失部分，使得整个故事变得连贯和合理。

EM算法就像一个两步循环过程，帮助你逐渐完善这个故事：

期望步骤 (E步骤)： 在这一步，你根据目前所知的信息，对故事中缺失的部分做出最佳猜测。就好比你根据故事的上下文来推测这些缺失部分可能的内容。
最大化步骤 (M步骤)： 接下来，你根据这些猜测来重新讲述整个故事，并调整故事中其他已知部分的细节，使得整体故事更加合理。这个过程就像根据新的假设来优化故事的连贯性。M步骤可以使用MLE或MAP。

这个循环反复进行：你根据当前的故事版本来改善你对缺失部分的猜测，然后再用这些新猜测来优化整个故事。

随着每次迭代，故事变得越来越连贯，直到最终达到一个点，你觉得再怎么调整也无法使故事更好了。

这时，你就找到了最合适的版本来填补缺失部分，也就是说，你找到了模型参数的最优估计。

详情，请猛击：《期望最大化 EM》。