贝叶斯定理
1.知识前驱
1. 全概率公式
它允许我们计算一个事件发生的总概率,这个事件可以通过几个互斥的途径发生。
事件 B B B 发生的总概率是 B B B 在每个互斥情况下发生的概率之和。每个“情况” A i A_i Ai 都被视为一个可能的路径,通过这个路径 B B B 可以发生。
定义
全概率公式可以表述为:如果事件 A 1 , A 2 , … , A n A_1, A_2, \ldots, A_n A1,A2,…,An 构成了样本空间的一个划分,即它们互斥且完全穷尽(即它们不能同时发生,且它们的并集是整个样本空间),那么任何事件 B B B 的概率可以表示为:
P ( B ) = P ( B ∣ A 1 ) P ( A 1 ) + P ( B ∣ A 2 ) P ( A 2 ) + ⋯ + P ( B ∣ A n ) P ( A n ) P(B) = P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + \cdots + P(B|A_n)P(A_n) P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)+⋯+P(B∣An)P(An)
这里:
- P ( B ∣ A i ) P(B|A_i) P(B∣Ai) 是在事件 A i A_i Ai 发生的条件下事件 B B B 发生的条件概率。
- P ( A i ) P(A_i) P(Ai) 是事件 A i A_i Ai 发生的概率。
2. 二项分布(Binomial Distribution)
二项分布是一种离散概率分布,它描述了在固定次数的独立伯努利试验中成功的次数,其中每次试验成功的概率相同。
参数:
- n n n:试验次数,必须是一个正整数。
- p p p:每次试验成功的概率,取值范围在0到1之间。
概率质量函数(PMF):
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}
P(X=k)=(kn)pk(1−p)n−k
其中,
X
X
X 是表示成功次数的随机变量,
k
k
k 是成功的次数,
(
n
k
)
\binom{n}{k}
(kn) 是组合数,表示从
n
n
n 次试验中选择
k
k
k 次成功的方式数。
特点:
- 二项分布是离散的。
- 它用于模拟有固定次数试验和只有两种可能结果(成功或失败)的场景。
- 当 n n n 很大且 p p p 很小的时候,二项分布可以用泊松分布来近似。
3. 正态分布(Normal Distribution)
正态分布,也称为高斯分布,是一种连续概率分布。
参数:
- μ \mu μ:分布的均值(期望值),决定了分布的中心位置。
- σ 2 \sigma^2 σ2:分布的方差,决定了分布的离散程度;标准差 σ \sigma σ 是方差的平方根。
概率密度函数(PDF):
f
(
x
∣
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
f(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
其中,
x
x
x 是随机变量的取值。
特点:
- 正态分布是连续的。
- 它的形状是对称的,均值 μ \mu μ 决定了分布的中心,标准差 σ \sigma σ 决定了分布的宽度。
- 正态分布在其均值附近的值最为集中,随着距离均值的增加,概率密度逐渐减小。
- 根据中心极限定理,许多独立随机变量的和(或平均值)在样本量足够大时近似正态分布,无论这些变量本身是什么分布。
二项分布适用于离散型随机变量
正态分布适用于连续型随机变量
2. 贝叶斯定理
贝叶斯定理是贝叶斯统计学的核心,它描述了如何根据新的证据更新对假设的概率估计。贝叶斯定理的公式是:
P ( H ∣ E ) = P ( E ∣ H ) ⋅ P ( H ) P ( E ) P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)} P(H∣E)=P(E)P(E∣H)⋅P(H)
其中:
- P ( H ∣ E ) P(H|E) P(H∣E) 是在证据 E E E 发生的条件下假设 H H H 为真的后验概率。
- P ( E ∣ H ) P(E|H) P(E∣H) 是在假设 H H H 为真的条件下证据 E E E 发生的可能性,也称为似然性。
- P ( H ) P(H) P(H) 是在考虑任何证据之前假设 H H H 为真的先验概率。
- P ( E ) P(E) P(E) 是证据 E E E 发生的总概率,可以通过全概率公式计算。
推导贝叶斯定理
贝叶斯定理可以从条件概率的定义出发进行推导。根据条件概率的定义,我们有:
P ( H ∩ E ) = P ( H ) ⋅ P ( E ∣ H ) P(H \cap E) = P(H) \cdot P(E|H) P(H∩E)=P(H)⋅P(E∣H)
这里, P ( H ∩ E ) P(H \cap E) P(H∩E) 表示假设 H H H 和证据 E E E 同时发生的概率。
同样地,我们也可以从 E E E 的角度来表达这个联合概率:
P ( H ∩ E ) = P ( E ) ⋅ P ( H ∣ E ) P(H \cap E) = P(E) \cdot P(H|E) P(H∩E)=P(E)⋅P(H∣E)
现在,我们可以将两个表达式设置为相等,因为它们表示的是同一个联合概率:
P ( H ) ⋅ P ( E ∣ H ) = P ( E ) ⋅ P ( H ∣ E ) P(H) \cdot P(E|H) = P(E) \cdot P(H|E) P(H)⋅P(E∣H)=P(E)⋅P(H∣E)
接下来,我们解出 P ( H ∣ E ) P(H|E) P(H∣E),即在证据 E E E 发生的情况下假设 H H H 为真的概率:
P ( H ∣ E ) = P ( H ) ⋅ P ( E ∣ H ) P ( E ) P(H|E) = \frac{P(H) \cdot P(E|H)}{P(E)} P(H∣E)=P(E)P(H)⋅P(E∣H)
这就是贝叶斯定理的基本形式。它表明后验概率 P ( H ∣ E ) P(H|E) P(H∣E) 与先验概率 P ( H ) P(H) P(H) 和似然性 P ( E ∣ H ) P(E|H) P(E∣H) 的乘积成正比,并且与证据 E E E 发生的总概率 P ( E ) P(E) P(E) 成反比。
3. 先验分布
先验分布是在考虑任何数据之前对参数的初始概率分布。它反映了我们对参数的先验信念或知识。先验分布可以是主观的,也可以基于以往的研究或数据。
4. 似然函数
似然函数是给定参数下观察到数据的概率。它是贝叶斯定理中的关键组成部分,用于量化模型参数与观测数据之间的匹配程度。
似然函数是统计模型中的一个重要概念,它衡量了在给定一组参数的情况下,观测到特定数据样本的概率。数学上,如果我们有一个参数向量 θ \theta θ 和一个数据样本 D D D,似然函数 L ( θ ∣ D ) L(\theta | D) L(θ∣D) 定义为:
L ( θ ∣ D ) = P ( D ∣ θ ) L(\theta | D) = P(D | \theta) L(θ∣D)=P(D∣θ)
这里:
- L ( θ ∣ D ) L(\theta | D) L(θ∣D) 是似然函数。
- θ \theta θ 是模型参数。
- D D D 是观测到的数据。
- P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是给定参数 θ \theta θ 下数据 D D D 的概率。
似然函数的作用
-
参数估计:
- 似然函数用于估计模型参数。在最大似然估计(MLE)中,我们找到使似然函数最大化的参数值。
-
模型比较:
- 在模型选择中,似然函数用于比较不同模型对数据的拟合程度。例如,通过比较两个模型的似然比来决定哪个模型更好。
-
量化不确定性:
- 似然函数帮助量化在给定参数下观测数据的不确定性。
似然函数与概率密度函数(PDF)
对于连续型随机变量,似然函数通常与概率密度函数(PDF)相关。如果我们的数据 D D D 由多个独立同分布(i.i.d.)的观测组成,似然函数可以表示为:
L ( θ ∣ D ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta | D) = \prod_{i=1}^{n} f(x_i | \theta) L(θ∣D)=∏i=1nf(xi∣θ)
其中:
- f ( x i ∣ θ ) f(x_i | \theta) f(xi∣θ) 是单个观测 x i x_i xi 的概率密度函数。
- n n n 是观测的数量。
似然函数与对数似然函数
由于似然函数的乘积形式可能导致数值计算问题(特别是当观测数量很大时),通常使用对数似然函数,它将乘积转换为求和:
ℓ ( θ ∣ D ) = log L ( θ ∣ D ) = ∑ i = 1 n log f ( x i ∣ θ ) \ell(\theta | D) = \log L(\theta | D) = \sum_{i=1}^{n} \log f(x_i | \theta) ℓ(θ∣D)=logL(θ∣D)=∑i=1nlogf(xi∣θ)
对数似然函数更容易处理,并且在数学上更稳定
5. 后验分布
后验分布是在考虑了数据(证据)之后对参数的更新概率分布。它是通过贝叶斯定理结合先验分布和似然函数得到的。
在贝叶斯统计中,后验分布 P ( θ ∣ D ) P(\theta | D) P(θ∣D) 是通过贝叶斯定理结合先验分布 P ( θ ) P(\theta) P(θ) 和似然函数 P ( D ∣ θ ) P(D | \theta) P(D∣θ) 得到的:
P ( θ ∣ D ) = P ( D ∣ θ ) ⋅ P ( θ ) P ( D ) P(\theta | D) = \frac{P(D | \theta) \cdot P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)⋅P(θ)
这里:
- P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是似然函数。
- P ( θ ) P(\theta) P(θ) 是先验分布。
- P ( D ) P(D) P(D) 是证据或边际似然,它是归一化常数,确保后验分布的积分为1。
似然函数的形式
似然函数的形式取决于数据的性质和模型的假设。例如:
- 对于正态分布数据,似然函数是正态分布的概率密度函数。
- 对于二项分布数据,似然函数是二项分布的概率质量函数。
正态分布数据的似然函数
对于正态分布数据,如果我们有一个样本 D = { x 1 , x 2 , … , x n } D = \{x_1, x_2, \ldots, x_n\} D={x1,x2,…,xn},其中每个 x i x_i xi 是独立同分布(i.i.d.)的正态随机变量,其均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,那么似然函数 L ( μ , σ 2 ∣ D ) L(\mu, \sigma^2 | D) L(μ,σ2∣D) 是各个数据点概率密度函数(PDF)的乘积:
L ( μ , σ 2 ∣ D ) = ∏ i = 1 n 1 2 π σ 2 exp ( − ( x i − μ ) 2 2 σ 2 ) L(\mu, \sigma^2 | D) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) L(μ,σ2∣D)=∏i=1n2πσ21exp(−2σ2(xi−μ)2)
这个乘积可以简化为:
L ( μ , σ 2 ∣ D ) = ( 1 2 π σ 2 ) n exp ( − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ) L(\mu, \sigma^2 | D) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2\right) L(μ,σ2∣D)=(2πσ21)nexp(−2σ21∑i=1n(xi−μ)2)
在实际应用中,我们通常使用对数似然函数来避免数值计算中的下溢问题,并且对数变换将乘积转换为求和,更容易处理:
ℓ ( μ , σ 2 ∣ D ) = log L ( μ , σ 2 ∣ D ) = − n 2 log ( 2 π ) − n log ( σ ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2 | D) = \log L(\mu, \sigma^2 | D) = -\frac{n}{2} \log(2\pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 ℓ(μ,σ2∣D)=logL(μ,σ2∣D)=−2nlog(2π)−nlog(σ)−2σ21∑i=1n(xi−μ)2
二项分布数据的似然函数
对于二项分布数据,如果我们有 n n n 次独立的伯努利试验,每次试验成功的概率为 θ \theta θ,并且我们观测到 k k k 次成功,那么似然函数 L ( θ ∣ D ) L(\theta | D) L(θ∣D) 是二项分布的概率质量函数(PMF):
L ( θ ∣ D ) = ( n k ) θ k ( 1 − θ ) n − k L(\theta | D) = \binom{n}{k} \theta^k (1-\theta)^{n-k} L(θ∣D)=(kn)θk(1−θ)n−k
这里:
- ( n k ) \binom{n}{k} (kn) 是二项式系数,表示从 n n n 次试验中选择 k k k 次成功的方式数。
- θ k \theta^k θk 是 k k k 次成功的概率。
- ( 1 − θ ) n − k (1-\theta)^{n-k} (1−θ)n−k 是 n − k n-k n−k 次失败的概率。
二项分布的对数似然函数是:
ℓ ( θ ∣ D ) = log L ( θ ∣ D ) = log ( n k ) + k log θ + ( n − k ) log ( 1 − θ ) \ell(\theta | D) = \log L(\theta | D) = \log \binom{n}{k} + k \log \theta + (n-k) \log (1-\theta) ℓ(θ∣D)=logL(θ∣D)=log(kn)+klogθ+(n−k)log(1−θ)
在贝叶斯框架中,我们可以使用这些似然函数与先验分布结合,通过贝叶斯定理更新后验分布。对于正态分布数据,后验分布将取决于 μ \mu μ 和 σ 2 \sigma^2 σ2 的先验分布;对于二项分布数据,后验分布将取决于 θ \theta θ 的先验分布。这些后验分布允许我们对参数进行推断,并量化参数的不确定性。
6. 边缘似然(模型选择)
边缘似然是给定模型下数据的总概率。它可以通过对所有可能的参数值进行积分来计算。边缘似然在模型选择中非常重要,因为它允许我们比较不同模型对数据的拟合程度。
它表示在给定模型下观测到数据的总概率。边缘似然的计算涉及对所有可能的参数值进行积分(对于连续参数)或求和(对于离散参数),这通常由模型的先验分布加权。
边缘似然的计算
对于连续参数,边缘似然 P ( D ) P(D) P(D) 由下式给出:
P ( D ) = ∫ P ( D ∣ θ ) P ( θ ) d θ P(D) = \int P(D | \theta) P(\theta) \, d\theta P(D)=∫P(D∣θ)P(θ)dθ
其中:
- P ( D ∣ θ ) P(D | \theta) P(D∣θ) 是似然函数,表示在给定参数 θ \theta θ 下观测到数据 D D D 的概率。
- P ( θ ) P(\theta) P(θ) 是参数 θ \theta θ 的先验分布。
- 积分是对所有可能的 θ \theta θ 值进行的。
对于离散参数,边缘似然是:
P ( D ) = ∑ P ( D ∣ θ ) P ( θ ) P(D) = \sum P(D | \theta) P(\theta) P(D)=∑P(D∣θ)P(θ)
其中求和是对所有可能的 θ \theta θ 值进行的。
边缘似然在模型选择中的作用
边缘似然用于比较不同的模型对同一数据集的拟合程度。在模型选择中,我们通常比较两个或多个模型的边缘似然值。模型的边缘似然值越高,表示该模型对数据的拟合越好。
比较模型
比较两个模型 M 1 M_1 M1 和 M 2 M_2 M2 的边缘似然时,我们计算模型的相对证据,即贝叶斯因子:
贝叶斯因子 = P ( D ∣ M 1 ) P ( D ∣ M 2 ) \text{贝叶斯因子} = \frac{P(D | M_1)}{P(D | M_2)} 贝叶斯因子=P(D∣M2)P(D∣M1)
如果贝叶斯因子大于1,它表明模型 M 1 M_1 M1 比模型 M 2 M_2 M2 更可能;如果小于1,则表明模型 M 2 M_2 M2 更可能。
7. 共轭先验
共轭先验是指先验分布和后验分布属于同一家族的分布。这意味着后验分布的形式与先验分布相同,只是参数不同。例如,对于二项分布的似然函数,共轭先验是贝塔分布。
8. 贝叶斯推断的步骤
- 定义模型:选择一个概率模型来描述数据的生成过程。
- 指定先验:为模型参数选择一个先验分布。
- 计算似然:根据模型计算给定参数下数据的似然性。
- 更新后验:使用贝叶斯定理结合先验和似然来更新后验分布。
- 做出决策:基于后验分布进行预测或决策。
9. 贝叶斯推断的挑战
- 计算复杂性:后验分布可能难以直接计算,特别是当模型复杂或数据量大时。
- 先验选择:先验的选择可能会影响后验分布,特别是在数据较少时。
10. 贝叶斯推断的工具
马尔可夫链蒙特卡洛(MCMC)
一种通过模拟随机样本来近似后验分布的方法。
马尔可夫链蒙特卡洛(Markov Chain Monte Carlo,简称MCMC)方法是一类强大的算法,它们用于从复杂的概率分布中生成随机样本,尤其是当这些分布难以直接抽样时。它们可以用来近似后验分布,即使这些分布的解析形式未知或难以计算。
即:一种通过模拟随机样本来近似后验分布的方法。
MCMC的工作原理
MCMC方法通过构建一个马尔可夫链来工作,这个马尔可夫链是一个随机过程,其下一个状态的概率分布仅依赖于当前状态。通过设计这个链,使其在长期运行后,其状态的分布收敛到我们想要抽样的目标分布(例如后验分布)。
MCMC的关键步骤
-
初始化:
- 选择一个初始状态 x 0 x_0 x0。
-
迭代过程:
- 从当前状态 x t x_t xt 开始,提出一个新状态 x ′ x' x′,这个提议可以通过各种方法生成,例如随机游走或更复杂的方法。
- 计算接受概率
α
\alpha
α,这是新状态被接受的概率,由下式给出:
α = min ( 1 , P ( x ′ ) Q ( x ∣ x ′ ) P ( x ) Q ( x ′ ∣ x ) ) \alpha = \min\left(1, \frac{P(x')Q(x|x')}{P(x)Q(x'|x)}\right) α=min(1,P(x)Q(x′∣x)P(x′)Q(x∣x′))
其中 P P P 是目标分布, Q Q Q 是提议分布。
-
接受或拒绝:
- 生成一个均匀随机数 u u u 在区间 ([0, 1])。
- 如果 u ≤ α u \leq \alpha u≤α,则接受新状态 x ′ x' x′,即设置 x t + 1 = x ′ x_{t+1} = x' xt+1=x′。
- 如果 u > α u > \alpha u>α,则拒绝新状态,保持当前状态不变,即设置 x t + 1 = x t x_{t+1} = x_t xt+1=xt。
-
重复:
- 重复步骤2和3多次,以生成足够多的样本。
-
收敛和混合:
- 随着时间的推移,马尔可夫链的状态将收敛到目标分布,前提是链是不可约的和非周期的,并且满足详细的平衡条件。
变分推断
一种通过优化一个简单分布来近似后验分布的方法。
11.焦糖板栗(例子)
假设我们有一个装满球的袋子,其中30%是红球,70%是蓝球。我们随机抽取一个球,发现它是红色的。我们想计算这个袋子最初是装红球的袋子的概率,假设我们有两种类型的袋子:一种装有30%的红球和70%的蓝球,另一种装有80%的红球和20%的蓝球。
让我们定义:
- A 1 A_1 A1:袋子是第一种类型(30%红球,70%蓝球)。
- A 2 A_2 A2:袋子是第二种类型(80%红球,20%蓝球)。
- B B B:我们抽取了一个红球。
我们需要找到 P ( A 1 ∣ B ) P(A_1|B) P(A1∣B) 和 P ( A 2 ∣ B ) P(A_2|B) P(A2∣B)。
使用贝叶斯定理:
P
(
A
1
∣
B
)
=
P
(
B
∣
A
1
)
⋅
P
(
A
1
)
P
(
B
)
P(A_1|B) = \frac{P(B|A_1) \cdot P(A_1)}{P(B)}
P(A1∣B)=P(B)P(B∣A1)⋅P(A1)
P
(
A
2
∣
B
)
=
P
(
B
∣
A
2
)
⋅
P
(
A
2
)
P
(
B
)
P(A_2|B) = \frac{P(B|A_2) \cdot P(A_2)}{P(B)}
P(A2∣B)=P(B)P(B∣A2)⋅P(A2)
其中:
- P ( A 1 ) = P ( A 2 ) = 0.5 P(A_1) = P(A_2) = 0.5 P(A1)=P(A2)=0.5(因为我们假设两种袋子的可能性相等)。
- P ( B ∣ A 1 ) = 0.3 P(B|A_1) = 0.3 P(B∣A1)=0.3(第一种袋子中抽到红球的概率)。
- P ( B ∣ A 2 ) = 0.8 P(B|A_2) = 0.8 P(B∣A2)=0.8(第二种袋子中抽到红球的概率)。
为了找到 P ( B ) P(B) P(B),我们使用全概率公式:
P
(
B
)
=
P
(
B
∣
A
1
)
⋅
P
(
A
1
)
+
P
(
B
∣
A
2
)
⋅
P
(
A
2
)
P(B) = P(B|A_1) \cdot P(A_1) + P(B|A_2) \cdot P(A_2)
P(B)=P(B∣A1)⋅P(A1)+P(B∣A2)⋅P(A2)
P
(
B
)
=
0.3
⋅
0.5
+
0.8
⋅
0.5
=
0.55
P(B) = 0.3 \cdot 0.5 + 0.8 \cdot 0.5 = 0.55
P(B)=0.3⋅0.5+0.8⋅0.5=0.55
现在我们可以计算后验概率:
P
(
A
1
∣
B
)
=
0.3
⋅
0.5
0.55
=
0.15
0.55
≈
0.2727
P(A_1|B) = \frac{0.3 \cdot 0.5}{0.55} = \frac{0.15}{0.55} \approx 0.2727
P(A1∣B)=0.550.3⋅0.5=0.550.15≈0.2727
P
(
A
2
∣
B
)
=
0.8
⋅
0.5
0.55
=
0.4
0.55
≈
0.7273
P(A_2|B) = \frac{0.8 \cdot 0.5}{0.55} = \frac{0.4}{0.55} \approx 0.7273
P(A2∣B)=0.550.8⋅0.5=0.550.4≈0.7273
所以,如果我们抽取了一个红球,这个袋子是第二种类型(80%红球,20%蓝球)的概率大约是72.73%。