文章目录
- 一、说明
- 二、如何认识所谓的“熵”
- 三、熵最大化问题
- 3.1 设置最大化
- 3.2 利用变分微积分
- 四、更广泛的影响和见解
一、说明
我觉得用最大熵来获取概率分布的方法很给力。您采用一些已知或约束,然后在这些条件下最大化信息熵,瞧!你有一个独特的概率分布。很酷的是,这些最大熵分布非常常见,因此这是一种重新推导我们日常遇到的许多分布的巧妙方法。对我来说,仅此一点就值得付出代价。但从信息论的角度来看,这些将是偏差最小的先验分布(我们最大化我们的无知),因此随后的贝叶斯定理实验将 最大化获得的信息。此外,自然界中发现的许多物理模式都倾向于最大熵概率分布。因此,即使作为理解世界的一种方式,最大熵也是一个非常有用且深入的工具。
以下是一些常见的概率分布以及如何根据最大熵原理推导出它们。
二、如何认识所谓的“熵”
要想认识谓熵的概念,首先要认识“信息”的价值,所谓“信息”的“价值”我们可以如下描述:
1)越是概率小的事物,其信息更有价值。
2)对于一个固定的分布,其总熵是个固定值。
3)对于一系列可变化参数的分布,其总熵是个函数。
对于连续函数: 熵是一个最初植根于热力学的概念,在信息论和统计学中具有重要意义。在概率分布的背景下,熵衡量与随机变量相关的不确定性或不可预测性。对于概率密度函数为 p(x) 的连续随机变量 X,熵 H 在数学上定义为:
E
(
p
)
=
−
∫
a
b
p
(
x
)
[
l
o
g
p
(
x
)
]
d
x
E(p)=-\int_{a}^{b}{p(x)[logp(x)]}dx
E(p)=−∫abp(x)[logp(x)]dx
离散分布中,我们给出一般的熵函数为:
E = ∑ i = 1 N p i × ( l n ( 1 p i ) ) E = \sum^N_{i=1}p_i\times(ln(\frac{1}{p_i})) E=i=1∑Npi×(ln(pi1))
三、熵最大化问题
熵最大化问题问:在给定均值μ和方差 σ2 的所有概率分布中,哪个分布使熵 H 最大化?这是信息论和统计力学中的一个经典问题,反映了最大熵原理作为一种推理方法。
3.1 设置最大化
为了解决这个问题,我们通过一个功能优化框架来解决这个问题。我们的任务是最大化熵泛函:
J
[
p
]
=
−
∫
p
(
x
)
l
o
g
[
p
(
x
)
]
d
x
J[p]=-\int p(x) log[p(x)]dx
J[p]=−∫p(x)log[p(x)]dx
受规范化条件约束的约束
∫
p
(
x
)
d
x
=
1
\int p(x) dx=1
∫p(x)dx=1
平均约束:
∫
x
p
(
x
)
d
x
=
μ
\int xp(x) dx=\mu
∫xp(x)dx=μ
和方差约束:
∫
(
x
−
μ
)
2
p
(
x
)
d
x
=
σ
2
\int (x-\mu)^2p(x) dx=\sigma^2
∫(x−μ)2p(x)dx=σ2
这些约束确保概率分布 p(x) 被正确归一化,具有正确的均值μ和指定的方差 σ2。这些是分析任何概率分布时必须满足的基本条件,尤其是在讨论熵等属性时。
3.2 利用变分微积分
变分演算提供了求解此约束优化问题所需的工具。我们制定了一个拉格朗日量,其中包含拉格朗日乘数 λ0、λ1 和 λ2 的约束:
p(x) 的推导与求解
L 相对于 p 的第一个变化导致了极值的条件。将导数设置为零,我们发现:
这导致我们将 p(x) 表示为:
应用约束可以简化乘数,从而得到:
因此,概率密度函数变为:
要最终确定 λ0,请使用归一化条件:
求解此问题后,您发现 λ0 对应于高斯分布的归一化因子,从而确认:
该推导最终表明,正态分布在给定均值和方差的约束下使熵最大化,体现了其在这些条件下以最“不确定”的方式分配概率质量的独特性质。
四、更广泛的影响和见解
该证明不仅证明了为什么正态分布在许多统计应用中是一种自然选择,而且还说明了熵和统计推断之间的联系。这一结果对于理解复杂系统的行为至关重要,并且是从物理学到金融等领域的许多原理的基础。