统计学中的得分函数（Score Function）是什么？它和Fisher信息矩阵有什么关系？

得分函数：统计学中的“敏感探针”

在统计学和概率论中，得分函数（Score Function）是一个看似简单却非常重要的概念。它不仅是Fisher信息矩阵的核心组成部分，还在参数估计、模型优化等领域发挥着关键作用。今天，我们就来聊聊什么是得分函数，它有什么用，以及为什么它能揭示参数间的“正交性”——比如在正态分布中，均值 ( $\mu$ ) 和方差 ( $\sigma^2$ ) 的得分函数为何在期望上“互不干扰”。

什么是得分函数？

得分函数的定义非常直白：它是对数似然函数（log-likelihood）对某个参数的偏导数。假设我们有一个概率分布 ( $p(x|\theta)$ )，其中 ( $\theta$ ) 是参数（可以是一个标量或向量），对数似然函数是 ( $\log p(x|\theta)$ )。那么，得分函数就是：

$s(\theta) = \frac{\partial \log p(x|\theta)}{\partial \theta}$

简单来说，得分函数衡量了当参数 ( $\theta$ ) 发生微小变化时，对数似然函数的“敏感度”。它就像一个探针，告诉你数据对参数的依赖程度。

一个通俗的比喻

想象你在调收音机的频率，想找到最清晰的信号（最佳参数）。你轻轻转动旋钮，信号强度的变化就是“得分函数”——它告诉你当前频率是否接近最佳点。如果变化很大（得分函数值大），说明你离目标还远；如果变化趋于零，说明你可能已经调到最佳位置了。

得分函数的数学性质

得分函数不仅仅是一个偏导数，它还有一些有趣的统计性质，让它在理论和实践中都非常有用。

期望为零

一个关键性质是：得分函数在真实参数下的期望为零。数学上：

$E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta} \bigg| \theta \right] = 0$

为什么会这样？因为对数似然函数的导数反映了似然函数的“坡度”，而在真实参数 ( $\theta$ ) 下，似然函数达到极大值（对于最大似然估计来说），坡度为零。这个性质可以通过积分证明：

$E[s(\theta)] = \int \frac{\partial \log p(x|\theta)}{\partial \theta} p(x|\theta) \, dx = \int \frac{1}{p(x|\theta)} \frac{\partial p(x|\theta)}{\partial \theta} p(x|\theta) \, dx = \int \frac{\partial p(x|\theta)}{\partial \theta} \, dx$

由于 ( $p(x|\theta)$ ) 是概率密度函数，其积分恒等于 1，对 ( $\theta$ ) 求导后：

$\frac{\partial}{\partial \theta} \int p(x|\theta) \, dx = \int \frac{\partial p(x|\theta)}{\partial \theta} \, dx = 0$

所以期望为零。这说明得分函数的波动是围绕零对称的。

方差与Fisher信息

具体请看笔者的另一篇博客：Fisher信息矩阵（Fisher Information Matrix，简称FIM）

得分函数的方差却不是零，而是与Fisher信息密切相关。对于单个参数 ( $\theta$ )：

$I(\theta) = E\left[ \left( \frac{\partial \log p(x|\theta)}{\partial \theta} \right)^2 \bigg| \theta \right]$

如果是多参数情况，Fisher信息矩阵的元素是：

$I_{ij} = E\left[ \frac{\partial \log p}{\partial \theta_i} \frac{\partial \log p}{\partial \theta_j} \bigg| \theta \right]$

这意味着Fisher信息捕捉了得分函数的“波动大小”或“信息含量”。

得分函数有什么用？

得分函数看似抽象，但在实际应用中非常强大。以下是它的几个主要用途：

1. 最大似然估计（MLE）

在最大似然估计中，我们通过求解得分函数等于零的点来估计参数：

$\frac{\partial \log p(x|\theta)}{\partial \theta} = 0$

这就像找到山顶（似然函数的最大值）。例如，对于正态分布 ( $N(\mu, \sigma^2)$ )：

( $\frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2}$ )，令其为零，解得 ( $\hat{\mu} = x$ )。

得分函数直接引导我们找到最佳估计。

2. Fisher信息与参数不确定性

Fisher信息矩阵由得分函数的二阶统计量构成，它告诉我们参数估计的精度有多高。Fisher信息的逆矩阵给出了参数估计方差的下界（Cramér-Rao下界），反映了估计的不确定性。

例如，在正态分布中：

( $I_{\mu\mu} = \frac{1}{\sigma^2}$ )，说明 ( $\mu$ ) 的估计方差下界与 ( $\sigma^2$ ) 成正比。

3. 参数正交性与 ( $I_{12} = 0$ )

当我们有多个参数时，得分函数之间的关系揭示了参数间的依赖性。如果 ( $I_{ij} = 0$ )（( $\neq j$ )），说明 ( $\theta_i$ ) 和 ( $\theta_j$ ) 的得分函数在期望上无关，这种情况称为“信息正交”。

以正态分布为例：

( $\frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2}$ )
( $\frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2}$ )

计算交叉项：

$I_{12} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right]$

展开后取期望，因为 ( $\mu] = 0$ ) 和 ( $\mu)^3] = 0$ )（正态分布奇数阶矩为零），结果为 ( $I_{12} = 0$ )。这表明 ( $\mu$ ) 和 ( $\sigma^2$ ) 的信息是独立的，估计一个参数不会干扰另一个。具体计算过程请看笔者的另一篇博客：Fisher信息矩阵（Fisher Information Matrix，简称FIM）

参数正交的意义

当 ( $I_{12} = 0$ ) 时，参数在信息上是正交的，这有什么实际意义呢？

1. 估计的独立性

信息正交意味着估计 ( $\mu$ ) 时，方差 ( $\sigma^2$ ) 的不确定性不会混淆结果，反之亦然。这简化了统计推断，尤其在大样本下，估计的协方差矩阵是对角的。

2. 模型设计的启示

在参数化模型设计中，如果能让参数正交，就能减少估计时的相互干扰。例如，正态分布的自然参数化（用 ( $\frac{1}{\sigma^2}$ ) 和 ( $\frac{\mu}{\sigma^2}$ )）保持了这种正交性。

3. 机器学习中的应用

在深度学习中，Fisher信息矩阵用于优化（如自然梯度下降）。参数正交性可以帮助分离梯度方向，提高训练效率。

总结

得分函数是对数似然函数的偏导数，是统计学中的“敏感探针”。它不仅帮助我们找到最大似然估计，还通过Fisher信息揭示参数的信息含量和不确定性。当不同参数的得分函数交叉项期望为零（如 ( $I_{12} = 0$ )），它们在信息上正交，意味着参数估计互不干扰。这种性质在正态分布等模型中尤为明显，也为统计建模和优化提供了重要指导。