统计学中的得分函数(Score Function)是什么?它和Fisher信息矩阵有什么关系?

得分函数:统计学中的“敏感探针”

在统计学和概率论中,得分函数(Score Function)是一个看似简单却非常重要的概念。它不仅是Fisher信息矩阵的核心组成部分,还在参数估计、模型优化等领域发挥着关键作用。今天,我们就来聊聊什么是得分函数,它有什么用,以及为什么它能揭示参数间的“正交性”——比如在正态分布中,均值 ( μ \mu μ ) 和方差 ( σ 2 \sigma^2 σ2 ) 的得分函数为何在期望上“互不干扰”。


什么是得分函数?

得分函数的定义非常直白:它是对数似然函数(log-likelihood)对某个参数的偏导数。假设我们有一个概率分布 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ),其中 ( θ \theta θ ) 是参数(可以是一个标量或向量),对数似然函数是 ( log ⁡ p ( x ∣ θ ) \log p(x|\theta) logp(xθ) )。那么,得分函数就是:

s ( θ ) = ∂ log ⁡ p ( x ∣ θ ) ∂ θ s(\theta) = \frac{\partial \log p(x|\theta)}{\partial \theta} s(θ)=θlogp(xθ)

简单来说,得分函数衡量了当参数 ( θ \theta θ ) 发生微小变化时,对数似然函数的“敏感度”。它就像一个探针,告诉你数据对参数的依赖程度。

一个通俗的比喻

想象你在调收音机的频率,想找到最清晰的信号(最佳参数)。你轻轻转动旋钮,信号强度的变化就是“得分函数”——它告诉你当前频率是否接近最佳点。如果变化很大(得分函数值大),说明你离目标还远;如果变化趋于零,说明你可能已经调到最佳位置了。


得分函数的数学性质

得分函数不仅仅是一个偏导数,它还有一些有趣的统计性质,让它在理论和实践中都非常有用。

期望为零

一个关键性质是:得分函数在真实参数下的期望为零。数学上:

E [ ∂ log ⁡ p ( x ∣ θ ) ∂ θ ∣ θ ] = 0 E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta} \bigg| \theta \right] = 0 E[θlogp(xθ) θ]=0

为什么会这样?因为对数似然函数的导数反映了似然函数的“坡度”,而在真实参数 ( θ \theta θ ) 下,似然函数达到极大值(对于最大似然估计来说),坡度为零。这个性质可以通过积分证明:

E [ s ( θ ) ] = ∫ ∂ log ⁡ p ( x ∣ θ ) ∂ θ p ( x ∣ θ )   d x = ∫ 1 p ( x ∣ θ ) ∂ p ( x ∣ θ ) ∂ θ p ( x ∣ θ )   d x = ∫ ∂ p ( x ∣ θ ) ∂ θ   d x E[s(\theta)] = \int \frac{\partial \log p(x|\theta)}{\partial \theta} p(x|\theta) \, dx = \int \frac{1}{p(x|\theta)} \frac{\partial p(x|\theta)}{\partial \theta} p(x|\theta) \, dx = \int \frac{\partial p(x|\theta)}{\partial \theta} \, dx E[s(θ)]=θlogp(xθ)p(xθ)dx=p(xθ)1θp(xθ)p(xθ)dx=θp(xθ)dx

由于 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ) 是概率密度函数,其积分恒等于 1,对 ( θ \theta θ ) 求导后:

∂ ∂ θ ∫ p ( x ∣ θ )   d x = ∫ ∂ p ( x ∣ θ ) ∂ θ   d x = 0 \frac{\partial}{\partial \theta} \int p(x|\theta) \, dx = \int \frac{\partial p(x|\theta)}{\partial \theta} \, dx = 0 θp(xθ)dx=θp(xθ)dx=0

所以期望为零。这说明得分函数的波动是围绕零对称的。

方差与Fisher信息

具体请看笔者的另一篇博客:Fisher信息矩阵(Fisher Information Matrix,简称FIM)

得分函数的方差却不是零,而是与Fisher信息密切相关。对于单个参数 ( θ \theta θ ):

I ( θ ) = E [ ( ∂ log ⁡ p ( x ∣ θ ) ∂ θ ) 2 ∣ θ ] I(\theta) = E\left[ \left( \frac{\partial \log p(x|\theta)}{\partial \theta} \right)^2 \bigg| \theta \right] I(θ)=E[(θlogp(xθ))2 θ]

如果是多参数情况,Fisher信息矩阵的元素是:

I i j = E [ ∂ log ⁡ p ∂ θ i ∂ log ⁡ p ∂ θ j ∣ θ ] I_{ij} = E\left[ \frac{\partial \log p}{\partial \theta_i} \frac{\partial \log p}{\partial \theta_j} \bigg| \theta \right] Iij=E[θilogpθjlogp θ]

这意味着Fisher信息捕捉了得分函数的“波动大小”或“信息含量”。


得分函数有什么用?

得分函数看似抽象,但在实际应用中非常强大。以下是它的几个主要用途:

1. 最大似然估计(MLE)

在最大似然估计中,我们通过求解得分函数等于零的点来估计参数:

∂ log ⁡ p ( x ∣ θ ) ∂ θ = 0 \frac{\partial \log p(x|\theta)}{\partial \theta} = 0 θlogp(xθ)=0

这就像找到山顶(似然函数的最大值)。例如,对于正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ):

  • ( ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} μlogp=σ2xμ ),令其为零,解得 ( μ ^ = x \hat{\mu} = x μ^=x )。

得分函数直接引导我们找到最佳估计。

2. Fisher信息与参数不确定性

Fisher信息矩阵由得分函数的二阶统计量构成,它告诉我们参数估计的精度有多高。Fisher信息的逆矩阵给出了参数估计方差的下界(Cramér-Rao下界),反映了估计的不确定性。

例如,在正态分布中:

  • ( I μ μ = 1 σ 2 I_{\mu\mu} = \frac{1}{\sigma^2} Iμμ=σ21 ),说明 ( μ \mu μ ) 的估计方差下界与 ( σ 2 \sigma^2 σ2 ) 成正比。

3. 参数正交性与 ( I 12 = 0 I_{12} = 0 I12=0 )

当我们有多个参数时,得分函数之间的关系揭示了参数间的依赖性。如果 ( I i j = 0 I_{ij} = 0 Iij=0 )(( i ≠ j i \neq j i=j )),说明 ( θ i \theta_i θi ) 和 ( θ j \theta_j θj ) 的得分函数在期望上无关,这种情况称为“信息正交”。

以正态分布为例:

  • ( ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} μlogp=σ2xμ )

  • ( ∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2logp=2σ21+2(σ2)2(xμ)2 )

计算交叉项:

I 12 = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] I_{12} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] I12=E[σ2xμ(2σ21+2(σ2)2(xμ)2)]

展开后取期望,因为 ( E [ x − μ ] = 0 E[x - \mu] = 0 E[xμ]=0 ) 和 ( E [ ( x − μ ) 3 ] = 0 E[(x - \mu)^3] = 0 E[(xμ)3]=0 )(正态分布奇数阶矩为零),结果为 ( I 12 = 0 I_{12} = 0 I12=0 )。这表明 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 的信息是独立的,估计一个参数不会干扰另一个。具体计算过程请看笔者的另一篇博客:Fisher信息矩阵(Fisher Information Matrix,简称FIM)


参数正交的意义

当 ( I 12 = 0 I_{12} = 0 I12=0 ) 时,参数在信息上是正交的,这有什么实际意义呢?

1. 估计的独立性

信息正交意味着估计 ( μ \mu μ ) 时,方差 ( σ 2 \sigma^2 σ2 ) 的不确定性不会混淆结果,反之亦然。这简化了统计推断,尤其在大样本下,估计的协方差矩阵是对角的。

2. 模型设计的启示

在参数化模型设计中,如果能让参数正交,就能减少估计时的相互干扰。例如,正态分布的自然参数化(用 ( 1 σ 2 \frac{1}{\sigma^2} σ21 ) 和 ( μ σ 2 \frac{\mu}{\sigma^2} σ2μ ))保持了这种正交性。

3. 机器学习中的应用

在深度学习中,Fisher信息矩阵用于优化(如自然梯度下降)。参数正交性可以帮助分离梯度方向,提高训练效率。


总结

得分函数是对数似然函数的偏导数,是统计学中的“敏感探针”。它不仅帮助我们找到最大似然估计,还通过Fisher信息揭示参数的信息含量和不确定性。当不同参数的得分函数交叉项期望为零(如 ( I 12 = 0 I_{12} = 0 I12=0 )),它们在信息上正交,意味着参数估计互不干扰。这种性质在正态分布等模型中尤为明显,也为统计建模和优化提供了重要指导。

后记

2025年2月24日21点53分于上海,在Grok3大模型辅助下完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977952.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch-基础(CUDA、Dataset、transforms、卷积神经网络、VGG16)

PyTorch-基础 环境准备 CUDA Toolkit安装(核显跳过此步骤) CUDA Toolkit是NVIDIA的开发工具,里面提供了各种工具、如编译器、调试器和库 首先通过NVIDIA控制面板查看本机显卡驱动对应的CUDA版本,如何去下载对应版本的Toolkit工…

[实现Rpc] 测试 | rpc部分功能联调 | debug | 理解bind

目录 服务端 客户端 Debug 运行 总结 服务端 调用 on Request 对请求做出回应 on 对...做处理 #include "../../common/net.hpp" #include "../../common/message.hpp" #include "../../common/dispatcher.hpp" #include "../../se…

LeetCode每日精进:622.设计循环队列

题目链接:622.设计循环队列 题目描述: 设计你的循环队列实现。 循环队列是一种线性数据结构,其操作表现基于 FIFO(先进先出)原则并且队尾被连接在队首之后以形成一个循环。它也被称为“环形缓冲器”。 循环队列的一个…

网络安全学习-常见安全漏洞检测以及修复方法-1

渗*透测试 渗透测试就是模拟攻击者入侵系统,对系统进行一步步渗透,发现系统的脆弱环节和隐藏风险。形成测试报告提供给系统的所有者,所有者根据报告对系统进行加固,提升系统的安全性,防止真正的攻击者入侵。 渗透测试…

鸿蒙开发深入浅出01(基本环境搭建、页面模板与TabBar)

鸿蒙开发深入浅出01(基本环境搭建、页面模板与TabBar) 1、效果展示2、下载 DevEco Studio3、创建项目4、新建页面模板5、更改应用信息6、新建以下页面7、Index.ets8、真机运行9、图片资源文件 1、效果展示 2、下载 DevEco Studio 访问官网根据自己的版本…

C/C++ | 每日一练 (4)

💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 C/C | 每日一练 (4)题目参考答案基础容器序列容器std:…

(八)趣学设计模式 之 装饰器模式!

目录 一、 啥是装饰器模式?二、 为什么要用装饰器模式?三、 装饰器模式的实现方式四、 装饰器模式的优缺点五、 装饰器模式的应用场景六、 装饰器模式 vs 代理模式七、 总结 🌟我的其他文章也讲解的比较有趣😁,如果喜欢…

快节奏生活

在当今快节奏的商务环境中,效率成为了决定企业竞争力的关键因素之一。亿可达软件连接平台,以其独特的功能和优势,为职场人士带来了前所未有的便捷与高效,成为了众多用户心中的“宝藏”工具。 1、亿可达:自动化流程的搭…

Jenkins protoc: command not found

个人博客地址:Jenkins protoc: command not found | 一张假钞的真实世界 在使用Jenkins编译Hadoop3.1.2时报错信息如下: [INFO] --- hadoop-maven-plugins:3.1.2:protoc (compile-protoc) hadoop-common --- [WARNING] [protoc, --version] failed: j…

SOME/IP协议的建链过程

在SOME/IP协议中,建立服务通信链路的过程主要涉及服务发现机制,通常需要以下三次交互: 服务提供者广播服务可用性(Offer Service) 服务提供者启动后,周期性地通过Offer Service消息向网络广播其提供的服务实例信息(如Service ID、Instance ID、通信协议和端口等)。 作用…

考研/保研复试英语问答题库(华工建院)

华南理工大学建筑学院保研/考研 英语复试题库,由华工保研er和学硕笔试第一同学一起整理,覆盖面广,助力考研/保研上岸!需要👇载可到文章末尾见小🍠。 以下是主要内容: Part0 复试英语的方法论 Pa…

Linux7-线程

一、前情回顾 chdir();功能: 函数用于改变当前进程的工作目录。 参数:路径(Path):这是一个字符串参数,表示要切换到的目标目录的路径。 返回值: 成功:在成功改变当前工作目…

防火墙双机热备---VRRP,VGMP,HRP(超详细)

双机热备技术-----VRRP,VGMP,HRP三个组成 注:与路由器VRRP有所不同,路由器是通过控制开销值控制数据包流通方向 防火墙双机热备: 1.主备备份模式 双机热备最大的特点就是防火墙提供了一条专门的备份通道(心…

LabVIEW形状误差测量系统

在机械制造领域,形状与位置公差(GD&T)直接影响装配精度与产品寿命。国内中小型机加工企业因形状误差导致的返工率高达12%-18%。传统测量方式存在以下三大痛点: ​ 设备局限:机械式千分表需人工读数,精度…

本地部署大模型: LM Studio、Open WebUI 与 Chatbox 全面对比以及选型指南

1. 工具概述 LM Studio 定位:专注于本地化大模型实验与推理的桌面工具,支持多模型并行、Hugging Face集成及离线运行。 核心功能: 图形化界面直接加载GGUF模型文件,支持NVIDIA/AMD GPU加速。 内置OpenAI兼容API,可搭…

百度觉醒,李彦宏渴望光荣

文 | 大力财经 作者 | 魏力 2025年刚刚开年,被一家名为DeepSeek的初创公司强势改写。在量化交易出身的创始人梁文锋的带领下,这支团队以不到ChatGPT 6%的训练成本,成功推出了性能可与OpenAI媲美的开源大模型。 此成果一经问世,…

mysql 迁移到人大金仓数据库

我是在windows上安装了客户端工具 运行数据库迁移工具 打开 在浏览器输入http://localhost:54523/ 账号密码都是kingbase 添加mysql源数据库连接 添加人大金仓目标数据库 添加好的两个数据库连接 新建迁移任务 选择数据库 全选 迁移中 如果整体迁移不过去可以单个单个或者几个…

Spring Cloud — Hystrix 服务隔离、请求缓存及合并

Hystrix 的核心是提供服务容错保护,防止任何单一依赖耗尽整个容器的全部用户线程。使用舱壁隔离模式,对资源或失败单元进行隔离,避免一个服务的失效导致整个系统垮掉(雪崩效应)。 1 Hystrix监控 Hystrix 提供了对服务…

【链 表】

【链表】 一级目录1. 基本概念2. 算法分析2.1 时间复杂度2.2 空间复杂度2.3 时空复杂度互换 线性表的概念线性表的举例顺序表的基本概念顺序表的基本操作1. 初始化2. 插入操作3. 删除操作4. 查找操作5. 遍历操作 顺序表的优缺点总结优点缺点 树形结构图形结构单链表基本概念链表…

记录锁,间隙锁,Next-Key Lock

记录锁,间隙锁,Next-Key Lock mysql的锁机制一、InnoDB行锁的种类1、记录锁(Record Lock)(1)不加索引,两个事务修改同一行记录(2)不加索引,两个事务修改同一表…