Cramér-Rao界:参数估计精度的“理论底线”

Cramér-Rao界:参数估计精度的“理论底线”

在统计学中,当我们用数据估计一个模型的参数时,总希望估计结果尽可能精确。但精度有没有一个理论上的“底线”呢?答案是有的,这就是Cramér-Rao界(Cramér-Rao Lower Bound, CRLB)。它通过Fisher信息矩阵的正定性,给出了无偏估计协方差的最低下限。简单来说,它告诉我们:再怎么努力,你的估计精度也超不过这个界限。今天我们就来聊聊Cramér-Rao界的由来、意义和应用。


什么是Cramér-Rao界?

Cramér-Rao界是一个统计定理,用来衡量无偏估计器(unbiased estimator)的精度。假设我们有一个参数 ( θ \theta θ )(可以是向量),用数据 ( x x x ) 估计它,得到估计量 ( θ ^ \hat{\theta} θ^ )。如果 ( θ ^ \hat{\theta} θ^ ) 是无偏的(即 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ )),它的协方差矩阵满足:

Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)I(θ)1

  • ( Cov ( θ ^ ) \text{Cov}(\hat{\theta}) Cov(θ^) ):估计量 ( θ ^ \hat{\theta} θ^ ) 的协方差矩阵,反映估计的分散程度。
  • ( I ( θ ) I(\theta) I(θ) ):Fisher信息矩阵,衡量数据提供的参数信息。
  • ( ≥ \geq ):表示矩阵意义上的不等式(即 ( Cov ( θ ^ ) − I ( θ ) − 1 \text{Cov}(\hat{\theta}) - I(\theta)^{-1} Cov(θ^)I(θ)1 ) 是半正定的)。

如果 ( θ \theta θ ) 是标量,方差形式更简单:

Var ( θ ^ ) ≥ 1 I ( θ ) \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} Var(θ^)I(θ)1

通俗比喻

想象你在射箭,想尽可能靠近靶心(真实参数 ( θ \theta θ ))。Cramér-Rao界就像一个“靶环”,告诉你箭的散布范围(方差或协方差)不可能小于这个环。Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 则像弓箭的质量,信息越多(( I ( θ ) I(\theta) I(θ) ) 越大),靶环越小,精度越高。


Fisher信息矩阵与正定性

Fisher信息矩阵定义为:

I ( θ ) i j = E [ ∂ log ⁡ p ( x ∣ θ ) ∂ θ i ∂ log ⁡ p ( x ∣ θ ) ∂ θ j ∣ θ ] I(\theta)_{ij} = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θilogp(xθ)θjlogp(xθ) θ]

或等价地:

I ( θ ) i j = − E [ ∂ 2 log ⁡ p ( x ∣ θ ) ∂ θ i ∂ θ j ∣ θ ] I(\theta)_{ij} = -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θiθj2logp(xθ) θ]

如果模型是可识别的(不同 ( θ \theta θ ) 对应不同分布),( I ( θ ) I(\theta) I(θ) ) 通常是正定的,即对任意非零向量 ( v v v ):

v T I ( θ ) v > 0 v^T I(\theta) v > 0 vTI(θ)v>0

正定性的作用

  • 逆矩阵存在:正定保证 ( I ( θ ) I(\theta) I(θ) ) 可逆,( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 存在。
  • 正定逆矩阵:( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 也是正定的,意味着它是一个有效的协方差矩阵(对角元素非负)。
  • 精度量化:( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 提供了估计精度的理论下界。

Cramér-Rao界的推导(简要版)

为什么协方差有这个下界?我们用一个直观的推导来说明(以标量为例,多参数类似)。

假设

  • ( θ ^ \hat{\theta} θ^ ) 是 ( θ \theta θ ) 的无偏估计:( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ )。
  • 得分函数 ( s ( θ ) = ∂ log ⁡ p ( x ∣ θ ) ∂ θ s(\theta) = \frac{\partial \log p(x|\theta)}{\partial \theta} s(θ)=θlogp(xθ) ),( E [ s ( θ ) ] = 0 E[s(\theta)] = 0 E[s(θ)]=0 )。

关键步骤

由于 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ),对 ( θ \theta θ ) 求导:

∂ ∂ θ E [ θ ^ ] = ∫ θ ^ ( x ) ∂ p ( x ∣ θ ) ∂ θ   d x = 1 \frac{\partial}{\partial \theta} E[\hat{\theta}] = \int \hat{\theta}(x) \frac{\partial p(x|\theta)}{\partial \theta} \, dx = 1 θE[θ^]=θ^(x)θp(xθ)dx=1 (分别左右两边求导,左边求导是积分这一项,右边 θ \theta θ对自己求导是1, 具体请看后文推导)

因为 ( ∂ p ∂ θ = p ⋅ ∂ log ⁡ p ∂ θ = p ⋅ s \frac{\partial p}{\partial \theta} = p \cdot \frac{\partial \log p}{\partial \theta} = p \cdot s θp=pθlogp=ps ),所以:

∫ θ ^ ( x ) p ( x ∣ θ ) s ( x ∣ θ )   d x = 1 \int \hat{\theta}(x) p(x|\theta) s(x|\theta) \, dx = 1 θ^(x)p(xθ)s(xθ)dx=1

改写:

E [ θ ^ s ] = 1 E[\hat{\theta} s] = 1 E[θ^s]=1

考虑 ( θ ^ − θ \hat{\theta} - \theta θ^θ )(估计误差),因为 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ):

E [ ( θ ^ − θ ) s ] = E [ θ ^ s ] − E [ θ s ] = 1 − 0 = 1 E[(\hat{\theta} - \theta) s] = E[\hat{\theta} s] - E[\theta s] = 1 - 0 = 1 E[(θ^θ)s]=E[θ^s]E[θs]=10=1

这是因为:
E [ θ s ] = θ E [ s ] = θ ⋅ 0 = 0 E[\theta s] = \theta E[s] = \theta \cdot 0 = 0 E[θs]=θE[s]=θ0=0

其中 ( θ \theta θ ) 是常数(真实参数),可以提出来,而 ( E [ s ] = 0 E[s] = 0 E[s]=0 ),所以 ( E [ θ s ] = 0 E[\theta s] = 0 E[θs]=0 )。

应用柯西-施瓦茨不等式

对于随机变量 ( X = θ ^ − θ X = \hat{\theta} - \theta X=θ^θ ) 和 ( Y = s Y = s Y=s ):

( E [ X Y ] ) 2 ≤ E [ X 2 ] E [ Y 2 ] (E[XY])^2 \leq E[X^2] E[Y^2] (E[XY])2E[X2]E[Y2]

代入:

1 2 ≤ E [ ( θ ^ − θ ) 2 ] E [ s 2 ] 1^2 \leq E[(\hat{\theta} - \theta)^2] E[s^2] 12E[(θ^θ)2]E[s2]

  • ( E [ ( θ ^ − θ ) 2 ] = Var ( θ ^ ) E[(\hat{\theta} - \theta)^2] = \text{Var}(\hat{\theta}) E[(θ^θ)2]=Var(θ^) )(无偏估计的方差)。
  • ( E [ s 2 ] = I ( θ ) E[s^2] = I(\theta) E[s2]=I(θ) )(Fisher信息)。

于是:

1 ≤ Var ( θ ^ ) ⋅ I ( θ ) 1 \leq \text{Var}(\hat{\theta}) \cdot I(\theta) 1Var(θ^)I(θ)

Var ( θ ^ ) ≥ 1 I ( θ ) \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} Var(θ^)I(θ)1

多参数情况下,协方差矩阵的不等式通过类似方法(矩阵形式的柯西-施瓦茨)得出:

Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)I(θ)1


Cramér-Rao界的意义

1. 精度下限

CRLB告诉我们,无论用什么方法,只要估计是无偏的,其协方差(或方差)都不可能低于 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 )。这为估计器的性能设定了“理论底线”。

2. 有效估计(Efficient Estimator)

如果某个估计 ( θ ^ \hat{\theta} θ^ ) 的协方差恰好等于 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 )(达到CRLB),它被称为“有效估计”。例如,最大似然估计(MLE)在大样本下常达到此界。

3. Fisher信息的角色

( I ( θ ) I(\theta) I(θ) ) 越大(信息越多),( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 越小,估计精度越高。反之,信息少时,精度受限。

例子:正态分布

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ),已知 ( σ 2 \sigma^2 σ2 ):

  • ( I ( μ ) = 1 σ 2 I(\mu) = \frac{1}{\sigma^2} I(μ)=σ21 )
  • ( Var ( μ ^ ) ≥ σ 2 n \text{Var}(\hat{\mu}) \geq \frac{\sigma^2}{n} Var(μ^)nσ2 )(( n n n ) 是样本量)。
  • 样本均值 ( μ ^ = 1 n ∑ x i \hat{\mu} = \frac{1}{n} \sum x_i μ^=n1xi ) 的方差正好是 ( σ 2 n \frac{\sigma^2}{n} nσ2 ),达到CRLB,是有效估计。

实际应用

1. 评估估计器性能

设计一个估计器后,拿它的协方差与CRLB对比:

  • 如果接近,说明很优秀。
  • 如果远超,可能是偏倚或效率低。

2. 实验设计

CRLB帮助优化数据采集。例如,增大样本量 ( n n n ) 或减少噪声 ( σ 2 \sigma^2 σ2 ),使 ( I ( θ ) I(\theta) I(θ) ) 变大,提升精度。

3. 机器学习

在深度学习中,Fisher信息矩阵用于优化(如自然梯度下降)。CRLB启发我们通过信息最大化改进模型。


总结

Cramér-Rao界是参数估计的“金标准”,通过Fisher信息矩阵的正定性,设定了一个协方差下界。正定保证 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 有效,量化了估计精度的极限。它不仅告诉我们“能有多准”,还指导我们如何设计更好的估计器。下次做估计时,不妨算算CRLB,看看你的方法离“完美”有多远!


补充:为什么 ( ∂ ∂ θ E [ θ ^ ] = 1 \frac{\partial}{\partial \theta} E[\hat{\theta}] = 1 θE[θ^]=1 )?

在Cramér-Rao界的推导中,我们假设 ( θ ^ \hat{\theta} θ^ ) 是 ( θ \theta θ ) 的无偏估计,即:

E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ

这意味着对于任意真实的参数值 ( θ \theta θ ),估计量 ( θ ^ \hat{\theta} θ^ ) 的期望始终等于 ( θ \theta θ )。现在,我们对这个等式两边对 ( θ \theta θ ) 求导,看看会发生什么。

推导步骤
  1. 左侧求导
    ∂ ∂ θ E [ θ ^ ] = ∂ ∂ θ θ \frac{\partial}{\partial \theta} E[\hat{\theta}] = \frac{\partial}{\partial \theta} \theta θE[θ^]=θθ
    因为 ( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ) 是一个恒等式,( θ \theta θ ) 对 ( θ \theta θ ) 的导数显然是:
    ∂ θ ∂ θ = 1 \frac{\partial \theta}{\partial \theta} = 1 θθ=1
    所以左侧等于1。

  2. 右侧求导
    ( E [ θ ^ ] E[\hat{\theta}] E[θ^] ) 是期望,表示为积分形式:
    E [ θ ^ ] = ∫ θ ^ ( x ) p ( x ∣ θ )   d x E[\hat{\theta}] = \int \hat{\theta}(x) p(x|\theta) \, dx E[θ^]=θ^(x)p(xθ)dx
    现在对 ( θ \theta θ ) 求导:
    ∂ ∂ θ E [ θ ^ ] = ∂ ∂ θ ∫ θ ^ ( x ) p ( x ∣ θ )   d x \frac{\partial}{\partial \theta} E[\hat{\theta}] = \frac{\partial}{\partial \theta} \int \hat{\theta}(x) p(x|\theta) \, dx θE[θ^]=θθ^(x)p(xθ)dx
    在正则条件下(积分和导数可以交换顺序),导数可以移到积分内部:
    = ∫ θ ^ ( x ) ∂ p ( x ∣ θ ) ∂ θ   d x = \int \hat{\theta}(x) \frac{\partial p(x|\theta)}{\partial \theta} \, dx =θ^(x)θp(xθ)dx
    (注意 ( θ ^ ( x ) \hat{\theta}(x) θ^(x)) 是 ( x x x ) 的函数,不依赖 ( θ \theta θ ),所以导数只作用于 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ))。

  3. 得分函数的引入
    我们知道:
    ∂ p ( x ∣ θ ) ∂ θ = p ( x ∣ θ ) ∂ log ⁡ p ( x ∣ θ ) ∂ θ = p ( x ∣ θ ) s ( x ∣ θ ) \frac{\partial p(x|\theta)}{\partial \theta} = p(x|\theta) \frac{\partial \log p(x|\theta)}{\partial \theta} = p(x|\theta) s(x|\theta) θp(xθ)=p(xθ)θlogp(xθ)=p(xθ)s(xθ)
    其中 ( s ( x ∣ θ ) = ∂ log ⁡ p ( x ∣ θ ) ∂ θ s(x|\theta) = \frac{\partial \log p(x|\theta)}{\partial \theta} s(xθ)=θlogp(xθ) ) 是得分函数。所以:
    ∂ ∂ θ E [ θ ^ ] = ∫ θ ^ ( x ) p ( x ∣ θ ) s ( x ∣ θ )   d x = E [ θ ^ s ] \frac{\partial}{\partial \theta} E[\hat{\theta}] = \int \hat{\theta}(x) p(x|\theta) s(x|\theta) \, dx = E[\hat{\theta} s] θE[θ^]=θ^(x)p(xθ)s(xθ)dx=E[θ^s]

  4. 等于1的原因
    从步骤1我们知道左侧是1,因此:
    E [ θ ^ s ] = 1 E[\hat{\theta} s] = 1 E[θ^s]=1
    这表明无偏估计 ( θ ^ \hat{\theta} θ^ ) 和得分函数 ( s s s ) 的乘积期望恒等于1。这是一个关键性质,反映了 ( θ ^ \hat{\theta} θ^ ) 的无偏性如何与似然函数的梯度关联起来。

为什么是1?

直观上,( E [ θ ^ ] = θ E[\hat{\theta}] = \theta E[θ^]=θ ) 是一个关于 ( θ \theta θ ) 的恒等式,它的“变化率”是1。而右侧积分 ( E [ θ ^ s ] E[\hat{\theta} s] E[θ^s] ) 是这种变化率的统计表达,等于1是因为得分函数 ( s ) 捕捉了似然对 ( θ \theta θ ) 的敏感度,而 ( θ ^ \hat{\theta} θ^ ) 的无偏性保证了这种敏感度的期望恰好平衡为1。


后记

2025年2月25日13点24分于上海,在Grok3大模型辅助下完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978350.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙Next如何自定义标签页

前言 项目需求是展示标签,标签的个数不定,一行展示不行就自行换行。但是,使用鸿蒙原生的 Grid 后发现特别的难看。然后就想着自定义控件。找了官方文档,发现2个重要的实现方法,但是,官方的demo中讲的很少&…

Python - Python连接数据库

Python的标准数据库接口为:Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。 PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个实现库,Python2中则使用mysqldb。 PyMySQL 遵循 Python 数据库 API v2.0 规范&…

(python)Arrow库使时间处理变得更简单

前言 Arrow库并不是简单的二次开发,而是在datetime的基础上进行了扩展和增强。它通过提供更简洁的API、强大的时区支持、丰富的格式化和解析功能以及人性化的显示,填补了datetime在某些功能上的空白。如果你需要更高效、更人性化的日期时间处理方式,Arrow库是一个不错的选择…

MySQL的锁机制和锁算法

锁机制和InnoDB锁算法 MyISAM和InnoDB存储引擎使用的锁: MyISAM采用表级锁(table-level locking)。 InnoDB支持行级锁(row-level locking)和表级锁,默认为行级锁 表级锁和行级锁对比: 表级锁: MySQL中锁定 粒度最大 的一种锁,…

PyTorch 源码学习:GPU 内存管理之深入分析 CUDACachingAllocator

因引入 expandable_segments 机制,PyTorch 2.1.0 版本发生了较大变化。本文关注的是 PyTorch 原生的 GPU 内存管理机制,故研究的 PyTorch 版本为 2.0.0。代码地址: c10/cuda/CUDACachingAllocator.hc10/cuda/CUDACachingAllocator.cpp 更多内…

Rk3568驱动开发_驱动编写和挂载_2

1.字符驱动介绍: 字符驱动:按照字节流镜像读写操作的设备,读写数据分先后顺序,例如:点灯、按键、IIC、SPI、等等都是字符设备,这些设备的驱动叫字符驱动设备 Linux应用层如何调用驱动: 字符设…

记录一下在k3s快速创建gitlab

废话不多说,直接上配置文件 需要修改的地方(备注都有写): 1.命名空间 namespace 2. claimName 文件挂载 Deployment kind: Deployment apiVersion: apps/v1 metadata:name: gitlabnamespace: cicd # 替换为您的命名空间la…

leetcode 1656. 设计有序流 简单

有 n 个 (id, value) 对,其中 id 是 1 到 n 之间的一个整数,value 是一个字符串。不存在 id 相同的两个 (id, value) 对。 设计一个流,以 任意 顺序获取 n 个 (id, value) 对,并在多次调用时 按 id 递增的顺序 返回一些值。 实现…

应对现代生活的健康养生指南

在科技飞速发展的现代社会,人们的生活方式发生了巨大改变,随之而来的是一系列健康问题。快节奏的生活、高强度的工作以及电子产品的过度使用,让我们的身体承受着前所未有的压力。因此,掌握正确的健康养生方法迫在眉睫。 针对久坐不…

大连本地知识库的搭建--数据收集与预处理_01

1.马蜂窝爬虫 编程语言:Python爬虫框架:Selenium(用于浏览器自动化)解析库:BeautifulSoup(用于解析HTML) 2.爬虫策略 目标网站:马蜂窝(https://www.mafengwo.cn/&…

SQL笔记#复杂查询

一、视图 1、视图和表 使用试图时会执行SELECT语句并创建一张临时表。视图中保存的是SELECT语句;表中保存的是实际数据。 2、创建视图的方法 CREATE VIEW 视图名称(<视图列名1>,<视图列名2>,……) AS <SELECT语句> CREATE VIEW ProductSum (prod…

文件系统

目录 1.认识磁盘 磁盘的物理结构 CHS定位法 磁盘的逻辑结构 2.认识文件系统 inode 分区和分组 磁盘上的文件系统 3.软硬链接 软链接 软链接的操作 创建软链接 查看软链接 删除软链接 软链接的特点 软链接的使用场景 硬链接 硬链接的操作 创建硬链接 查看硬…

学习路之PHP --TP6异步执行功能 (无需安装任何框架)

学习路之PHP --异步执行功能 &#xff08;无需安装任何框架&#xff09; 简介一、工具类二、调用三、异步任务的操作四、效果&#xff1a; 简介 执行异步任务是一种很常见的需求&#xff0c;如批量发邮箱&#xff0c;短信等等执行耗时任务时&#xff0c;需要程序异步执行&…

一键部署DeepSeek

腾讯Cloud Studio提供DeepSeek一键部署功能&#xff0c;0行代码&#xff0c;秒级部署使用&#xff01; 重点是每月免费提供10000分钟&#xff01; 不用等待模型下载&#xff0c;创建即可使用。 内置 Ollama、DeepSeek-R1 1.5B、7B、8B、14B 及 32B 模型。 热门模板 AI模板 前…

(学习总结26)Linux工具:make/Makefile 自动化构建、Git 版本控制器 和 gdb/cgdb 调试器

Linux工具&#xff1a;make/Makefile 自动化构建、Git 版本控制器 和 gdb/cgdb 调试器 make/Makefile 自动化构建在 Linux 命令行中的命令 makeMakefile 的基本操作1. 编写与删文件基本操作2. 总是执行操作3. 执行操作时的依赖性4. 定义变量或命令操作与其它简单操作5. 多文件操…

Linux提权之docker提权(十三) 链接第八篇完整版

书接上回 实验环境一样的 第八篇 我们用ssh密钥登陆后 发现我们web1的权限 当我们拿到web1的权限时 我们无法提权(这里我用的继续十二的环境 大家也可以继续) 所以我们首先要提权(当然必须是一个完整的 tty shell 不会的 我们去看第二篇 当然我下边也给你表注明了) python3…

Docker启动ES容器打包本地镜像

文章目录 1、安装 Docker2、下载镜像3、查看已下载的镜像4、 保存和加载镜像5、.tar 文件与 Docker 镜像的关系6、如何从 .tar 文件加载 Docker 镜像7、为什么需要 .tar 文件&#xff1f;8、ES 8.x版本无法启动8.1 问题原因8.2 解决方案8.3 提交容器为新镜像 1、安装 Docker 如…

C#开发的Base64编码及解码完整源码及注意事项

在软件开发时&#xff0c;经常用Base64编码和解码功能。本文介绍一个简单易用的Base64 编码和解码工具&#xff0c;顾名思义&#xff0c;就是简单快捷地进行 Base64 代码的解码或编码操作。您的数据可以轻松地编码为 Base64 编码&#xff0c;也可以解码为可读的格式。传输数据时…

使用OpenCV实现帧间变化检测:基于轮廓的动态区域标注

在计算机视觉中&#xff0c;帧间差异检测&#xff08;frame differencing&#xff09;是一种常用的技术&#xff0c;用于检测视频流中的动态变化区域。这种方法尤其适用于监控、运动分析、目标追踪等场景。在这篇博客中&#xff0c;我们将通过分析一个基于OpenCV的简单帧间差异…