贝叶斯理论
在传统的统计中,我们对数据是由一定认识的,这种认识一般是指数据的统计模型(Statistical Model)f(x|θ) ,其中θ 通常指未知参数(Unknown Parameter),x 是已经获得的数据,统计模型指的是对数据服从的概率分布的先验把握,即对数据处理之前,就对它们有一定程度的认识,当然这种认识可能有偏差,甚至是错误的。但无论怎样,我么可以先建立一个模型,然后再研究问题。在模型f(x|θ) 中,统计的目的就是通过对已有数据的分许,获得未知参数的相关信息。
对θ 的推断贯穿着整个课程的内容,同时我们还使用多种手段来衡量θ 的估计的好坏,比如用均方距离(均方误差)作为度量,试图寻找具有最小均方误差的估计。我们对这样的估计的认识一方面来自概率统计的角度,另一方面还来自几何的角度,现在从另外一个新的角度重新认识统计。
在过去的学习中,我们工作的焦点是θ ,但是我们对它的假定是:θ 是未知的,但它是确定的,即θ 虽然不知道,但它本身没有随机性,是确定的。现在我们对这种假定提出质疑,原因有两个:
- θ 在大多数情况下并不是完全未知的,我们总是有一些关于θ 的先验信息(Prior Information)。如果想将这种先验信息怎样融合到分析的过程中,按照传统的观点,是很难做到这一点的,因为我们要建立一个统计模型,这个模型和θ 有关,但是θ 是未知的,我们只有对它的一些模糊的认识,比如θ∈(-θ0,θ0) ,我们能做的只是将θ 的范围和模型直接结合起来,即模型对θ 是有要求的,只在θ 的范围内考虑模型,范围之外就不再考虑了,这种做法尚且可以接受。但是如果对θ 的不确定性还有其他的认识,就不容易处理了。比如大体知道θ 取某些值的概率分布,如下面的分布:
显然这种先验分布对我们分析问题有所帮助,但怎样将它与模型结合呢?
对于随机变量,有两个核心的概念:分布和均值,在上面的分析中,这两者都出现了,我们从两个不同的角度看待这件事情,发现θ 越来越具有随机变量的特性,然而我们之前一直认为θ 是一个确定性的量。这使得我们对之前的统计分析产生了怀疑。因为在统计上,我们认为模型一旦建立起来,θ 虽然是未知的,但是确定的。然而从上面的先验信息和统计的最优性的角度出发,我们感觉吧θ 看成一个随机变量也是合理的,这就是贝叶斯逻辑:未知的就是随机的,观测改变状态。
如果将未知参数θ 看成一个随机变量,那么就会有一个过关于这个随机变量的先验分布f(θ) ,这个先验分布在获取数据之前就是已知的,那么θ 与已获取的数据有多大关联呢?传统的统计学派把这种关联称为模型,贝叶斯学派则将其称为似然(Likehood)。先验分布和似然构成了我们对θ 和数据的整体认识:
贝叶斯的例子
先验知识的重要性
所以有了先验信息后,可以得到更小的误差,而且此时已经打破的CRLB。CRLB成立的前提是估计无偏,但引入先验信息后的估计不再是无偏的,因为先验信息并不是完全正确的,使用它的后果是在估计中引入了偏差,但有些时候引入偏差能够有效降低方差,最终降低误差。为了减小偏差,可以增大A0 ,但增大A0 也会增大误差,当A0→∞ 时,误差达到CRLB,此时相当于没有任何先验信息。
先验信息对估计的影响
线性模型中的贝叶斯
线性模型中涉及到观测数据、待估数据和噪声3个要素,三者之间通过线性关系联系在一起,而这种线性关系在贝叶斯中可以被很好地利用。
条件分布的3个重要参数
关于条件分布,可以定义Mean、Median、Mode,下面介绍它们的物理意义:
Mean(条件均值)
Median(条件中值)
Mode
------------------------------------------------------------------------------------------------
因为文档中公式较多,不方便编辑,所以本文使用截图的方式展现。如需电子版文档,可以通过下面的链接进行下载。
链接http://generatelink.xam.ink/change/makeurl/changeurl/11781