概叙
贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。
它是贝叶斯定理(Bayes' theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。所谓的贝叶斯方法,起源于贝叶斯生前为了解决“逆概率”问题而写的一篇论文,这篇论文是他死后,他朋友给他发表出来的。
尽管贝叶斯自己并没有将其思想形成完整的理论,但他的名字被用于描述一类基于条件概率的推理方法,即贝叶斯方法:贝叶斯将概率解释为一种表示不确定性或信念的度量,而不仅仅是频率的统计概念。
贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。
贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。只有计算机诞生以后,它才获得真正的重视。人们发现,许多统计量是无法事先进行客观判断的,而互联网时代出现的大型数据集,再加上高速运算能力,为验证这些统计量提供了方便,也为应用贝叶斯推断创造了条件,它的威力正在日益显现。
这个世界充满不确定性,我们需要拥抱不确定性,拥抱风险,要用逐步消除不确定性来接近确定性,而不是用确定性来证明确定性。
在进行人生规划时,我们可以先基于自己的常识、经验和当前的信息来评估自己的决策。然后先干为敬,并在这个过程中不断地试错,以此来动态调整自己的决策。
我们还需要重视基础概率,做成功的基础概率大的那个决策。
最后,当有新信息出现的时候,我们需要开放接受,但也需要独立判断,既不盲目跟从,也不闭目塞听。
基本概念
在贝叶斯分类出现之前人们主要是靠频率来计算概率。
举个例子:当一个袋子里有五个红球三个白球两个黄球,那么人们就可以得出下面的结论:从袋子中随机摸一个小球,摸到红球的概率是二分之一,摸到白球的概率是十分之三,摸到黄球的概率是五分之一。又如,当一个袋子里装有红球和白球但红球和白球的数量是未知的,人们可能会得出如下结论:从袋子中随机摸一个小球,摸到红球的概率是二分之一,摸到白球的概率也是二分之一,因为袋子里除了红球就是白球。然而,靠频率计算概率的前提是需要预先知道事件各种情况发生的概率,这在现实世界几乎很难做到,因此通过频率计算概率的方式实用性不强。
事实上,概率是一个不确定的值,包含有运气的成分。假设一个袋子里装有红球和白球,当人们不知道红球和白球的数量时随机摸一个球,这个球是红球或者是白球的概率都是二分之一。但如果人们已知红球的数量一定比白球的数量多时,这个概率就会发生变化,此时随机摸一个球,这个球是红球的概率大于二分之一,是白球的概率小于二分之一。这是因为此时红球和白球出现的概率是基于红球的数量大于白球的数量下得出的。
在介绍贝叶斯分类之前,先介绍几个常见的概率公式:
样本空间:{试验所有可能结果}-->一个试验所有可能结果的集合,用 Ω 表示。所以P(Ω) = 1
事件:样本空间的一个子集。用A、B、C表示。
概率论的加法公式:
对任意两个事件A与B(互斥独立事件), P(A∪B)= P(A)+P(B)-P(A∩B)
事件A,B,C至少有一个事件发生可以表示为A∪B∪C ;P(A∪B∪C)= P(A)+P(B)+P(C)-P(A∩B)-P(A∩C)-P(C∩B) + P(A∩B∩C);如果题中有P(AB)=0(同理其他也行),那么P(ABC)=0.
减法公式: P(A-B)=P(A)-P(AB)
由概率的单调性,只有条件“B包含于A”成立的时候,有P(A-B)=P(A)-P(B)成立。
对于任意两个事件A、B来说,B不一定包含于A,而AB一定包含于A,所以A-B=A-AB,
所以:P(A-B)=P(A)-P(AB)
乘法公式:P(AB)=P(A)×P(B|A)=P(B)×P(A|B) 推广:P(ABC)=P(A)P(B|A)P(C|AB)
条件概率:(已知事件A发生的条件下,事件B发生的概率)
对任意两个事件A与B,有P(A∪B)=P(A)+P(B)-P(A∩B);条件概率,记作:P(A|B),其实P(A|B)与P(AB)很相似,即“A和B都会发生”。条件概率计算公式:
当P(A)>0,P(B|A)=P(AB)/P(A)
当P(B)>0,P(A|B)=P(AB)/P(B)
我们换一句话来解释这个P(AB):“在所有可能的结果下,a和b都发生的概率”。而这个“所有可能的结果的概率”就是样本空间的概率,也就是1。
用条件概率来表示就是 P(AB) = P(AB) / P(Ω)
即: P(AB) = P(AB) / 1
而P(A|B)则有稍许的不同,虽然还是P(A)和P(B)都会发生,但给出了一个大前提“B事件发生的前提下,A和B都发生的概率(表面上是A发生,其实是A和B都发生,因为P(AB)和P(A|B)在发生数量上没有区别,仅仅是P(A|B)加了个先后顺序)”,所以条件概率的分母变成了P(B)
即:P(A|B) = P(AB)/P(B)
先验概率:在考虑某些条件之前事件的概率
后验概率:在考虑某些条件之后事件发生的概率
正向概率∶假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大。
逆向概率∶如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测。
贝叶斯公式就是逆概率公式的一种:‘
如果:
则对于任意事件B有
则可得如下结论:
即在已知B事件发生的情况下求A(j)时间发生的概率,由于在一个完备的事件组中造成B事件发生的原因有很多,因此采用全概率公式来计算B事件发生的情况下A(j)事件发生的概率。
全概率公式
首先要有一个样本空间集合(如图中的S),我们后面的所有概率事件都要在这个样本空间里。
然后我们将整个样本空间划分成n个子集(也可说n块空间,如图中的B1~Bn),这n个子集共同可以构成一个样本空间S,每个子集都可以看成一个单独事件,这n个事件我们可以称之为“完备事件组”。
我们的任意一个事件,必然在样本空间里(如图中的红色圆圈),如图所示,这个任意事件肯定会和完备事件组中的各个事件“或多或少的产生交集”。
我们假设中间的任意事件概率为P(A)
我们可以通过将A与所有的完备事件“相交的部分”相加而找出P(A).
这些相交的部分自然就是:P(AB1),P(AB2)·······P(ABn)
即:P(A) = P(AB1) + P(AB2) + ······· + P(ABn)
根据条件概率可知P(AB) = P(A|B)P(B) = P(B|A)P(A)
所以可将公式转化成P(A) = P(A|B1) P(B1)+ P(A|B2) P(B2)+ ······· + P(A|Bn)P(Bn)
即:
上面这个就是全概率公式。
由此可见,用全概率公式的前提是:我们要求任意事件P(A),在我们知道完备事件组中各事件与A事件的交集概率的情况下,我们将事件A拆成所有交集的和。
推论1:设A1、 A2、…、 An互不相容,则:P(A1+A2+...+ An)= P(A1) +P(A2) +…+ P(An)
推论2:设A1、 A2、…、 An构成完备事件组,则:P(A1+A2+...+An)=1
推论3:若B包含A,则P(B-A)= P(B)-P(A)
推论4(广义加法公式):
对任意两个事件A与B,有P(A∪B)=P(A)+P(B)-P(A∩B)
条件概率,记作:P(A|B),条件概率计算公式:
当P(A)>0,P(B|A)=P(AB)/P(A)
当P(B)>0,P(A|B)=P(AB)/P(B)
乘法公式
P(AB)=P(A)×P(B|A)=P(B)×P(A|B)
推广:P(ABC)=P(A)P(B|A)P(C|AB)
P(A-B)=P(A)-P(AB)
由概率的单调性,只有条件“B包含于A”成立的时候,有P(A-B)=P(A)-P(B)成立。
对于任意两个事件A、B来说,B不一定包含于A,而AB一定包含于A,所以A-B=A-AB,
所以:P(A-B)=P(A)-P(AB)
和事件发生,即事件A发生或事件B发生,事件A与事件B至少一个发生,由事件A与事件B所有样本点组成,记作A∪B。
积事件发生,即事件A和事件B同时发生,由事件A与事件B的公共样本点组成,记作AB或A∩B。
扩展资料
其他性质:
性质1:P(Φ)=0;
性质2:(有限可加性)当n个事件A1,…,An两两互不相容时: P(A1∪...∪An)=P(A1)+...+P(An);
性质3:对于任意一个事件A:P(A)=1-P(非A);
性质4:当事件A,B满足A包含于B时:P(B-A)=P(B)-P(A),P(A)≤P(B);
性质5:对于任意一个事件A,P(A)≤1;
性质6:对任意两个事件A和B,P(B-A)=P(B)-P(A∩B);
性质7:(加法公式)对任意两个事件A和B,P(A∪B)=P(A)+P(B)-P(A∩B)。
研究贝叶斯的意义
人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计,这类推理称为概率推理。概率推理贝叶斯定理既是概率学和逻辑学的研究对象,也是心理学的研究对象,但研究的角度是不同的。概率学和逻辑学研究的是客观概率推算的公式或规则;而心理学研究人们主观概率估计的认知加工过程规律。贝叶斯推理的问题是条件概率推理问题,这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。
贝叶斯推导过程
贝叶斯公式
贝叶斯公式核心是,知道某一条件概率后,找出这个条件发生的原因。
这么说可能抽象了点。
举个栗子:我们知道了B发生后A发生的概率P(A|B),由此我们可以用贝叶斯公式推出A发生后B发生的概率。
贝叶斯公式可以根据条件概率和全概率公式推导出来。
在推导之前有几个提前假设:
1、Ai概率事件是某一个完备概率组中的事件,该完备事件组有n个事件,Ai是其中一个。1<=i<=n(如A事件与非A事件,这两事件就能构成一个完备事件组)
推导过程如下:
根据条件概率有:
原式 = P(Ai|B) = P(AiB) / P(B)
将B事件与A事件所属的完备概率组做全概率公式后,将P(B)展开得:
原式 = P(Ai|B) = P(AiB) / ( P(B|A1)P(A1) + P(B|A2)P(A2) +······+P(B|An)P(An) )
此时我们可看出,我们求的是P(Ai|B),而分母已经全被我们转化成了P(B|A)的条件。
接下来我们利用条件概率将分子也转化成P(B|A)的条件样式
即:P(AB) = P(A|B)P(B) = P(B|A)P(A)
所以继续转化原式分子得:
原式 = P(Ai|B) = P(B|Ai)P(Ai) / ( P(B|A1)P(A1) + P(B|A2)P(A2) +······+P(B|An)P(An) )
最后这个公式就是贝叶斯公式
关于贝叶斯思想,有两个概念需要大家知道:
- 先验概率(Prior Probability):先验概率是在考虑任何观察数据之前,基于经验、先前知识或主观判断所获得的概率。它表示对事件发生的初始信念或先前的估计
- 后验概率(Posterior Probability):后验概率是在考虑观察数据之后,通过使用贝叶斯定理计算得到的概率。它表示在观察到新的数据后,对事件发生概率的修正和更新
贝叶斯思想的核心就是通过结合先验知识(先验概率)和新的观察数据来更新和修正我们的信念(后验概率)
频率学派认为:概率是事件在一段时间内发生的频率。不参照过去的经验,只按照当前已有的数据进行概率推断
例如你一直扔一个标准的硬币,你得到正面的概率永远是 50%
贝叶斯派认为:概率是我们对一件事情发生的相信程度(信念度)。换句话说,发生某件事情的概率越大,表明我们对这件事情发生的信心越大
贝叶斯算法
当我们在面临人生的选择,又或者在进行人生规划的时候,我们可以结合贝叶斯思想来指导我们做决策
要点一:拥抱不确定性
贝叶斯思想告诉我们,概率是一种主观的信念,并且这个概率会随着后续更多的信息不断更新
这个概率不断更新的过程,其实就是不断尝试、不断接受新信息的过程
我们想要做抖音,想要打造个人 IP,但是我们又担心万一自己辛苦一番,后面要是抖音这些自媒体不吃香了怎么办?
我们打算考研,但是我们又不知道自己能不能考得上,万一辛苦备考一年考不上该咋办?
说到底就是害怕不确定性。确保成功是很多人做决定的前提,但是我们要知道,这个世界上并没有什么事情是确定的
而贝叶斯思想告诉我们,在做一件事情之前(自媒体、考研),可以先有一个大概的评估(自媒体是否还是风口,自己过去的学习成绩怎么样),这个评估就是先验信念
然后就是先干起来再说,不要害怕不确定性、害怕错误,然后在这个过程中不断地更新自己的后验信念,调整策略
越是追求确保成功的人,反而越脆弱,越容易掉入决策的陷阱,越容易上别有用心的人的当
例如,市面上的种种骗术都是以“确保成功”为吸引点的
要点二:重视基础概率
贝叶斯思想中有两个概率——先验概率和后验概率
但还有一个概率我们需要知道——基础概率
基础概率是关于一个类别、事件或条件的总体频率,是没有任何额外信息的情况下的概率
基础概率也可以被看作是一种特殊的先验概率,即没有任何特定证据的先验概率
我们要重视基础概率,例如去鱼多的地方捕鱼,鱼多就是一个基础概率
中国的首富一直是农夫山泉的老板。一个重要的原因是:2022年中国饮料市场约为12478 亿,其中包装饮用水占比约为 62.7%,基数够大,基础概率够大
选择比努力更重要这句话也表明我们要重视基础概率
就业方面是选择夕阳行业还是新兴行业?投资方面是看重局部时间的涨跌概率还是看重长期的基本面?填志愿是选择王牌专业还是冷门专业?
要点三:对新信息保持“敏感”,又有独立判断的“钝感”
虽然贝叶斯派认为概率是主观的,但是并不意味着贝叶斯派是一群主观的人
相反,他们随时打算更新自己的观点
哪怕新的信息(证据)和自己的信念相反,哪怕消息很让人恼火,很羞辱自己的智商,贝叶斯派们也坦然接受。
但是他们又不是简单的见风使舵,他们不会因为新信息彻底抛弃旧的信念,还需要结合先验概率来独立判断
- 对新信息保持“顿感”
例如,我们拥有的某支股票近期波动较大,当我们看到某些看空的评论时,我们应该更新对这支股票的评估
- 考虑基础概率和先验概率,独立判断的“钝感”
对于这支股票,无论是市场政策还是其公司经营情况都是利好的(先验概率),那么即使我们收到了一些利空的信息或评论,也不能够立即得出股票需要抛出的结论
我们还需要权衡初步信念(长期看好这支股票)和新的证据(利空评论)
这样的平衡不但使我们对新信息保持敏感,又能保持我们对初步信念的忠实,避免被一些可能的偶然事件或者噪音误导
贝叶斯计算方法
其中P(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:
P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。
是不是记得很烦?那就不去记吧。下面给两个计算方法:概率树方法、田字格方法。
一、概率树的方法
贝叶斯公式(1)的计算画成概率树就是:
由上图可见,贝叶斯公式的计算就是两层:
(1)第一层的结点数是不定的,考试的题目一般是2到3个。
(2)第二层的是叶子结点也叫终端结点,就是2个(有同学会问,为什么只有2个? 好吧,我等下告诉大家,其实只要画1个。。。)。
(3)为计算清楚,每层结点对齐。
图画到这其实就可以做题目了,这里要告诉大家两个做题技巧。
(1)要分清哪个是结果哪个是“原因”,“原因”是第一层的结点,“结果”是第二层的终端结点,有同学说很难区分,汗。。。我只能说,题目要我们求的概率可以看成是“原因”,至于“结果”嘛,就是该“原因”导致的啦,一般题目提问的话里就包含说的“结果”和“原因”了。
(2)如果是计算事件B发生了,那么所有出B的结点全部忽略。
如果是计算事件B发生了,那么所有出现B的结点全部忽略。
那么概率树可以简化为下图:
看到没有,就是两层,而且最后一层每个终端节点只有1个!也就是那些补集的概率根本不要去算!直接上个例题。
例题:一机器在良好状态生产合格产品几率是90%,在故障状态生产合格产品几率是30%,机器良好的概率是75%,若一日第一件产品是合格品,那么此日机器良好的概率是多少。
解:看题目我们知道题目最后一句中“若”字代表的是结果,那结果就是“产品合格”,求的是“机器良好的概率”,那么这就是要求的“原因”的概率了。没什么好说的,直接画图:
由上图我们可以很清楚的知道“产品合格”这个“结果”是“机器良好”这个原因产生的概率为:
在实际计算,我喜欢在公式分子分母中省去百分号,这样书写方便点。啰嗦很多,如果大家仔细体会,会发现用我说的概率树方法求贝叶斯公式一点也不难。
二、田字格的方法
我们先把田字格图画出来:
题目所求的此日机器良好的概率就是左下角的那个蓝色方格的面积占蓝色部分的面积的比例,是不是也很清楚?
不管是概率树还是田字图,其实计算过程是一样的,简化概率树也可以看成是在求田字图的面积。这里关键还是要分清什么是“结果”,什么是“原因”,一般就在题目中的提问的话里找。
贝叶斯应用场景
贝叶斯定理用于投资决策分析是在已知相关项目B的资料,而缺乏论证项目A的直接资料时,通过对B项目的有关状态及发生概率分析推导A项目的状态及发生概率。如果我们用数学语言描绘,即当已知事件Bi的概率P(Bi)和事件Bi已发生条件下事件A的概率P(A│Bi),则可运用贝叶斯定理计算出在事件A发生条件下事件Bi的概率P(Bi│A)。按贝叶斯定理进行投资决策的基本步骤是:
1 列出在已知项目B条件下项目A的发生概率,即将P(A│B)转换为 P(B│A);
2 绘制树型图;
3 求各状态结点的期望收益值,并将结果填入树型图;
4 根据对树型图的分析,进行投资项目决策;
搜索巨人Google和Autonomy,一家出售信息恢复工具的公司,都使用了贝叶斯定理(Bayesian principles)为数据搜索提供近似的(但是技术上不确切)结果。研究人员还使用贝叶斯模型来判断症状和疾病之间的相互关系,创建个人机器人,开发能够根据数据和经验来决定行动的人工智能设备。
贝叶斯原理(Bayes' theorem)是概率论中的一个重要定理,描述了在已知一些先观察到的证据的情况下,如何根据这些证据的条件概率来推断出一个假设的后验概率。
贝叶斯原理的应用场景很广泛,包括但不限于以下几个方面:
- 垃圾邮件过滤:根据已知的垃圾邮件和非垃圾邮件的样本,通过统计学习的方法,可以计算出某个邮件是垃圾邮件的概率。电子邮件服务商利用贝叶斯原理对收到的邮件进行分类,通过用户标记的垃圾邮件和非垃圾邮件训练模型,计算新邮件为垃圾邮件的概率,从而提高分类准确性。
- 人脸识别:根据已知的人脸和非人脸的样本,计算出一张图片中是否存在人脸的概率。
- 自然语言处理:用于文本分类、情感分析等领域,可以根据已知的训练数据,计算出一个句子属于某个类别的概率。
- 医学诊断:根据病人的症状和已知的疾病数据,计算出某个疾病的概率。辅助医生判断检测阳性者真正患病的概率,通过已知某种疾病在人群中的发病率和检测方法的准确性,利用贝叶斯定理计算检测阳性者真正患病的概率。
- 语音识别:提高识别率,智能音箱通过在嘈杂环境中利用贝叶斯定理结合先验知识和当前观测数据,提高语音识别的准确性。
-
信号处理:在无线通信和信号处理领域,贝叶斯原理用于估计信号的参数,如频率、相位和幅度。这些估计对于解调、编码和信道均衡等任务至关重要。
- 搜索引擎:优化搜索结果,根据用户搜索历史和点击行为,利用贝叶斯定理更新网页相关性的后验概率,提升搜索质量。
- 推荐系统:个性化推荐,电商网站结合用户历史购买记录和浏览行为,利用贝叶斯定理预测用户感兴趣的商品,实现个性化推荐。
- 金融预测:风险评估,基于历史数据和市场信息,利用贝叶斯定理更新股票价格变动的后验概率,辅助金融决策。
-
财务分析:在财务分析中,贝叶斯原理可以用来评估投资的风险和回报。通过结合历史数据和专家意见,分析师可以使用贝叶斯方法来更新对不同投资策略成功概率的估计。
- 机器学习:模型参数估计,在文本分类任务中,通过训练集学习模型参数,利用贝叶斯定理计算新文本属于各个类别的概率。
- 人工智能:不确定性处理,自动驾驶车辆在复杂环境中利用贝叶斯定理结合多种传感器数据,评估不同驾驶行为的风险和收益。
- 情报分析:在贝叶斯分析基本原理的基础上,以案例研究为主线,着重研究贝叶斯分析在情报分析中的应用,其应用步骤包括:建立假设群、估算初始概率、建立证据列表、估计似然比、通过贝叶斯公式计算后验概率、持续监控等。细分领域:社会安全事件风险评估、反恐风险分析、公安情报预测等等。
-
法律:在法律领域,贝叶斯原理可以用来评估证据的力度和更新对案件事实的信念。例如,陪审团成员可以根据新的证据和证词来调整他们对被告有罪或无罪的概率估计。
-
经济学:在经济学中,贝叶斯原理可以用来分析市场行为和预测经济变量。例如,经济学家可以使用贝叶斯方法来估计消费者对价格变化的反应,或者预测政策变化对经济指标的影响。
贝叶斯应用示例
John Craven“天蝎号”搜救
对于搜寻人员来讲,无异于大海捞针。海军请来了科学家 John Craven 来组织搜寻,下面是他搜寻的步骤:
- John Craven 列出了一系列能够解释这场事故的场景
- 接着,他组建了了一个由各个领域专家组成的团队,让每个成员提供自己对每个可能场景发生概率的猜测
- 然后将整个海域被分成了很多个小格子,每个小格子有两个概率值 p 和 q,p是潜艇躺在这个格子里的概率,q 是如果潜艇在这个格子里,它被搜索到的概率
- 每次寻找时,先挑选整个区域内潜艇存在概率值最高的一个格子进行搜索
- 如果没有发现,概率分布图则会被“洗牌”一次,搜寻船只就会驶向新的“最可疑格子”进行搜索,这样一直下去,直到找到天蝎号为止
John Craven 采用的正是贝叶斯法——先根据先前的常识、经验进行预测得到先验概率然后进行搜索。每一次没搜到都不会被浪费,也不是简单被标注为不在这里,而是用于更新调整整体的估算概率(后验概率)。
犯病概率估算
原来是某医院近期在做 HIV(艾滋病)免费测纸派发活动 ,刘强西听到免费后,两眼放光,直接带了一些测纸回到旅馆。回到旅馆后,刘强西开始给自己开始做检测,心想: 我健康着呢! 是故事就会反转,测试完后,刘强西面如死灰坐在旅馆强台。。。测试显示阳性,是否一定感染HIV?刘强西平时可是一个洁身自好的大好青年。
梳理一下:HIV 这种的发病率是0.001,即1000人会有1个人得病,有P(得病) = 0.1%。而免费活动赠送的测试试纸的准确率为 95% 。换句话说,① 如果真的得了艾滋病,该试纸有95%的检测出HIV阳性;② 如果没有得病,该试纸也有5%的出错率,错误的显示你有HIV阳性。
贝叶斯曾说过 :在 没有做测纸试验之前,我们预计的发病率, P(得病) = 0.1%, 这个呢,就叫作 "先验概率" 。
而在我们做完测纸 表示阳性后,那么要计算的就是 P(得病|显示HIV阳性)=95%,这个呢, 则称为 "后验概率"。
1.86%的概率感染,这个是否代表他一定感染?还有一个很重要因素,如果在这一堆“占便宜”的人中,有hiv感染者,且刘强西和他们有血液交叉接触,那么他是否会被感染?ok,给定条件,血液接触感染概率【艾滋病血液传播概率为94%-96%】95%,接触hiv感染者概率50%,你再估算一下他感染的概率?
P(接触|感染HIV)=P(感染HIV|接触)* P(接触)/ (P(感染HIV|接触)* P(接触)+P(未感染HIV|未接触)* P(未接触))=95% * 50% / (95% * 50% + 5% * 50%)=95%=P(感染HIV|接触)
因为这里的给出接触感染者的概率是50%,但是并不影响结果,充分说明人多的地方不要去,不要凑热闹。
情报分析
小明说他在饭店遇到一个老朋友,猜猜这个老朋友是男是女?
小明说他在内衣店遇到一个老朋友,猜猜这个老朋友是男是女?
这个世界除了男人就是女人,那么上面两个场景概率:P(老朋友=男性)=P(老朋友=女性)=50%,这样就没意思了 。
梳理假设一下:小明是在泰国(泰国的人口性别比例为51.5%女性对48.5%男性,2%的男性是人妖),饭店出现男人概率=50%,内衣店出现女人的概率95%。再分别计算老朋友是男是女的概率?
美国辛普森杀妻案
美国辛普森杀妻案曾在20世纪90年代引发轰动,辛普森聘请“梦幻律师团”为其辩护。检察官展示出辛普森曾长期家暴妻子的证据,认为这是“谋杀的前奏”。而辩护律师Alan反驳称,美国每年虽有400万妇女遭家暴,但仅1432人被杀,概率只有1/2800,暗示辛普森可能无辜[1]。
按贝叶斯推理,妻子确已被杀,问题是辛普森是否为凶手。辛普森的家暴行为虽是一个线索,但与1/2800的概率无关。我们应关注的是,在妻子遇害的情况下,凶手正是施暴者的概率有多大。数据显示,在遭家暴且遇害的妇女中,凶手是家暴男的概率高达90%。这一证据极大增加了辛普森的嫌疑,但Alan的诡辩削弱了其说服力。
这启示我们,在不确定情况下,不应止步于表面数字,而要注重条件概率之间的关联。贝叶斯推理教导我们,在获取新线索时,要动态修正既有判断,从先验概率推出后验概率。
图片识别--贝叶斯神经网络
三种成像系统与贝叶斯神经网络相结合后重建结果:普通神经网络只能给出预测结果(红色框内),而贝叶斯神经网络既能给出预测结果(红色框内),又能给出不确定性的估计(蓝色框内)[2,4,6]
无处不在的贝叶斯
1 中文分词
贝叶斯是机器学习的核心方法之一。比如中文分词领域就用到了贝叶斯。Google 研究员吴军在《数学之美》系列中就有一篇是介绍中文分词的:
分词问题的描述为:给定一个句子(字串),如:南京市长江大桥
1. 南京市/长江大桥
2. 南京/市长/江大桥
这两个分词,到底哪个更靠谱呢?我们用贝叶斯公式来形式化地描述这个问题,令 X 为字串,Y 为词串。我们就是需要寻找使得 P(Y|X) 最大的Y,使用一次贝叶斯可得:P(Y|X)∝P(Y)*P(X|Y)
用自然语言来说就是:这种分词方式的可能性乘以这个词串生成我们的句子的可能性。进一步容易看到:可以近似地将 P(X|Y) 看作是恒等于 1 的,因为任意假想的一种分词方式之下生成我们的句子总是精准地生成的(只需把分词之间的分界符号扔掉即可)。于是,我们就变成了去最大化 P(Y) ,也就是寻找一种分词使得这个词串的概率最大化。而如何计算一个词串:W1, W2, W3, W4 ..的可能性呢?我们知道,根据联合概率的公式展开:P(W1, W2, W3, W4 ..)=P(W1)*P(W2|W1)*P(W3|W2, W1)*P(W4|W1,W2,W3) *... 可以通过一系列的条件概率(右式)的乘积来求整个联合概率。
不幸的是,随着条件数目的增加,数据稀疏问题也会越来越严重,即便语料库再大也无法统计出一个靠谱的 P(Wn|Wn-1,Wn-2,..,W1)来。为了缓解这个问题,计算机科学家们用了“有限地平线”假设:假设句子中一个词的出现概率只依赖于它前面的有限的 k 个词(k一般不超过 3)。虽然这个假设很天真,但结果却表明它的结果往往是很好很强大的。有了这个假设,刚才那个乘积就可以改写成:P(W1) *P(W2|W1) * P(W3|W2) * P(W4|W3) .. (假设每个词只依赖于它前面的一个词)。统计 P(W2|W1) 就不再受到数据稀疏问题的困扰了。对于我们上面提到的例子“南京市长江大桥”,如果按照自左到右的贪婪方法分词的话,结果就成了“南京市长/江大桥”。但如果按照贝叶斯分词的话(假设使用 3-gram),由于“南京市长”和“江大桥”在语料库中一起出现的频率为 0 ,这个整句的概率便会被判定为 0 。从而使得“南京市/长江大桥”这一分词方式胜出。
有人可能会疑惑,难道我们人类也是基于这些天真的假设来进行推理的?不是的。事实上,统计机器学习方法所统计的东西往往处于相当表层的层面,在这个层面机器学习只能看到一些非常表面的现象,有一点科学研究的理念的人都知道:越是往表层去,世界就越是繁复多变。从机器学习的角度来说,特征就越多,成百上千维度都是可能的。特征一多,高维诅咒就产生了,数据就很稀疏,不够用。而人类的观察水平显然比机器学习的观察水平要更深入一些,为了避免数据稀疏我们不断地发明各种装置(最典型就是显微镜),来帮助我们直接深入到更深层的事物层面去观察更本质的联系,而不是在浅层对表面现象作统计归纳。举一个简单的例子,通过对大规模语料库的统计,机器学习可能会发现这样一个规律:所有的“他”都是不会穿裙子的,所有的“她”则都是会穿的。然而,作为一个男人,却完全无需进行任何统计学习,因为深层的规律就决定了他们根本不会去穿裙子。至于机器学习能不能完成后者的推理,则是人工智能领域的经典问题。至少在那之前,统计学习方法是不可能终结科学研究的。
2 统计机器翻译
统计机器翻译的问题可以描述为:给定一个句子e,它的可能的外文翻译f 中哪个是最靠谱的。即我们需要计算:P(f|e) 。一旦出现条件概率,贝叶斯总是挺身而出:P(f|e) ∝ P(f) * P(e|f),这个式子的右端很容易解释:那些先验概率较高,并且更可能生成句子 e 的外文句子 f 将会胜出。我们只需简单统计就可以得到任意一个外文句子 f 的出现概率。
然而 P(e|f) 却不是那么好求的。假设 e 为:John loves Mary,首选f是:Jean aime Marie。为了求出 P(e|f),我们需要考虑 e 和 f 有多少种对齐的可能性。为什么要对齐,是因为一旦对齐了之后,就可以容易地计算在这个对齐之下的 P(e|f) 是多大,只需计算:P(John|Jean) * P(loves|aime) * P(Marie|Mary)即可。然后我们遍历所有的对齐方式,并将每种对齐方式之下的翻译概率∑求和。便可以获得整个的 P(e|f) 是多大。
3 最大似然与最小二乘
学过线性代数的同学都知道用经典的最小二乘方法来做线性回归。问题描述是:给定平面上N 个点,找出一条最佳描述了这些点的直线。一个接踵而来的问题就是,如何定义最佳?我们设每个点的坐标为 (Xi, Yi)。如果直线为 y = f(x),那么 (Xi, Yi) 跟直线对这个点的“预测”:(Xi, f(Xi)) 就相差了一个ΔYi = |Yi–f(Xi)|。最小二乘就是说寻找直线使得误差的平方和 (ΔY1)^2 + (ΔY2)^2 + ..最小,关于为什么是误差的平方和而不是误差的绝对值和这个问题,贝叶斯方法提供一个完美的解释。
我们假设直线对于坐标 Xi 给出的预测 f(Xi) 是最靠谱的预测,所有纵坐标偏离f(Xi)的那些数据点都含有噪音,是噪音使得它们偏离了完美的一条直线,一个合理的假设就是偏离路线越远的概率越小,具体小多少,可以用一个正态分布曲线来模拟,这个分布曲线以直线对 Xi 给出的预测 f(Xi) 为中心,实际纵坐标为 Yi 的点 (Xi, Yi) 发生的概率就正比于 EXP[-(ΔYi)^2]。
我们要想最大化的后验概率是:P(h|D) ∝ P(h) * P(D|h)。这里 h 就是指一条特定的直线,D 就是指这 N 个数据点。我们需要寻找一条直线 h 使得 P(h) * P(D|h) 最大。很显然,P(h) 这个先验概率是均匀的,因为哪条直线也不比另一条更优越。所以只需看 P(D|h) 这一项,它是指这条直线生成这些数据点的概率,前面说生成数据点 (Xi, Yi) 的概率为 EXP[-(ΔYi)^2] 乘以一个常数。而 P(D|h) =P(d1|h) * P(d2|h) * .. 即假设各个数据点是独立生成的,所以可以把每个概率乘起来。因此生成 N 个数据点的概率为 EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]} 最大化这个概率就是要最小化 (ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..
4统计建模
我们先将贝叶斯方法分为两类:一为统计建模,另一个为概率机器学习。后者包括了所谓的非参数方法。
建模通常在数据稀缺且难以获得时得以应用,比如在社会科学和其它难以进行大规模对照实验的环境中。想象一下,如果一个数据学家手头只拥有少量的数据,那么他会不遗余力地对算法进行调整,以期让每个数据都发挥最大的功用。
此外,对于小数据而言,最重要的是量化不确定性,这也正是贝叶斯方法所擅长的。而贝叶斯方法——尤其是MCMC——通常计算量巨大,这又与小数据是共存的。在名为《Data Analysis Using Regression Analysis andMultilevel /Hierarchical Models》(http://www.stat.columbia.edu/~gelman/arm/)的书中,介绍了从一个没有预测变量的线性模型开始,不断增加到11个预测变量的情况并进行讨论。这种劳动密集性模式实际上与我们的机器学习方向背道而驰,我们还是希望能使用数据,让计算机自动学习。
5 概率机器学习
我们现在尝试把“概率”一词替换“贝叶斯”。从这个角度而言,它与其它分类方法并没有区别。如果从分类考虑,大多数分类器都能够输出概率预测,比如最经典的SVM(支持变量机)。但需要指出的是,这些概率只是源于分类器的信念陈述,而它们是否符合真实的概率则完全是另一回事了,这也就是所谓的校准
贝叶斯非参数模型:接下来我们要说说贝叶斯非参数模型的一些内容,顾名思义,这个名字代表着模型中的参数数量可以随着数据的增大或减少而自适应模型的变化。这与SVM有些相似,它能在训练点中选择支持向量,而贝叶斯非参数模型也能根据数据多少来选择参数确定模型。比较流行的贝叶斯非参数模型包括高斯回归过程,还有隐含狄里克雷分布(LDA)。
高斯回归过程:高斯回归过程有点类似于SVM——采用内核并具有类似的可伸缩性。其最大的特点在于回归特性,分类做为事后的判断,而对于SVM而言,这个过程是相反的。此外,GP是从头开始进行概率判断,而SVM不是。大多数的常规方法只提供数据点估计,而贝叶斯非参数模型则会输出不确定性估计。高斯回归过程的流行主要应用于机器学习算法的超参数优化上。数据非常小,也只有几个参数需要调整。
朴素贝叶斯分类器
以下是一个使用Java实现的贝叶斯分类器的应用案例:
import org.apache.commons.math3.distribution.NormalDistribution;
public class NaiveBayesClassifier {
private double[] means;
private double[] variances;
private double[] classProbabilities;
public NaiveBayesClassifier(double[] means, double[] variances, double[] classProbabilities) {
this.means = means;
this.variances = variances;
this.classProbabilities = classProbabilities;
}
public int classify(double x) {
double maxPosterior = Double.NEGATIVE_INFINITY;
int maxClass = -1;
for (int i = 0; i < classProbabilities.length; i++) {
double prior = classProbabilities[i];
double likelihood = new NormalDistribution(means[i], variances[i]).density(x);
double posterior = prior * likelihood;
if (posterior > maxPosterior) {
maxPosterior = posterior;
maxClass = i;
}
}
return maxClass;
}
public static void main(String[] args) {
double[] means = {1.0, 2.0};
double[] variances = {1.0, 1.0};
double[] classProbabilities = {0.5, 0.5};
NaiveBayesClassifier classifier = new NaiveBayesClassifier(means, variances, classProbabilities);
double x = 1.5;
int result = classifier.classify(x);
System.out.println("The value " + x + " belongs to class " + result);
}
}
以上的代码实现了一个简单的朴素贝叶斯分类器,假设有两个类别,每个类别的数据服从正态分布。给定一个值x,通过计算它属于每个类别的后验概率,最后输出这个值所属的类别。