第1关:条件概率
任务描述
本关任务:根据本节课所学知识完成本关所设置的选择题。
相关知识
为了完成本关任务,你需要掌握条件概率。
条件概率
朴素贝叶斯分类算法是基于贝叶斯定理与特征条件独立假设的分类方法,因此想要了解朴素贝叶斯分类算法背后的算法原理,就不得不用到概率论的一些知识,首当其冲就是条件概率。接下来就开启我们的条件概率之旅吧。
什么是条件概率
概率指的是某一事件A
发生的可能性,表示为P(A)
。而条件概率指的是某一事件A
已经发生了条件下,另一事件B
发生的可能性,表示为P(B|A)
,举个例子:
今天有25%
的可能性下雨,即P(下雨)=0.25
; 今天75%
的可能性是晴天,即P(晴天)=0.75
; 如果下雨,我有75%
的可能性穿外套,即P(穿外套|下雨)=0.75
; 如果下雨,我有25%
的可能性穿T恤,即P(穿T恤|下雨)=0.25
;
从上述例子可以看出,条件概率描述的是|
右边的事件已经发生之后,左边的事件发生的可能性,而不是两个事件同时发生的可能性!
怎样计算条件概率
设A,B
是两个事件,且P(A)>0
,称P(B|A)=P(AB)/P(A)
为在事件A
发生的条件下,事件B
发生的条件概率。(其中P(AB)
表示事件A和事件B同时发生的概率)
举个例子,现在有一个表格,表格中统计了甲乙两个厂生产的产品中合格品数量、次品数量的数据。数据如下:
甲厂 | 乙厂 | 合计 | |
---|---|---|---|
合格品 | 475 | 644 | 1119 |
次品 | 25 | 56 | 81 |
合计 | 500 | 700 | 1200 |
现在想要算一下已知产品是甲厂生产的,那么产品是次品的概率是多少。这个时候其实就是在算条件概率,计算非常简单。
假设事件A
为产品是甲厂生产的,事件B
为产品是次品。则根据表中数据可知P(AB)=25/1200
,P(A)=500/1200
。则P(B|A)=P(AB)/P(A)=25/500
。
乘法定理
将条件概率的公式两边同时乘以P(A)
,就变成了乘法定理,即P(AB)=P(B|A)*P(A)
。那么乘法定理怎么用呢?举个例子:
现在有一批产品共100
件,次品有10
件,从中不放回地抽取2
次,每次取1
件。现在想要算一下第一次为次品,第二次为正品的概率。
从问题来看,这个问题问的是第一次为次品,第二次为正品这两个事件同时发生的概率。所以可以用乘法定理来解决这个问题。
假设事件A
为第一次为次品,事件B
为第二次为正品。则P(AB)=P(A)*P(B|A)=(10/100)*(90/99)=0.091
。
编程要求
根据本关所学习到的知识,完成所有选择题。
测试说明
平台会对你的代码进行运行测试,如果实际输出结果与预期结果相同,则通关;反之,则 GameOver
。
1、P(AB)表示的是事件A与事件B同时发生的概率,P(A|B)表示的是事件B已经发生的条件下,事件A发生的概率。(A)
A、对
B、错
2、从1,2,...,15中小明和小红两人各任取一个数字,现已知小明取到的数字是5的倍数,请问小明取到的数大于小红取到的数的概率是多少?(C)
A、7/14
B、8/14
C、9/14
D、10/14
第2关:贝叶斯公式
任务描述
本关任务:根据本节课所学知识完成本关所设置的选择题。
相关知识
为了完成本关任务,你需要掌握:
-
全概率公式;
-
贝叶斯公式。
全概率公式
贝叶斯公式是朴素贝叶斯分类算法的核心数学理论,在了解贝叶斯公式之前,我们需要先了解全概率公式的相关知识。
引例
小明从家到公司上班总共有三条路可以直达,如下图:
但是每条路每天拥堵的可能性不太一样,由于路的远近不同,选择每条路的概率如下表所示:
L1 | L2 | L3 |
---|---|---|
0.5 | 0.3 | 0.2 |
每天从上述三条路去公司时不堵车的概率如下表所示:
L1不堵车 | L2不堵车 | L3不堵车 |
---|---|---|
0.2 | 0.4 | 0.7 |
如果不堵车就不会迟到,现在小明想要算一算去公司上班不会迟到的概率是多少,应该怎么办呢?
其实很简单,假设事件C
为小明不迟到,事件A1
为小明选L1
这条路并且不堵车,事件A2
为小明选L2
这条路并且不堵车,事件A3
为小明选L3
这条路并且不堵车。那么很显然P(C)=P(A1)+P(A2)+P(A3)
。
那么问题来了,P(A1)
、P(A2)
和P(A3)
怎么算呢?其实只要会算P(A1)
其他的就都会算了。我们同样可以假设事件D1
为小明选择L1
路,事件E1
为不堵车。那么P(A1)=P(D1)*P(E1)
。但是在从表格中我们只知道P(D1)=0.5
,怎么办呢?
回忆一下上一关介绍的乘法定理,不难想到P(A1)=P(D1)*P(E1|D1)
。从表格中可以看出P(E1|D1)=0.2
。因此P(A1)=0.5*0.2=0.1
。
然后依葫芦画瓢可以很快算出,P(A2)=0.3*0.4=0.12
,P(A3)=0.2*0.7=0.14
。所以P(C)=0.1+0.12+0.14=0.36
。
全概率公式
当为了达到某种目的,但是达到目的有很多种方式,如果想知道通过所有方式能够达到目的的概率是多少的话,就需要用到全概率公式(上面的例子就是这种情况!)。全概率公式的定义如下:
若事件B1,B2,...,Bn两两互不相容,并且其概率和为1
。那么对于任意一个事件C
都满足:
P(C)=P(B1)P(C∣B1)+...+P(Bn)P(C∣Bn)=sumi=1nP(Bi)P(C∣Bi)
引例中小明选择哪条路去公司的概率是两两互不相容的(只能选其中一条路去公司),**并且和为1
**。所以小明不迟到的概率可以通过全概率公式来计算,而引例中的计算过程就是用的全概率公式。
贝叶斯公式
当已知引发事件发生的各种原因的概率,想要算该事件发生的概率时,我们可以用全概率公式。但如果现在反过来,已知事件已经发生了,但想要计算引发该事件的各种原因的概率时,我们就需要用到贝叶斯公式了。
贝叶斯公式定义如下,其中A表示已经发生的事件,Bi为导致事件A发生的第i个原因:
P(Bi∣A)=sumi=1nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
贝叶斯公式看起来比较复杂,其实非常简单,分子部分是乘法定理,分母部分是全概率公式(分母等于P(A))。
如果我们对贝叶斯公式进行一个简单的数学变换ÿ