1.名词解释
1.1 样本空间
一次具体实验中所有可能出现的结果,构成一个样本空间。
1.2 随机变量
把结果抽象成数值,结果和数值的对应关系就形成了随机变量X。例如把抛一次硬币的结果,正面记为1,反面记为0。有变量相对应的就有自变量,此处我们不用Y而是用P(X)来表示,P(X)就是X取某值时的概率。
1.3 结果轴
随机变量X作为结果是均匀分布在x轴上的,有的是x轴上某一段,甚至只是x轴上的两个点,例如抛硬币只有两种结果,所以对应在x轴上只有两个点x=1或x=0。有的结果可以遍布整个x轴。
误区:在写这段的时候莫名地把正态分布认为是标准正太分布,想到人的身高是符合正太分布的,但又考虑到人的身高不可能有负数,所以大脑就迷糊了。
1.4 概率密度函数PMF
结果是在x轴上均匀分布的,但是每次实验取得结果的可能性却不一定相同,拿离散变量中连续抛两次硬币的结果统计,显然
第一次正 | 第一次反 | |
---|---|---|
第二次正 | 1/4 | 1/4 |
第二次反 | 1/4 | 1/4 |
所以一正一反的概率为1/2,X取不同值P(X)随之相应变化,这就构成了概率函数,为什么叫概率密度函数呢?我门可以想象一条由无数个密度不同的铁点焊接成的铁丝,我们任选铁丝其中一点这就类似于随机变量X的取值,该点的密度就类似于概率P(X)
2.常见分布
2.1 常见离散分布
离散分布的概率计算是有限种结果的概率累加
P
(
X
∣
X
≤
x
n
)
=
∑
i
=
1
n
P
(
x
i
)
P(X|X\le x_n)=\sum_{i=1}^{n}P(x_i)
P(X∣X≤xn)=i=1∑nP(xi)
2.1.1 二项分布
2.1.2 几何分布
2.1.3 泊松分布
泊松分布是n很大,p很小的二项分布的近似,其中 λ = n p \lambda=np λ=np
2.2 常见连续分布
连续分布无法通过直接累加进行计算,因为其包含无数种可能,所以我们利用积分的形式进行计算。
2.2.1 均匀分布
2.2.2 指数分布
2.2.3正态分布(高斯分布)
- 一元高斯分布
- 多元高斯分布
X X X有多个维度 x 1 , x 2 , . . . x p x_1,x_2,...x_p x1,x2,...xp而 X X X可以有n个,所以构成了n*p的矩阵
X = [ x 11 x 12 x 13 . . . x 1 p x 21 x 22 x 23 . . . x 2 p . . . . . . . . . . . . x n 1 x n 2 x n 3 . . . x n p ] X=\begin{bmatrix} x_{11}&x_{12}&x_{13}&...x_{1p}\\ x_{21}&x_{22}&x_{23}&...x_{2p}\\ ...&...&...&...\\ x_{n1}&x_{n2}&x_{n3}&...x_{np} \end{bmatrix} X= x11x21...xn1x12x22...xn2x13x23...xn3...x1p...x2p......xnp
对比一元高斯矩阵期望 μ 4 \mu4 μ4%此时的 μ = [ μ 1 μ 1 2 . . . u n ] \mu=\begin{bmatrix} \mu_1\\\mu_12\\...\\u_n \end{bmatrix} μ= μ1μ12...un ,是一个向量。
对比一元高斯矩阵的方差
σ
2
\sigma^2
σ2,多元高斯分布的是协方差矩阵,同样是一个对称矩阵
∑
=
[
σ
11
σ
12
σ
13
.
.
.
σ
1
p
σ
21
σ
22
σ
23
.
.
.
σ
2
p
.
.
.
.
.
.
.
.
.
.
.
.
σ
p
1
σ
p
2
σ
p
3
.
.
.
σ
p
p
]
\sum = \begin{bmatrix} \sigma_{11}&\sigma_{12}&\sigma_{13}&...\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\sigma_{23}&...\sigma_{2p}\\ ...&...&...&...\\ \sigma_{p1}&\sigma_{p2}&\sigma_{p3}&...\sigma_{pp} \end{bmatrix}
∑=
σ11σ21...σp1σ12σ22...σp2σ13σ23...σp3...σ1p...σ2p......σpp
概率密度函数
p
(
x
∣
θ
)
=
1
(
2
π
)
p
2
∣
Σ
∣
1
2
e
x
p
[
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
]
p(x|\theta)=\frac{1}{(2 \pi)^{\frac{p}{2}}|\Sigma |^{\frac{1}{2}}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]
p(x∣θ)=(2π)2p∣Σ∣211exp[−21(x−μ)TΣ−1(x−μ)]
3. 二维分布
随机变量X和Y,
P
(
X
=
x
i
,
Y
=
y
i
)
P(X=x_i,Y=y_i)
P(X=xi,Y=yi)表示两件事同时发生概率,又称联合分布概率,
P
(
X
=
x
i
∣
Y
=
y
i
)
P(X=x_i|Y=y_i)
P(X=xi∣Y=yi)表示Y=y发生的条件下X=x的发生概率,又称条件概率。
P
(
X
=
x
i
)
P(X=x_i)
P(X=xi)成为边缘分布概率。
条件分布
=
联合分布
边缘分布
条件分布=\frac{联合分布}{边缘分布}
条件分布=边缘分布联合分布
得明白一个事情,就是如果X与Y没有交集那么对于二维分布来说就没有太多讨论的意义,因为两者的条件分布和联合分布概率都为0,边缘分布就是内部
P
(
X
=
x
i
)
或
(
Y
=
y
i
)
P(X=x_i)或(Y=y_i)
P(X=xi)或(Y=yi)
Q1:如果X和Y有交集,那 P ( X = x 5 , Y = y 5 ) P(X=x_5,Y=y_5) P(X=x5,Y=y5)等于 P ( X = x 5 ∣ Y = y 5 ) P(X=x_5|Y=y_5) P(X=x5∣Y=y5)吗?
P ( X = x 5 , Y = y 5 ) P(X=x_5,Y=y_5) P(X=x5,Y=y5)的样本空间大小是55=25个,而 P ( X = x 5 ∣ Y = y 5 ) P(X=x_5|Y=y_5) P(X=x5∣Y=y5)的样本空间大小是51=5个
3.2 独立与相关
独立不代表两者不相容,两者不相容也不能证明两者独立
独立一定不相关,不独立一定相关,相关不一定不独立
X与Y独立,分别从离散和连续两个方面请证明:
E ( X + Y ) = E X + E Y E(X+Y)=EX+EY E(X+Y)=EX+EY
E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
V ( X + Y ) = V ( X ) + V ( Y ) V(X+Y)=V(X)+V(Y) V(X+Y)=V(X)+V(Y)
3.3 协方差
方差:
V
[
X
]
=
E
[
(
X
−
E
[
X
]
)
2
]
=
E
[
X
2
−
2
X
E
[
X
]
+
(
E
[
X
]
)
2
]
=
E
[
X
2
]
−
2
(
E
[
X
]
)
2
+
(
E
[
X
]
)
2
=
E
[
X
2
]
−
(
E
[
X
]
)
2
V[X]=E[(X-E[X])^2]=E[X^2-2XE[X]+(E[X])^2]=E[X^2]-2(E[X])^2+(E[X])^2=E[X^2]-(E[X])^2
V[X]=E[(X−E[X])2]=E[X2−2XE[X]+(E[X])2]=E[X2]−2(E[X])2+(E[X])2=E[X2]−(E[X])2
协方差:
c
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
cov(X,Y)=E[(X-E(X))(Y-E(Y))]
cov(X,Y)=E[(X−E(X))(Y−E(Y))]
体会两者的不同
3.4 协方差矩阵
如果随机变量的个数提高到n个,则需要单独计算每个变量之间的协方差,同样也需要计算自己与自己的协方差,根据公式可知自己与自己的协方差就是方差,如此我们就构建了一个对称矩阵,称为协方差矩阵。