文章目录

多个random variable
- 条件下的multi random variable 分布和independence
- multi random variable continuous
- **2D normal distribution**
- two random variable independence
- muilti random variable conditional expectional value(discrete)
- multi random variable conditional expectional value(continued)
- moment
- covariance and Correlation
- conditional PDF
- variance
- Joint Distribution of Discrete and Continuous Random Variables
- CF(characteristic function)
sum of random variables
- change of variable:two to one
- Law of Large Number(LLN)
- Central Limit Theorem(CLT)
statistics

多个random variable

多个random variable是什么情况呢？假设我有2个random variable X和Y，假设Xa对应的是样本空间的1，Ya对应的是样本空间的-2，这个时候我们还有一个函数是g(X,Y)他代表2个变量X和Y的关系，比如g=xy，那么样本a对应的值为g=XY=1*-2=-2

可以看成2个抽象的event相交，2个抽象的event可以实例化成具体的event，X代表其中一个抽象的event中所有的具体的event，Y代表第二个抽象event中所有具体的event值，比如2个抽象的event同时具体化成eventi和eventj，分别由X和Y代表，f(Xi,Yi)就是这eventi和eventj相交的值
XY也可以是2个event，不过X和Y是分别统计这个event出现的频率，比如抛三次硬币，X是抛三次硬币H在上面的总数，最后X={3，2，2，2，1，1，1，0}，Y是H在抛三次硬币的哪一个位子出现，Y={1,1,1,2,1,2,3,0}

在这里插入图片描述
相当于将样本空间的样本通过g(X,Y)映射到另一个值可以看为Z

例子假设我们抛2次色子，一共有36个结果(样本空间)，此时我们X，Y可以看成样本空间中的样本经过运算后的数字(一个抽象event)，比如X要求sum of two dice(假如2次抛出色子相加的值为2那么就是一个具体化的event，也是我们正真意义上的event可以记为X1)，Y要求difference of two dice(假如2次抛出色子相减的值为2那么也是一个真正意义上的event，可以记为Y1),那么X和Y又各自组成了一集合(每个集合都是一个event组成)，假设X=5，Y=3，这个时候X和Y是交集，此时样本空间中只有{4,1}和{1,4}满足，

多random variable下的期望值
首先单random variable的期望值为

离散
$\sum g(x_i)f(x_i)$
连续
$\int g(x)f(x)dx$

其中g为样本的值，f为PMF

那么random variable变成二维的公式如下X范围{x1,x2,…,xn},Y的range为{y1,y2…ym}
$\sum_{i=1}^n\sum_{j=1}^mg(x_i,y_i)f(x_i,y_j)$
其中X范围{x1,x2,…,xn},Y的range为{y1,y2…ym}，且f代表Xi，Yi joint的PMF

比如我们的X的范围为1，2，Y的范围也是1，2，他们的PMF值如下

x=1 x=2
y = 1 0.4 0.1
y=2 0.1 0.4

且Z=XY，那么E(Z)的期望值为
$\sum_{i=1}^n\sum_{j=1}^mx_iy_if(x_i,y_j)=1*1*0.4+1*2*0.1+2*1*0.1+2*2*0.4=1.4$

	x=1	x=2
y = 1	0.4	0.1
y=2	0.1	0.4

例子2
还是抛色子的例子
我们抛2次色子，一共有36个结果(样本空间)，此时我们X可以看成样本空间中的样本经过运算后的数字，Y也一样，比如X要求sum of two dice，Y要求difference of two dice,那么X和Y又各自组成了一集合，X={2，3，4，5，6，7，8，9，10，11，12}，Y={0，1，2，3，4，5}

假设我们的变量是连续的期望值如下
$E(Z)=\int_{-∞}^∞\int_{-∞}^∞g(x,y)f(x,y)dxdy$

例子:假如我们的joint PMF f(x,y)=4xy，且样本X的范围为[0,1],Y的范围也是[0,1]，Z=XY，那么
$E(Z)=\int_0^1\int_0^1xy*4xydxdy=\frac{4}{9}$

我们要知道对于任意的(x,y), f(x,y) >=0 ,那么
$\sum_{(x,y)∈R^2}f(x,y)=P((X,Y)∈R^2)=1$

证明还是扔色子的例子，我们抛2次色子，一共有36个结果(样本空间)，此时我们X可以看成样本空间中的样本经过运算后的数字，Y也一样，比如X要求sum of two dice，Y要求difference of two dice,那么X和Y又各自组成了一集合，X={2，3，4，5，6，7，8，9，10，11，12}，Y={0，1，2，3，4，5}，那么组成的新的集合和概率如下
在这里插入图片描述
这些概率相加正好等于1

我们一个event形成集合，这个集合中random variable为Y，假设这个event是连续抛2次，2次相减为0的概率，因为总共的样本空间为36，那么相减为0代表2次抛的一样，这只会出现6次，所以这个event的概率为6/36为1/6，恰好我们的2个event相交，Y不变，变X所相加的概率也是1/6，所以可以得出
$fX(x)=P(X=x)=\sum_{y∈R}fX,Y(x,y)$

条件下的multi random variable 分布和independence

先回顾law of total probabilities
我们由多个event{B1，B2,…,Bk},每一个event都代表一些样本空间的集合，这些event不相交，且正好将样本空间划分，假设还有一个evnetA，求A的概率为多少
$P(A)=\sum_{i=1}^kP(A|B_i)P(B_i)$
推论
$\sum_{i=1}^kP(A|B_i)P(B_i)=P(A∩B_1)+P(A∩B_2)+...+P(A∩B_n)$

在multi random variable下的conditional PMF

假设X和Y都是一个event组
PX(X)和PY(Y)都是marginal PMFS
PXY(x,y)是joint PMF
那么
$P(Y=y_j|X=x_k)=\frac{P(X=x_k ∩ Y=y_j)}{P(X=x_k)}=\frac{P_{XY}(x_k,y_j)}{PX(x_k)}$
上面的式子应该没啥问题，就是将假设X和Y这2个event组具体成event，其他的都一样
上述的式子还可以记为
$P_{Y|X}(y_j|x_k)=\frac{P_{XY}(x_k,y_j)}{P_X(x_k)}$

假设我们抛三次硬币，X是一个event，Y是一个event(不再是event组)，假设X代表所有的H数量，Y代表H在第几个位子出现，得到X={3,2,2,2,1,1,1,0},Y={1,1,1,2,1,2,3,0},如下图

进一步算出他们的概率，我们把所有Y的可能标在X轴，所有X的可能标在Y轴，也就是joint PMF

multi random variable continuous

和连续相似，multi random variable就是一个样本空间的样本可以被同时映射到坐标轴中(x代表一个random variable，y代表一个random variable)
在这里插入图片描述
我们直到PDF是测量连续random variable概率变化的函数，我们用f(x)表示这个函数，f(x1)表示样本x1的概率，样本a到b之间的概率为 $\int_a^bf(x)dx$ ,对应的CDF也是 $\int_a^bf(x)dx$ ，因为CDF表示PDF函数值的变化，假如求出x1这个点的CDF，可以得到CDF F(x)= $\int_{-∞}^{x1} f(x)dx$
上述是一维AKA就映射到1个random variable，假如映射到2个random variable呢？就变成一个二维
简单回顾后我们回到映射，当样本空间的样本映射到一个x轴y轴后(x轴一个random variable，y轴一个random variable)，所以CDF是PDF的二阶导数为 $F_{XY}(x,y)=\int_{-∞}^x\int_{-∞}^yf_{XY}(u,v)dvdu$

此时CDF $F_{XY}(x,y)=P(X <=x,Y<=y)$ 如下图
在这里插入图片描述
且
$F_{XY}(∞,∞)=1$ ，因为把所有的可能包含进去了概率就是1

因为我们知道在连续的样本空间里面，样本空间的值被映射到一个random variabe中，这个random variable也是连续的，所以在x轴和y轴上也是连续的(样本空间的值被映射到2个random variable上)

所以！假设样本空间映射后的2个random variable都在0到1之间，那么CDF

$F_{XY}(x,y)=1$ when x>1 and y>1

当x>=1或者y>=1,换句话说映射后的值都在2个random variable在范围之外,因为有效的值都在0<=x<=1,0<=y<=1之间，所以代表所有的可能，又CDF是PDF的导数换句话说就是求面积正好映射到的是一个矩形(X是一个randon variable Y是一个random variable，且X和Y的joint)，所以就是1*1=1
$F_{XY}(x,y)=xy$ when x∈[0,1] and y∈[0,1]

同上当x∈[0,1]且y∈[0,1]之间CDF就是PDF的导数(求面积)，那就是xy
$F_{XY}(x,y)=y$ when x>1 and y∈[0,1]

因为样本映射后到x大于1的地方，因为超出范围，超出范围就当1算，所以1*y=y
$F_{XY}(x,y)=x$ when x∈[0,1] and y>1

因为样本映射后到y大于1的地方，因为超出范围，超出范围就当1算，所以1*x=x
$F_{XY}(x,y)=0$ when x<0 or y<0

因为样本映射后到x或者y小于0的地方当0算，CDF求面积就是0 * x or 0 * y

因为我们已经知道了在2个random variable的情况下CDF和PDF的关系，所以PDF就是CDF的2阶导数，得到在uniform distribution(X∈[0,1],Y∈[0,1])下
$P D F = 1/1$ when x∈[0,1],y∈[0,1]
$P D F = 0$ other
从图像上看uniform distribution就是这样
在这里插入图片描述

marginal CDF
和离散一样就是对对应的random variable x或者random variable y累加
比如我们的 $F_X(x)=F_{XY}(x,∞)=P(X<=x,y=any)$

marginal PDF
就是对一个维度进行累加，但是怎么累加?积分…如下multi random variable PDF x(变y)
$f_X(x)=\int_{-∞}^∞f_{XY}(x,y)dy$

2D normal distribution

我们还记得1d的时候正态分布的PDF公式是 $f(x)=\frac{1}{\sqrt{2Π}σ}e^{-\frac{1}{2σ^2}(x-μ)^2}$ ,有一些复杂，当我们将其扩展到二维，也就是2个random variable的时候是什么情况
在2维的情况我们有
$σ_x$ stand dev in x
$σ_y$ stand dev in y
$μ_x$ mean in x
$μ_y$ mean in y
$ρ$ 定义了相关性[-1,1]之间，假如X在增加Y的均值也在增加这个就是正相关，反之[-1,0]就是负相关，如下图
在这里插入图片描述
上图正相关，下图负相关

先记一下2d normal distribution可视化网站ucla写的
http://www.distributome.org/V3/calc/2D_BivariateNormalCalculator.html

question
假设我们有2个normal random vairaible X1 and X2， Z= 2X1 * X2，其Z也是normal distribute的，那么这个是否正确？

two random variable independence

前面我们讲了2个event independ的情况如下
$P (A ， B) = P (A) P (B)$
$P (B ∣ A) = P (B)$
它可以直接推广到multi random variable上，如下
if P(X∈A and Y∈ B )=P(X∈A)P(Y∈B)
A和B是任何event，则说明X和Y2个random variable independence

假如我们的PDF是这样的
$f_{XY}(x,y)=2e^{-(x+y)}$ when $0 <= y <= x < \infty$
$f_{XY}(x,y)=0$ otherwise
x和y是绝对相关，因为x一定要比y大，假设x比y小，那么落到一个没有概率的地方(0)，

因为 $P (A ， B) = P (A) P (B)$ 所以换成PDF为 $f_{XY}(x.y)=f_X(x)f_Y(y)$
有了上述式子，假设我们X和Y是2个random variable且independence，所以
$E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_{XY}(x,y)dxdy$ 因为上述的公式得到
$E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_{XY}(x,y)dxdy=\int_{-∞}^∞\int_{-∞}^∞xyf_X(x)f_Y(y)dxdy$ 然后对于这个式子我们可以变成2个一重积分相乘得到 $(\int_{-∞}^∞xf(_X(x)dx))(\int_{-∞}^∞yf_Y(y)dy)=E(X)E(Y)$
所以最终得到假如X和Y是2个independence的random variable则 $E (X Y) = E (X) E (Y)$

我们知道Covariance的公式为
$Cov(X,Y)=E((X-u_X)(Y-u_Y))=E(XY-Xu_Y-Yu_X+u_Xu_Y)=E(XY)-u_XE(Y)-u_YE(X)+u_Xu_Y=E(XY)-u_Xu_Y=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)=E(XY)-E(X)E(Y)$ ,因为在random variable下期望值等于我们的mean
最后推广到independence得到
因为 $E (X Y) = E (X) E (Y)$
所以 $C o v (X, Y) = E (X Y) - E (X) E (Y) = 0$ 换句话说假如X和Y independence那么他们uncorrelated

muilti random variable conditional expectional value(discrete)

这个机械学习方向会经常用

PDF用于continue random variable (PDF用f()表示)
PMF用于离散的random variable (PMF用p()表示)
他们都是为了显示样本和概率之间的关系
CDF不管你离散还是连续都有CDF (CDF用F()表示)

假设我们抛三次硬币，X是一个event，Y是一个event(不再是event组)，假设X代表所有的H数量，Y代表H在第几个位子出现，得到X={3,2,2,2,1,1,1,0},Y={1,1,1,2,1,2,3,0},如下图

在这里插入图片描述
进一步算出他们的概率，我们把所有Y的可能标在X轴，所有X的可能标在Y轴，也就是joint PMF

在这里插入图片描述
假设一个情况，我们抛三次硬币，发现只有一个H(此时X=1)，求这个H出现在第三次抛硬币中(Y=3)的概率是多少，这个是明显的条件概率，公式如下
$f_{Y|X}(3|1)=\frac{P(Y=3∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3}$

假设我们想求X=1的情况下Y的期望值呢？
我们要先把 $f_{Y|X}(0|1)$ , $f_{Y|X}(1|1)$ , $f_{Y|X}(2|1)$ , $f_{Y|X}(3|1)$ 的条件概率求出来，然分别乘以0，1，2，3，如下
$f_{Y|X}(0|1)=\frac{P(Y=0∩X=1)}{P(X=1)}=\frac{0}{\frac{3}{8}}=0$
$f_{Y|X}(1|1)=\frac{P(Y=1∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3}$
$f_{Y|X}(2|1)=\frac{P(Y=2∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3}$
$f_{Y|X}(3|1)=\frac{P(Y=3∩X=1)}{P(X=1)}=\frac{\frac{1}{8}}{\frac{3}{8}}=\frac{1}{3}$
$E(Y|X=1)=0*f_{Y|X}(0|1)+1*f_{Y|X}(1|1)+2*f_{Y|X}(2|1)+3*f_{Y|X}(3|1)=0*0+1*\frac{1}{3}+2*\frac{1}{3}+3*\frac{1}{3}=2$

所以muilti random variable conditional expectation的公式为
$E(Y|X=x)=\sum_{j=1}^my_jf_{Y|X}(y_j|x)$ 其中x为常量

multi random variable conditional expectional value(continued)

one random variable expectional value
首先我们的expectional value就是概率的值乘以样本，这样推广到continueal就是
$E(x)=\int_{-∞}^{∞}xf_x(t)dt$
上述的公式就非常的好理解, $f_X(t)是PDF$
假设不是x是(不是样本空间的样本)是一个映射，映射到random variable那么就如下
$E(g(X))=\int_{-∞}^∞g(t)f_X(t)dt$

假设我们是多个random variable
$E(g(X,Y))=\int_{-∞}^∞\int_{-∞}^∞g(u,v)f_{X,Y}(u,v)dudv$

假设期望值是线性的则如下
$E (a X + bY) = a E (X) + b E (Y)$
推论如下所示
$E(aX+bY)=\int_{-∞}^∞\int_{-∞}^∞(au+bv)f_{XY}(u,v)dudv=$
$\int_{-∞}^∞\int_{-∞}^∞auf_{XY}(u,v)dudv+\int_{-∞}^∞\int_{-∞}^∞bvf_{XY}(u,v)dudv$
此时分别看2个积分公式发现外部的积分上下限和dv是不是相当于对dv进行marginal，所以
$a\int_{-∞}^∞uf_X(u)du+b\int_{-∞}^∞vf_Y(v)dv=aE(X)+bE(Y)$

moment

PS这里插一个小知识叫做moment(矩)，一阶距是期望值，2阶矩是方差，公式如下
$K^{th}Moment:E(X^k)$
he nth moment of a distribution about the mean is given by $E((X-u)^k)$

高阶矩的目的是去测量一个分布的重尾程度，或者说概率 p(x)是否随着值x的增大急速地减少。

我们知道 $Var[X]=E[X^2]-E[X]^2$ ，关于这个的推论去看关于Var的章节，有详细推论，套用到这里我们可以得知 $Var[X]=E[X^2]-E[X]^2=m_2-(m_1)^2$

$m_3$ 是描述一个distribution的asymmetric,假设 $m_3=0$ 说明分布是symmetric也就是对称的，如果 $m_3<0$ 说明distribution是不对称且顶点向右偏(顶点左边的分布缓，顶点右边的分布陡峭)， $m_3>0$ 说明顶点向左偏

moment generation function(MGF)
假设X是random variable，t是MGF中的变量如下
$M_X(t)=E(e^{tx})=\sum_Xe^{tx}f_x(x)$ 或者 $\int_{-∞}^∞e^{tx}f_X(x)dx$
t是一个辅助变量，MGF的存在是为了让我们计算n阶moment更加的方便,X是random variable，x是random variable X中的变量
那么MGF和moment有啥具体关系呢？这里用到 $e^{tx}$ 的泰勒公式，我们带入泰勒公式后再将泰勒公式带入E()中，最后对其求一阶导数，最后得到一阶moment，二阶导数得到二阶moment，以此类推，MGF还是要比直接算n阶moment要简单的多,再具体请看这里

假设random variable X和random variable Y是independent的那么
$E [X Y] = E [X] E [Y]$
推论如下
因为X和Y independent，所以 $E[XY]=\int_{-∞}^∞\int_{-∞}^∞xyf_{X,Y}(x,y)dxdy=\int_{-∞}^∞\int_{-∞}^∞xyf_X(x)f_Y(y)dxdy=\int_{-∞}^∞xf_X(x)dx\int_{-∞}^∞yf_Y(y)dy=E[X]E[Y]$
那么同样X和Yindependece，且Z=X+Y，那么
$M_Y(t)=E[e^{tZ}]=E[e^{t(X+Y)}]=E[e^{tX}e^{tY}]=E[e^{tX}]E[e^{tY}]=M_X[t]M_Y[t]$

covariance and Correlation

covariance和correlation是描述2个random variable随着一个variable变化另一个变化情况的，这里请会议二阶正态分布中的rho也就是2个random variable的正相关和负相关
先给出covariance的公式 $Cov(X,Y)=E((X-u_X)(Y-u_Y))$

$u_X$ 和 $u_Y$ 指的是mean(中值) of two random variable ，换句话说我们的样本是一个正态分布那么mean就是最中间的那个值(当然样本要经过排序)

假设正相关(随着X的增长Y也在增长),且X> $u_X$ ，那么Y> $u_Y$ 所以最终期望值内的值为正，假设X< $u_X$ ，那么Y< $u_Y$ 所以最终期望值内的值为正

假设负相关(随着X的增长Y减少)，且X> $u_X$ ，那么Y< $u_Y$ 所以最终期望值内的值为负，假设X< $u_X$ ，那么Y> $u_Y$ 所以最终期望值内的值为负

假设2个random variable independence那么COV(X,Y)=0，推论如下
假设2个random variable independence那么 $f_{X,Y}(x,y)=f_X(x)f_Y(y)$ 所以
$C o v (X, Y) = E (X Y) - E (X) E (Y)$ 其中 $E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_{X,Y}(x,y)dxdy$ 因为 $f_{X,Y}(x,y)=f_X(x)f_Y(y)$ 所以 $E(XY)=\int_{-∞}^∞\int_{-∞}^∞xyf_X(x)f_Y(y)dxdy=\int_{-∞}^∞xf_X(x)dx\int_{-∞}^∞yf_Y(y)dy=E(X)E(Y)$
所以当random variable X和Y independent所以 $E (X Y) = E (X) E (Y)$ ，且 $C o v (X, Y) = E (X Y) - E (X) E (Y) = 0$
但是当 $C o v (X, Y) = 0$ 不代表一定independent
当2个random variable X和Y 的Cov为0，代表2个random variable没有线性关系(我们用线性回归也不好预测其后续结果)

假设a是一常数，我们球random variable X和a的cov为0，公式是如下
$Cov(X,a)= E((X-u_x)(a-a))=0$

假设我们有2个random variable，求这2个randoom variable分别经过线性函数后的covariance，如下
$Cov(aX+b, cY+d)=E((aX+b-E(aX+b))(cY+d-E(cY+d)))=E((aX+b-au_x-b)(cY+d-cu_y-d))=acE((X-u_x)(Y-u_y))=acCov(X,Y)$

因为 $E (a X + b) = E (a X) + E (b) = a E (X) + b$

我们知道 $Cov(X,Y)=E((X-u_X)(Y-u_Y))$ 可推 $Cov(X,Y)=E(XY-Xu_Y-Yu_X+u_Xu_Y)=E(XY)-E(Xu_Y)-E(Yu_X)+E(u_Xu_Y)=E(XY)-u_YE(X)-u_XE(Y)+E(u_Xu_Y)=E(XY)-E(Y)E(X)-E(X)E(Y)+E(u_Xu_Y)=E(XY)-E(Y)E(X)$

假设我们有一个PDF $f_{X,Y}(x,y)=\frac{1}{2}$ when x =3, y=4， $f_{X,Y}(x,y)=\frac{1}{3}$ when x =3，y=6, $f_{X,Y}(x,y)=\frac{1}{6}$ when x =5，y=6, $f_{X,Y}(x,y)=0$ when other得到以下
$E(X)=3*\frac{1}{2}+3*\frac{1}{3}+5*\frac{1}{6}+0=\frac{10}{3}$
$E(Y)=4*\frac{1}{2}+6*\frac{1}{3}+6*\frac{1}{6}+0=5$
$EX(Y)=3*4*\frac{1}{2}+3*6*\frac{1}{3}+5*6*\frac{1}{6}+0=17$
$Cov(X,Y)=E(XY)-E(X)E(Y)=\frac{1}{3}>0$

但是我们的covariance非常的难判断，但是我们可以用方差去进行标准化，则得到correlation公式如下
$ρ=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}=\frac{Cov(X,Y)}{{σ_Xσ_Y}}$ ,因为Var就是variance方差
为什么说covariance好判断?因为ρ总是在-1到1之间，0到1代表正相关，0到-1代表负相关

且 $ρ_{XY}=0=>Cov(X,Y)=0$

corelation只表示一个线性关系，假如概率分布是一个指数样的，我们correlation就不合适了

$I n d e p e n d e n t => u n corre l a t i o n$ BUT $u n corre l a t i o n$ not => $I n d e p e n d e n t$

关于covariance matrix，这个在机器学习中用的非常多

conditional PDF

首先我们都知道2个event A,B

$P(A|B)=\frac{P(A,B)}{P(B)}$ 图形如下

在这里插入图片描述
告诉了我们B happen，那么A happen的概率是多少

我们知道了在离散的情况下，multiple random variable的conditional PMF公式如下
$P_{Y|X}(y_j|x_k)=\frac{P_{XY}(x_k,y.j)}{P_X(x_k)}=\frac{Joint}{marginal}$
关于marginal，还有conditional PMF的例子看上面，这里都是回顾

值得注意的是conditional PMFs are just another type of PMF，啥意思？我们的conditional PMFs比如 $P_{X|Y}(x|1)$ 是另一种PMF，我们通过 $P_{X|Y}(x|y)$ 可以画出一个二维图，当X等于1的时候意味着就只有一行，此时我们可以标准化将这一行根据概率分割(相加为1)，比如我原本的multi random variable如下

然后取 $P_{X|Y}(x|1)$ 的那一行，再标准化如下

在连续的世界中公式和离散一样，都是 $conditional=\frac{joint}{marginal}$ ，所以连续的PDF公式如下和离散PMF一样
$f_{Y|X}(y|x)=\frac{f_{XY}(x,y)}{f_X{(x)}}$

if X and Y are independent then $f_{XY}(x,y)=f_X(x)f_Y(y)=f_{Y|X}(y|x)f_X(x)=>f_{Y|X}(y|x)=f_Y(y)$ 这里和离散没有什么不同

真实例子：bayes decision rule
贝叶斯决策理论是模式识别(Pattern-classification)里面重要的概率统计方法之一，首先解释几个名词

prior probability
就是我们一些意外事件发生之前的概率，假设我们从布袋拿球，布袋中一共由3个黄球，2个红球，那么取出红球的概率是 $P(pick\_red)=\frac{2}{5}$ ，这个是prior概率，但是当我们已经取出一个黄球了，那么取出红球的概率还能是 $\frac{2}{5}$ 吗？
likelihood probability
此时我们应该想到概率论中有一个叫做condition probability的东西，所以这个时候我们表达式应该这样 $P(pick_red|pick\_yellow)$ ，并且她也叫作likelihood probability
贝叶斯公式如下
$P(A|B)P(B)=P(A,B)=P(B,A)=P(A)P(B|A)->P(A|B)=\frac{P(A)P(B|A)}{P(B)}$
其中 $P (A ∣ B)$ 是posterior， $P (A)$ 是prior， $P (B ∣ A)$ 是likelihood

此时根据贝叶斯决策得到，假如我们要识别狗和猫，X是我们待识别的样本，那么决定为狗
$P(狗|X)>P(猫|X)--->>>\frac{f_X(x|狗)P(狗)}{P(X)}>\frac{f_X(x|猫)P(猫)}{P(X)}$
决定为猫那么
$P (猫 ∣ X) > P (狗 ∣ X) - - - >>> 与上同理$

假如 $P(猫)=P(狗)=\frac{1}{2}$ ，那么我们只能看likelihood，比谁的大(在给定的X)

variance

variance就是标准差的平方，也就是方差，离散情况太简单就不说了，直接说连续情况，公式如下
$Var(x)=\int_{-∞}^∞(x-E(x))^2f_x(X)dx$
E(x)可以看成mean， $f_x(x)$ 可以看成PDF
2个random variable如下
$Var(X,Y)=\int_{-∞}^∞\int_{-∞}^∞(x-E(x))^2f_{x,y}(X,Y)dxdy$

conditional variance
$Var(X|Y=y)=\int_{-∞}^∞(x-E(X|Y=y))^2f_{X|Y}(x|y)dx$
因为是y固定，而x在变，所以是x的积分

首先E(X)可以看成mean，那么我们可以得到
$Var[X]=E[(X-E[X])^2]$
因为 $E[(X-E[X])^2]=\int_{-∞}^∞(x-E(x))^2f_x(X)dx$
进一步推论
$Var[X]=E[(X-E[X])^2]=E[X^2-2XE[X]+E[X]^2]$ 此时我们令 $E [X] = u$ 则 $E[X^2-2XE[X]+E[X]^2]=E[X^2-2Xu+u^2]=E[X^2]-2uE[X]+u^2=E[X^2]-2u^2+u^2=E[X^2]-u^2=E[X^2]-E[X]^2$
所以…
$Var[X]=E[X^2]-E[X]^2$
因为 $E[x]=mean=\mu$ ,所以 $Var[X]=E[X^2]-\mu^2=\sigma^2$ ,因为 $\sigma$ 是标准差,var是方差

进一步假设random variable X的所有sample相加除以n(aka平均数aka $\bar{X}$ )，那么 $Var[\bar{X}]=Var[\frac{X1+X2+...+Xn}{n}]=\frac{1}{n}Var[X1+...+Xn]=\frac{1}{n}(Var[X1]+Var[X2]+...+Var[Xn])=\frac{\sigma^2}{n}=E[\bar{X}^2]-\mu^2$

Joint Distribution of Discrete and Continuous Random Variables

顾名思义就是我们的概率模型中有离散random variables也有连续random variables

定义如下
假设d为离散的random variable，c为连续的random variable，他们定义在一个相同的概率空间中，样本空间中的w，可以映射到d(w),c(w),那么joint pmf和joint pdf是多少？

啥意思？就是我们样本空间Ω中的样本通过某种映射(某种函数之类的东西)映射成1，2，3，4，5这种离散的样本统称为w给d，同样样本空间Ω中的样本通过某种映射(某种函数之类的东西)映射成一个连续的样本给c

其实单独的joint discrete and continued pdf和pmf是dosen’t make sense的，但是他们的marginal pdf，marginal condition是make sense的

CF(characteristic function)

CF是一个复杂的方程，这个方程彻底的识别了一个random variable的分布，一些random variable没有MGF，但是每一个random variable都有CF

sum of random variables

假设我们有多个random variable，我们想把多个random variable相加，为什么相加？多个random variable相加意义就是形成一个新的randon variable，假设我们有一个random vairable表示1月份所有天数，盈亏情况(x轴是return百分比，y轴是这个return百分比发生的频率)，因为有1月就有2月，3月…12月，所以我们可以有12个random variable,年度统计的时候我们要将这12个月的情况都相加，所以此时我们需要用到sum of random variable
假设X1是random variable1，X2是random variable2…Xn是random variablen那么
$sum:X_1+X_2+...+X_N=S_n=\sum_{i=1}^NX_i$
$Mean:\frac{1}{n}\sum_{i=1}^NX_i=M_n$
$E(S_N)=E(X_1+X_2+...+X_n)=E(X_1)+E(X_2)+...+E(X_n)=\sum_{i=1}^nE(X_i)$
$E(M_n)=\frac{1}{n}\sum_{i=1}^nE(X_i)$
$Var(S_n)=E(S_n^2)-(E(S_n))^2$
variance有些奇怪，这里我们推论一下
$E(S_n^2)=E((X_1+X_2+...+X_n)(X_1+X_2+...+X_n))=\sum_{i=1}^n\sum_{j=1}^nE(X_iX_j)$
$E(S_n))^2=(E(X_1)+...+E(X_n))^2$
所以
$Var(S_n)=E(S_n^2)-(E(S_n))^2=\sum_{i=1}^n\sum_{j=1}^n(E(X_iX_j)-E(X_i)E(X_j))=\sum_{i=1}^n\sum_{j=1}^nCov(X_i,X_j)$

我们知道一个random X的normal distribution要这样表达 $X$ ~ $N(μ_x,(σ_x)^2)$ ,其中μ代表mean，σ代表标准差，那么我们有2个independent的random variable X和Y，分别由 $X$ ~ $N(μ_x,(σ_x)^2)$ ， $Y$ ~ $N(μ_y,(σ_y)^2)$ ，此时由一个Z=aX+bY，那么Z也是normal distribution的，记为 $Z$ ~ $N(aμ_x+bμ_y,a^2σx^2+b^2σy^2)$ ,假如更多个independence 的random variable这是可以推广的假设X1,…Xn是independent的那么 $Z=\sum a_iX_i$ ~ $N(\sum_ia_iμ_i,\sum (a_i)^2(σ_i)^2)$
怎么推论呢？如下

假设我们有2个random variable X和Y independence，Z=aX+bY
设Z的MGF为 $M_Z(t)=M_{aX+bY}(t)=E(e^{t(aX+bY)})=E(e^{atX}e^{btY})$
因为X和Y independence则
原式= $E(e^{atX})E(e^{btY})=M_X(at)M_Y(bt)=M_X(t)$
因为X和Y是normal distribute的所以
原式= $e^{aμ_1t+\frac{σ_1^2(at)^2}{2}}e^{bμ_2t+\frac{σ_2^2(bt)^2}{2}}=e^{t(aμ_1+bμ_2)+\frac{t^2}{2}(a^2σ_1^2+b^2σ_2^2)}$
此时Z可以看成 $Z$ ~ $N(aμ_1+bμ_2,a^2σ_1^2+b^2σ_2^2)$ ,此时Z也是正态分布的

假设X为正态分布，那么其PDF为
PDF= $\frac{1}{σ\sqrt{2Π}}e^{-\frac{1}{2}(\frac{x-μ}{σ})^2}$
对应的MGF为
MGF= $e^{μt+\frac{σ^2t^2}{2}}$

change of variable:two to one

假设我们有2个random variableX和Y，此时我们有一个新的random variable Z等于g(x,y)
我们已知X和Y的joint PDF $f_{X,Y}(x,y)$ ，求Z的PDF $f_Z(z)$

例如：我们有2个random variableX和Y，X~EXPO(lambda)，Y ~ EXPO(lanbda),所以X和Y是independence，此时我们有一个新的random variable Z等于g(x,y)，
g(z,y)=MAX(X,Y)
我们可以先求Z的CDF，如下
$F_Z(3)=P(Z<=3)=P(MAX(X,Y)<=3)=P(X<=3,Y<=3)$ 因为indpendent
原式= $P (X <= 3) P (Y <= 3)$
因为X和Y都是指数分布，所以其PDF为，当x>0时 $f_X(x)=λe^{-λx}$ ，other $f_X(x)=0$ ，然后其对应的CDF是 $F_X(u)=1-e^{-λu}$ ，when u >0
所以原式= $1-e^{-3λ})^2$ ，最后先对λ求导再带入3即可

Law of Large Number(LLN)

假设我们有N个Random variable $X_1...X_m$ 且他们是independent,且 $E(X_i)=u$ ， $var(X_i)=\sigma^2$ ,i为1到m之间任意一个数
那么我们可以得到,假如
$S=X_1+...+X_m$
sample mean(SM)= $\frac{X_1+...+X_m}{m}$
得
$E (S) = m u$

这个好理解因为independent所以 $E(X_1+X_2+...+X_n)=E(X_1)+E(X_2)+...+E(X_n)$

$var(S)=Var(X_1)+Var(X_2)+...+Var(X_n)=m\sigma^2$

$E(SM)=\frac{mu}{m}=u$
$Var(SM)=\frac{1}{m^2}(Var(X_1)+...+Var(X_m))=\frac{m\sigma^2}{m^2}=\frac{\sigma^2}{m}$

因为 $Var(aX)=E((aX)^2)-E(aX)^2=a^2E(X^2)-a^2E(X)^2=a^2(E(X^2)-E(X)^2)=a^2Var(X)$

Central Limit Theorem(CLT)

if X1…Xn independent并且这些random variable是independent and identically distributed(都是同一个分布,且independent)
当S=X1+…+Xm时，m趋于无穷，则S是一个正态分布 $N(mu,m\sigma^2)$ ,其中E(Xi)=u,Var(Xi)= $\sigma^2$

假设X1…Xn的期望值和方差都相等，且X1=0
既然是正态分布,那么我们就要求其中的mean和方差,所以如下
$u=E[S_n]=E[X_1+X_2+...+X_n]=E[X_1]+E[X_2]+...+E[X_n]=nE[X_1]$
$\sigma=Var[S_n]=Var[{X_1+X_2+...+X_n}]=Var[X_1+X_2+...+X_n]=(Var[X_1]+Var[X_2]+...+Var[X_n])=nVar[X_1]$

我们还可以对random variable求平均数,如 $\bar{X}=\frac{X_1+X_2+...+X_n}{n}$ ，然后对 $\bar{X}$ 求mean和 $\sigma$ (为了求normal distribution),如下
$u=E[\bar{X}_n]=E[\frac{S_n}{n}]=\frac{nE[X_1]}{n}=E[X_1]$
$\sigma^2=Var[\bar{X_n}]=Var[\frac{S_n}{n}]=\frac{1}{n^2}Var[S_n]=\frac{1}{n^2}nVar[X_1]=\frac{Var[X_1]}{n}$
$\sigma=SD[\bar{X}]=\frac{SD[X_1]}{\sqrt{n}}$
当我们n趋于无穷,意思是random variable越来越多， $\sigma=0$ ，意味着样本无穷大,样本平均值的方差趋于0，而mean等于E[X1]