置信度,置信区间
给定一个置信度,就可以算出一个置信区间。
如果给的置信度越大,那么阿尔法就越小
给的置信度越小,那么α就越大,那么
考虑精确性,希望区间长度尽可能小,所以是取正态的中间的对称位置
置信度越高,则精度越低,反之,精度越高则置信度越低
置信水平描述真实值落在置信区间中的概率
当你要提高置信水平(即真实值落在置信区间中的概率)的时候,相应的将要付出的代价就是拉长置信区间,也就是区间半径的增大。
那么很显然的,如果你想让一个区间保持完美的,100%的可靠度,在已有的条件下,我只能将区间半径拉长到∞。也就是置信区间为R。
那么显然这个参数估计就失去了意义,自然不存在可靠性。
另外的,置信水平和显著性水平是负相关的,并且置信水平与显著性水平的和为1
错误理解:上图浅色的虚的竖直线代表样本参数真值,横的两端有端点的代表95%置信度的置信区间,100条竖直线里有95条左右落入这个区间内。
这是非常错误的理解,样本与总体的关系没有思考清楚。置信区间是估测总体参数的真值,这个值只有一个,且不会变动。
样本数目不变的情况下,做一百次试验,有95个置信区间包含了总体真值。置信度为95%
其中大虚线表示总体参数真值,是我们所不知道的想要估计的值。正因为在100个置信区间里有95个置信区间包括了真实值,所以当我们只做了一次置信区间时,我们也认为这个区间是可信的,是包含了总体参数真实值的。
置信区间是变的,是不固定的,课本上让求的那个置信区间,只是某种条件下的置信区间(可能是区间长度最短的置信区间),但实际上只要这个区间上的点占总点的置信度,就是一个置信区间
上分位点
就是右侧占α,类似相同的概念就是分布函数,只不过分布函数是左侧的总体的
对于对称的分布,正态,t分布,1-α和α是对称的,即分布在对称轴左右
对于不对称的分布,F分布,是一个倒数关系
对于卡方分布,相对关系很复杂,要查两次表
上分位点出来的是x轴上的一个值,由于是右侧占α,所以α越小,这个值越大,反之则越小
即右侧占的越多,那么分位点越靠前,右侧占的越少,分位点越靠后。
正态分布用分布函数描述,即左侧占比;t分布,卡方分布,F分布都是右侧占比。t,卡方
正态分布也可以用分位点去描述,为u。
不过分位点出来的是坐标轴上的数,分布函数出来的是左侧占1的比例大小,相当于一个反函数的关系。
假设检验
假设方式
假设方式有是不是,与偏大还是偏小,即单尾检测与双尾检测
单尾检测就是判断是否高于或是否低于,
对于均值的单尾检测
如果考虑样本低于总体,那么原假设就是大于等于总体,新假设H1是低于总体
因为左加右减,所以当分布发生变化,均值越大,减的数越大,左加右减,相当于在原基础上又减了数,所以就越会在标准分布中向右偏;均值越小,减的数越小,在原来基础上加了数,就会越往左偏。
也就是标准分布中,也能体现出一定的原来均值的位置,先根据相应的均值定义出一个标准的分布,然后向右偏的,都是均值偏大的样本数据;向左偏的,都是均值偏小的样本数据。所以极左极右发生时,就意味着当前定义的均值所产生的标准分布失去了参考意义,即数据分布发生了变化,在单尾检测中,如果偏小,就是分布在左侧的1-α分位点;如果偏大,就是分布在右侧的α分位点
对于双尾检测
就不考虑到底是偏大还是偏小,只是考虑到底还是不是原分布,在单尾检测中,只检测一端,所以允许分布偏离原分布,向相反方向偏离都可以,但就是不允许向指定的检测方向偏移,所以对某个方向的检测更加严格;
而双尾检测就不关心这个,它只关心到底还是不是原分布,所以极左与极右都不允许发生,相应的显著性水平也就不止分散在一端,而是两端各分一半,这也就意味着相比单尾检测的一端不那么严格,因为单尾检测是全部的α都分布在一侧,而这里只分布着一半。、
所以双尾检测的重点就放在了,到底”是不是“的问题上
即两种假设方式分别为
与
即单尾检验用不等式,双尾检验用等式
单变量检验
单变量检测中,重点在于均值与方差是否等于某个值,对于均值而言,意义比较明显,就是和以往相比检测是否合格,是否认为是不是某个值;对于方差的单变量检验,意义不那么明显,因为方差难以直观的用数字去感知与衡量,基于比较才有直观的含义,即波动是偏大还是偏小,而由于是单变量,所以比较的值一般就是基于之前的历史值或经验值。
均值检验采用正态与t,方差采用卡方。
对均值进行检验,就是正态分布;根据方差是否已知,采用不同的分布,但都是正态型的。
如果方差已知,取几个样就有多少复杂度;如果未知,就要用计算出的方差,自由度就要失去一个,退化为t分布
对方差进行检验,就是要卡方分布;
如果均值已知,那就是取样个数的自由度;不然,就要失去一个自由度。
在假设过程中,所使用的方差都是假设的那个值。不过就是均值已知时就用均值,均值未知时就用计算出的均方差;
用了均方差,就会丢一个自由度。
在均值检验中,均方差用于弥补未知方差的信息;在方差检验中,均方差用于弥补未知均值的信息。方式都是乘(n-1)后,分子分母消除掉的标准差,凑成的那个自由度为n-1的卡方分布实现。
在均值检验中,用于形成n-1自由度的卡方分布,从而形成n-1的t分布,进行检验
在方差检验中,就是直接形成n-1自由度的卡方分布,进行检验
在均方差中,用的就不是总体分布的均值,而是样本的均值,所以自由度才会-1,所以在方差均值未知时,就可以规避掉未知的总体均值信息;在均值检验中,方差未知时,如果方差已知,直接构造标准正态就可以进行检验,因为检验均值,相对于假设均值已知,总体方差又已知,所以可以直接求解;如果方差未知,就不能直接转为标准正态分布。而t分布,由于是标准正态分布除以卡方分布,所以在方差未知时可以规避掉未知的方差信息,从而构造出最大可能利用已知信息的t分布
方差检验,就是假设方差是已知的;均值检验,就是假设均值是已知的
对于标准正态分布,就是总体的方差,均值都已知。
对于T分布,可以在总体方差未知时发挥作用
对于卡方分布,若为n自由度,则总体的方差,均值都已知
若为n-1自由度,那么总体均值未知,通过除以已知的方差,将均方差转化为自由度为n-1的卡方分布
双变量
双变量的检测,重点在于检测两个变量的均值是不是相等,方差是不是相等,重点在于是否相等上,而不是是多少的问题上
所以在假设中,假设都是等于还是不等于。所以在均值检测当中,要构造第一个的均值减去第二个的均值的统计量;在方差检验中,是构造作比的F分布
均值检验中,
用正态分布与t分布
在这一部分中,有一特殊情况就是n1=n2,即两个体系中取的样本数量相等,那么就可以化为配对,一组一组,即合并成新的统计量,如果方差已知,就是正态,否则,就用t统计量。即所谓配对问题。
一般是取样数量不相等,即一个取得多,一个取得少,那就是整成各自的均值与方差进行计算
方差检验中,
用F分布
均值已知时,那么两个变量各自可以构造出各自自由度的卡方分布,相比,就是F(m,n)的F分布
均值未知时,就需要通过均方差,构造出各自自由度-1的卡方分布,相比,即m-1,n-1的F分布
F分布只能用来检测两个变量的方差是不是相等,即数据波动程度是否一致,而判断不出来方差的具体数值。在F分布中,两个卡方分布相比,都把方差消掉了,而这个消掉过程,就是基于他们方差相等,如果不相等就不能消掉,所以如果不符合F分布的大概率事件,就不能认为他们方差相等。
两类错误
显著性水平的含义就是原假设成立时,放弃原假设,取H1的概率,即第一类错误,弃真错误的概率;
另一种错误是说,原假设错误,但是选择了原假设,即取为假设。
错误就是错误,对于每种具体情况而言,第一类错误与第二类错误所标注的实际意义的情况不会同时发生,但当”弃真“时,就意味着”取伪“
他们的本质区别就在于,原假设是不是正确的假设,如果原假设正确,那么判断错误时,就是放弃原假设H0,即弃真错误;如果原假设错误,那么判断错误时,就是选择原假设,即取伪错误
所以,第一类第二类错误只是对同一种错误的不同描述方式,他们的概率判断没有意义,因为不可能针对同一种假设同时发生,因为每次只会发生一种错误,在唯一确定原假设的情况下,第一第二类错误并不是对错误整体集合的一个划分,而是对错误集合的命名方式,依据原假设的不同而发生变化。
第一类错误的概率计算,就是原假设为真,但是弃真,即统计量最终落在了拒绝域里;
第二类错误的概率计算,就是原假设为假,但是取伪,即统计量最终没落在拒绝域里。
此外,需要注意,标准的分布是基于正确的假设上的,错误的假设不被认为构成标准分布,即对应的统计量,实际上在错误的假设上并不服从标准分布,而只有在正确的参数下才是标准的分布
故,在第一类错误,弃真中,标准的定义是H0,即原假设;在第二类错误,取伪中,标准的定义是备选H1,即备选假设,原假设不被认为构成标准分布。
通过两类错误增大样本容量
一般思路是控制第一类错误的概率,依据第二类错误的概率,来确定样本容量的要求
即在原假设的基础上,可以知道某个原始量的分布范围,在接受的情况下,即接受原假设会对应某个量的一个区间,此时假设原假设是不对的,再假设实际参数是某个数,希望第二类错误的概率不要超过某个期望的值,也就是说,此时的分布与分布公式就变化了,但依据原来的错误假设,已经算出来了一个分界点,即取伪区间,那么在这个正确的分布下,其在标准分布里,占据的比例不应该超过所期望的值,所以就对应可求出所需的样本量的要求
因为取伪,就是因为原假设是错误的,但是就是发生了,取了它
实际上不是的话,那么它发生的概率应该是小的,第二类错误就是所谓瞎猫碰上死耗子。
?为什么是要在原假设里求出接受域的范围,而不是在正确的假设里?
两个参数,要先取伪,首先是因为不知道它是“伪”,其次是要取它,即在不知情的情况下,不发生“第一类错误”,这里就用到了第一类错误的参数,α,要让统计量落在它所界定的接受域内,才会接受原假设,才会取伪;第二个参数,发生的概率,就是在一种极端假设上,对于原假设的怀疑,即如果原假设不是真的,又有多大把握避免这一错误
检测方式
在置信区间中,一般是左端占α/2,右端占α/2,中间占1-α。即无论那种分布,样本总是围绕在均值的左右,极左与极右都是极端的小概率事件。假设检验就是为了检测这样的小概率事件是否发生。
显著性水平越大,左右不被允许的区间越大,也就是弃真错误率越大,即原假设正确时,判断错误的概率,也就是对样本的分布更加苛刻,越要求它紧紧分布在均值两侧;反之,则越宽松。
步骤就是先依据已有的信息,选定合适的统计量与分布方式,那么就可以化为相应标准统计量的分布,注意,是标准统计量的分布,这个统计量综合了一切的信息(并非单一样本,某个样本的信息,而是样本总体的一个信息,所以不存在多个这样的统计量,每次取样都只会综合出一个这样的统计量),应该满足相应的条件,即最终应该落在标准分布均值左右的两侧,即置信区间内。
而依据显著性水平,就可以得到左右两侧小概率事件的分布的概率,也可以说是分界线,也就是要求综合了一切信息的统计量应当在拒绝域之外,置信区间内,这要才符合大概率,大数定律,否则就是小概率事件的发生(即在当下这个假设下,由多次取样出的一个样本总体情况在当下假设中出现了分布异常,即发生概率很小的小概率事件)
显著性水平用来确定拒绝域;
已知条件用来确定统计量是什么,选取什么样的统计量进行检验;
具体数值与查表用来确定选定的统计量到底是多少;
最后比较,判断到底是接受还是拒绝原假设