数量分析方法(六)
- 假设检验
- 假设检验的步骤
- 假设检验的基本思想与步骤
- 估计与假设检验的区别
- 假设检验的基本思想
- 假设检验的步骤
- 假设检验的相关概念
- 原假设与备择假设
- 检验统计量及其分布
- 显著性水平
- 双尾检验与单尾检验
- p值
- 第一类错误与第二类错误
- 统计显著与经济显著
- 正态总体的假设检验
- 正态总体均值的检验
- 单个正态总体均值的检验
- 两个正态总体均值的检验
- 正态总体方差的检验
- 单个正态总体方差的检验
- 两个正态总体方差的检验
- 相关系数的假设检验
- 参数检验与非参数检验
假设检验
假设检验的步骤
假设检验的基本思想与步骤
先从一个真实的故事出发,来体会假设检验的基本思想与步骤。
这个故事是关于假设检验如何被伟大的统计学家费舍尔提出的。在费舍尔就职于剑桥大学时,有个每周二下午喝下午茶的习惯。参与下午茶的不仅有数学家,还包括物理学家、化学家等。一个周二下午,一位女士参与了进来。这位女士提出了这样一个观点:一杯茶叶中,即便奶与茶的比例相同,先加茶还是先加奶,味道是完全不同的。这位女士的观点遭到诸位科学家的反对,因为根据科学理论,只要配比相同且充分溶解,味道不应有所不同。于是,科学家们有了这样一个原假设:该女士并不具备区分奶茶与茶奶的能力。
为了验证这个假设,科学家们就泡了第一杯茶,让这位女士来判断这杯茶是先加了奶还是先加了茶,结果这位女士答对了。然而,这一次试验并不能推翻原假设,因为及时靠蒙,该女士也有50%的概率猜对。于是,那个下午,科学家们让这位女士一共喝了八杯茶,该女士全部答对。八次全部蒙对的概率仅有0.58,无疑是个小概率事件。假设检验的基本思想就是小概率事件不会发生,当小概率事件发生时,我们更倾向于认为原假设是错误的。因此,科学家们拒绝了原假设,转而认为该女士具备区分奶茶与茶奶的能力。
这个下午过后,费舍尔回去就此事撰写了《科学实验设计》一书。该书由此事出发,探讨如何设计实验来判断女士的品茶能力是最科学的。该书在统计学历史上具有重要意义。不难发现,如果全部靠蒙,女士猜对先加奶还是先加茶的概率是服从二项分布的。于是可以根据实现给定的小概率α,来判断女士猜对的次数是否属于小概率。但是,假设检验的方法是有可能犯错误的,有可能女士没有这个能力,确实是蒙对了8次。
假设所有中国人的平均身高服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),如何检验“中国人的平均身高不高于160厘米”的声称是否成立?
估计与假设检验的区别
假设检验与参数估计的思想是不同的。参数估计是指利用抽样数据对总体参数进行直接估计,并得出总体参数的具体估计值;而假设检验则分为假设与检验两步,先形成一个对总体参数的假设,然后再利用抽样数据判断这个假设是否成立。
例如,参数估计是通过抽样调查部分中国人身高,计算出样本均值 X ˉ \bar X Xˉ,并以此估计全体中国人平均身高 μ \mu μ;而假设检验则是先形成一个命题,如“中国人平均身高 μ \mu μ不高于160厘米”,然后通过抽样数据判断该命题是否成立。
假设检验的基本思想
如何检验上述命题是否成立呢?一个“笨”方法就是把所有中国人身高都量一遍,然后计算平均值,就可以准确判断命题是否成立了。显而易见,这个方法的成本太高,还是要运用抽样数据来判断。假设检验的基本思想是“小概率事件不会发生”。这是什么意思呢?假定抽样调查了1万个中国人,计算出来平均身高为180厘米。根据这组抽样数据,基本可以判断“中国人平均身高不高于160厘米”的命题是“错误”的。因为,如果中国人的平均身高真的低于160cm,抽样1万人的平均身高是180cm就应该是个小概率事件,而假设检验的基本思想是“小概率时间不会发生”,因此只能假设本身错了。
在上述过程中,我们假设抽样样本均值为180cm,这可以很显然地判断出命题不成立。然而,如果抽样样本的均值是161cm时,结论就没有那么显然了。161cm仅仅搞出命题中假设数据1cm,这1cm的差距完全有可能是抽样误差所导致的。在类似情况下,如何判断命题是否成立就必须利用到概率分布与显著性等其他相关信息。
假设检验的步骤
- 建立需检验的假设。
- 选择合适的检验统计量,并确定其服从的概率分布。
- 选择判断假设是否成立的显著性水平。
- 给出决策准则,即拒绝域的形式。
- 收集数据,并计算检验统计量。
- 做出判断。
- 根据判断进行投资决策。
假设检验的相关概念
原假设与备择假设
假设检验的第一步就是建立假设。通常将被检验的假设称为原假设,记为
H
0
H_0
H0;当原假设
H
0
H_0
H0被拒绝时而接受的假设称为备择假设,记为
H
α
H_\alpha
Hα或
H
1
H_1
H1。原假设与备择假设通常成对出现。上例中,原假设与备择假设可以用如下方式表示:
H
0
:
μ
≤
160
v
s
H
α
:
μ
>
160
H_0:\mu\le160 \;vs \; H_\alpha:\mu \gt160
H0:μ≤160vsHα:μ>160
假设检验一般有两种结果:第一种是原假设“不正确”,称为拒绝原假设;第二种是原假设“正确”,称为无法拒绝原假设。
检验统计量及其分布
由抽样样本检验原假设通常是通过一个统计量来完成的,这个统计量称为检验统计量。检验统计量通常服从某个概率分布,于是可以通过计算检验统计量是否超过某一关键值来判断是否拒绝原假设。检验统计量常以下式的形式出现:
检验统计量
=
样本统计量
−
H
α
成立时的总体参数
样本统计量的标准误
检验统计量=\frac {样本统计量-H_\alpha成立时的总体参数} {样本统计量的标准误}
检验统计量=样本统计量的标准误样本统计量−Hα成立时的总体参数
如上例中,检验统计量就可以通过样本均值
X
ˉ
\bar X
Xˉ来构建。由中心极限定理,
X
ˉ
\bar X
Xˉ服从正态分布
N
(
μ
,
σ
2
/
n
)
N(\mu,\sigma^2/n)
N(μ,σ2/n),按照上式标准化后就服从标准正态分布。
显著性水平
有了检验统计量后,结合显著性水平就可以得到关键值及拒绝域。关键值是判断是否拒绝原假设的临界值。拒绝域是由原假设被拒绝的检验统计量所组成的区域。
在上例中,假设显著性水平为5%, X ˉ \bar X Xˉ标准化后服从标准正态分布,那么关键值就是1.65。
双尾检验与单尾检验
假设检验通常有三种基本形式:
- H 0 : θ = θ 0 v s H α : θ ≠ θ 0 H_0:\theta=\theta_0 \; vs H_\alpha:\theta \not = \theta_0 H0:θ=θ0vsHα:θ=θ0
- H 0 : θ ≤ θ 0 v s H α : θ > θ 0 H_0:\theta \le \theta_0 \; vs H_\alpha:\theta \gt \theta_0 H0:θ≤θ0vsHα:θ>θ0
- H 0 : θ ≥ θ 0 v s H α : θ < θ 0 H_0:\theta \ge \theta_0 \; vs H_\alpha:\theta \lt \theta_0 H0:θ≥θ0vsHα:θ<θ0
其中, θ \theta θ表示总体参数, θ 0 \theta_0 θ0表示当 H 0 H_0 H0成立时总体参数的取值。
第一种形式称为双尾检验,第二种与第三种形式称为单尾检验。无论是单尾还是双尾检验所采用的检验统计量都是相同的,差别主要体现在拒绝域上。因此,区分单尾检验与双尾检验对确定关键值以及拒绝域至关重要。
p值
除了比较检验统计量与关键值,另一种判断是否拒绝原假设的方法就是p值。p值指拒绝原假设的最小显著性水平。根据p值定义,在给定显著性水平 α \alpha α的情况下,如果 p ≤ α p \le \alpha p≤α,则拒绝原假设;如果 p > α p \gt \alpha p>α则无法拒绝原假设。
例如,在下图中,要进行显著性水平为5%的双尾检验。已知p值=2.14%,意味着左侧(右侧)对应的尾部面积为1.07%,即统计量的绝对值大于 z 2.5 % z_{2.5\%} z2.5%,应该要拒绝原假设。当然,也可以直接利用p值进行判断,p值=2.14%<5%,因此应该要拒绝原假设。
第一类错误与第二类错误
虽然假设检验的基本思想是“小概率事件不会发生”,但在真实世界中,小概率事件当然是有可能发生的。因而,在判断假设是否成立时就有可能犯错误。检验时可能犯的错误可归为两类:一是当原假设 H 0 H_0 H0真实成立时,却拒绝了原假设,称为第一类错误,也称为“拒真概率”;二是当原假设 H 0 H_0 H0不成立时,却接受了原假设,称为第二类错误,也称为“受伪概率”。
决策 | H 0 H_0 H0正确 | H 0 H_0 H0错误 |
---|---|---|
没有拒绝 H 0 H_0 H0 | 正确决策 | 第二类错误(犯错概率= β \beta β) |
拒绝 H 0 H_0 H0接受 H α H_\alpha Hα | 第一类错误(犯错概率= α \alpha α) | 正确决策(Power of test:概率 1 − β 1-\beta 1−β) |
通常将犯第一类错误的概率记为 α \alpha α,这里的 α \alpha α实际上就是假设检验中的显著性水平;犯第二类错误的概率记为 β \beta β。此外,当原假设 H 0 H_0 H0正确时接受原假设,当原假设 H 0 H_0 H0错误时拒绝原假设,都表明决策者做出了正确的抉择没有犯错。特别地,将决策者不犯第二类错误的概率称为统计检验力,记为 1 − β 1-\beta 1−β。
统计显著与经济显著
在利用假设检验进行金融分析时,应当注意区别统计显著与经济显著。例如,许多投资策略在假设检验上能够获得正收益,然而在扣除交易费用、税收并考虑率风险后就无法经济显著获得正收益。
正态总体的假设检验
在实务中,对总体均值或方差的检验非常常见。假设总体服从正态分布,下文将依次介绍单个正态总体或两个正态总体下,分别应使用什么类型的检验统计量去检验有关均值、方差、以及相关系数的假设。
正态总体均值的检验
单个正态总体均值的检验
单个总体均值的检验,即将总体均值与某一常数做比较,原假设与备择假设如下:
H
0
:
μ
=
μ
0
v
s
H
α
:
μ
≠
μ
0
H
0
:
μ
≤
μ
0
v
s
H
α
:
μ
>
μ
0
H
0
:
μ
≥
μ
0
v
s
H
α
:
μ
<
μ
0
H_0:\mu=\mu_0 \; vs H_\alpha:\mu \not = \mu_0\\ H_0:\mu \le \mu_0 \; vs H_\alpha:\mu \gt \mu_0\\ H_0:\mu \ge \mu_0 \; vs H_\alpha:\mu \lt \mu_0
H0:μ=μ0vsHα:μ=μ0H0:μ≤μ0vsHα:μ>μ0H0:μ≥μ0vsHα:μ<μ0
在上篇博文中,已经指出如下几点:
- 当总体方差已知时,检验单个总体均值采用z统计量。
- 当总体方差未知时,用样本方差代替总体方差,采用t统计量。
- 当总体方差未知,但样本容量足够大时也可以采用z统计量。
上述三种情形下,z统计量与t统计量的公式如下:
z
=
X
ˉ
−
μ
0
σ
n
z=\frac {\bar X - \mu_0} {\frac {\sigma} {\sqrt n}}
z=nσXˉ−μ0
t
n
−
1
=
X
ˉ
−
μ
0
s
n
t_{n-1}=\frac {\bar X-\mu_0} {\frac {s} {\sqrt n}}
tn−1=nsXˉ−μ0
z
=
X
ˉ
−
μ
0
s
n
z=\frac {\bar X - \mu_0} {\frac {s} {\sqrt n}}
z=nsXˉ−μ0
两个正态总体均值的检验
要比较两个正态总体均值时,可以分为两种情形讨论。
-
两个总体相互独立
此情形下,原假设与备择假设如下:
H 0 : μ 1 − μ 2 = d 0 a n d H α : μ 1 − μ 2 ≠ d 0 H 0 : μ 1 − μ 2 ≥ d 0 a n d H α : μ 1 − μ 2 < d 0 H 0 : μ 1 − μ 2 ≤ d 0 a n d H α : μ 1 − μ 2 > d 0 H_0:\mu_1-\mu_2=d_0 \; and \; H_\alpha:\mu_1-\mu_2 \not = d_0\\ H_0:\mu_1-\mu_2 \ge d_0 \; and \; H_\alpha:\mu_1-\mu_2 \lt d_0\\ H_0:\mu_1-\mu_2 \le d_0 \; and \; H_\alpha:\mu_1-\mu_2 \gt d_0 H0:μ1−μ2=d0andHα:μ1−μ2=d0H0:μ1−μ2≥d0andHα:μ1−μ2<d0H0:μ1−μ2≤d0andHα:μ1−μ2>d0
其中, μ 1 \mu_1 μ1表示第一个总体的均值; μ 2 \mu_2 μ2表示第二个总体的均值。在选择检验统计量时,又要细分为两个情形。
当两个总体的方差未知但假定相等时( σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22),采用t统计量,公示如下:
t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s p 2 n 1 + s p 2 n 2 ) 1 / 2 w h e r e s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_p^2} {n_1} + \frac {s_p^2} {n_2})^{1/2}} \; where \; s_p^2=\frac {(n_1-1)s_1^2+(n_2-1)s_2^2} {n_1+n_2-2} t=(n1sp2+n2sp2)1/2(Xˉ1−Xˉ2)−(μ1−μ2)wheresp2=n1+n2−2(n1−1)s12+(n2−1)s22
其中,t统计量的自由度为 n 1 + n 2 − 2 n_1+n_2-2 n1+n2−2。
当两个总体的方差未知但假定不相等时( σ 1 2 ≠ σ 2 2 \sigma_1^2\not=\sigma_2^2 σ12=σ22),采用t统计量,公示如下:
t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s 1 2 n 1 + s 2 2 n 2 ) 1 / 2 w h e r e d f = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 + ( s 2 2 / n 2 ) 2 n 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_1^2} {n_1} + \frac {s_2^2} {n_2})^{1/2}} \; where \; df=\frac {(\frac {s_1^2} {n_1}+\frac {s_2^2} {n_2})^2} {\frac {(s_1^2/n_1)^2} {n_1}+\frac {(s_2^2/n_2)^2} {n_2}} t=(n1s12+n2s22)1/2(Xˉ1−Xˉ2)−(μ1−μ2)wheredf=n1(s12/n1)2+n2(s22/n2)2(n1s12+n2s22)2
其中,t统计量的自由度df如上式所述。 -
两个总体相互不独立
当两个总体相互不独立时,意味着两个总体的样本存在某种关联。此时做均值检验时必须采取成对检验,原假设与备择假设如下:
H 0 : μ d = μ 0 v s H α : μ d ≠ μ 0 H 0 : μ d ≤ μ 0 v s H α : μ d > μ 0 H 0 : μ d ≥ μ 0 v s H α : μ d < μ 0 H_0:\mu_d=\mu_0 \; vs \; H_\alpha:\mu_d \not = \mu_0\\ H_0:\mu_d \le \mu_0 \; vs \; H_\alpha:\mu_d \gt \mu_0\\ H_0:\mu_d \ge \mu_0 \; vs \; H_\alpha:\mu_d \lt \mu_0 H0:μd=μ0vsHα:μd=μ0H0:μd≤μ0vsHα:μd>μ0H0:μd≥μ0vsHα:μd<μ0
其中, μ d = μ 1 − μ 2 \mu_d=\mu_1-\mu_2 μd=μ1−μ2,表示两个总体均值之差, μ 0 \mu_0 μ0通常为0。
此时,应该采取t统计量,公示如下:
t = d ˉ − μ d 0 s d ˉ t=\frac {\bar d-\mu_{d_0}} {s_{\bar d}} t=sdˉdˉ−μd0
其中, d ˉ \bar d dˉ表示样本均值差; s d ˉ s_{\bar d} sdˉ表示 d ˉ \bar d dˉ的标准误;t统计量自由度为n-1。
正态总体方差的检验
单个正态总体方差的检验
检验单个总体方差的原假设与备择假设如下:
H
0
:
σ
=
σ
0
a
n
d
H
α
:
σ
≠
σ
0
H
0
:
σ
≥
σ
0
a
n
d
H
α
:
σ
<
σ
0
H
0
:
σ
≤
σ
0
a
n
d
H
α
:
σ
>
σ
0
H_0:\sigma=\sigma_0 \; and \; H_\alpha:\sigma \not = \sigma_0\\ H_0:\sigma \ge \sigma_0 \; and \; H_\alpha:\sigma \lt \sigma_0\\ H_0:\sigma \le \sigma_0 \; and \; H_\alpha:\sigma \gt \sigma_0
H0:σ=σ0andHα:σ=σ0H0:σ≥σ0andHα:σ<σ0H0:σ≤σ0andHα:σ>σ0
在此情形下,应采用卡方统计量,其公式如下:
χ
n
−
1
2
=
(
n
−
1
)
s
2
σ
0
2
\chi_{n-1}^2=\frac {(n-1)s^2} {\sigma_0^2}
χn−12=σ02(n−1)s2
其中,
χ
n
−
1
2
\chi_{n-1}^2
χn−12表示卡方统计量;自由度为n-1。
两个正态总体方差的检验
当检验两个不同总体方差是否相等时,原假设与备择假设为:
H
0
:
σ
1
=
σ
2
a
n
d
H
α
:
σ
1
≠
σ
2
H_0:\sigma_1=\sigma_2 \; and \; H_\alpha:\sigma_1 \not = \sigma_2
H0:σ1=σ2andHα:σ1=σ2
此情形下要使用F分布,其公式如下:
F
=
s
1
2
s
2
2
w
i
t
h
d
f
o
f
(
n
1
−
1
,
n
2
−
1
)
F=\frac {s_1^2} {s_2^2} \; with \; df \; of \; (n_1-1,n_2-1)
F=s22s12withdfof(n1−1,n2−1)
其中,F分布自由度为
d
f
df
df;
n
1
n_1
n1表示来自第一个总体抽样的样本容量;
n
2
n_2
n2表示来自第二个总体抽样的样本容量;
s
1
2
s_1^2
s12表示来自第一个总体抽样的样本方差;
s
2
2
s_2^2
s22表示来自第二个总体抽样的样本方差。一般情况下,将较大的样本方差放在分子上,即
s
1
2
>
s
2
2
s_1^2>s_2^2
s12>s22。
均值检验:
不同情形 | 检验统计量 | 服从分布 |
---|---|---|
单个正态总体,方差已知 | z = X ˉ − μ 0 σ n z=\frac {\bar X - \mu_0} {\frac {\sigma} {\sqrt n}} z=nσXˉ−μ0 | N ( 0 , 1 ) N(0,1) N(0,1) |
单个正态总体,方差未知 | t n − 1 = X ˉ − μ 0 s n t_{n-1}=\frac {\bar X-\mu_0} {\frac {s} {\sqrt n}} tn−1=nsXˉ−μ0 | t ( n − 1 ) t(n-1) t(n−1) |
两个正态总体,独立样本,方差未知但相等 | t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s p 2 n 1 + s p 2 n 2 ) 1 / 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_p^2} {n_1} + \frac {s_p^2} {n_2})^{1/2}} t=(n1sp2+n2sp2)1/2(Xˉ1−Xˉ2)−(μ1−μ2) | t ( n 1 + n 2 − 2 ) t(n_1+n_2-2) t(n1+n2−2) |
两个正态总体,独立样本,方差未知但不相等 | t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s 1 2 n 1 + s 2 2 n 2 ) 1 / 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_1^2} {n_1} + \frac {s_2^2} {n_2})^{1/2}} t=(n1s12+n2s22)1/2(Xˉ1−Xˉ2)−(μ1−μ2) | t ( ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 + ( s 2 2 / n 2 ) 2 n 2 ) t(\frac {(\frac {s_1^2} {n_1}+\frac {s_2^2} {n_2})^2} {\frac {(s_1^2/n_1)^2} {n_1}+\frac {(s_2^2/n_2)^2} {n_2}}) t(n1(s12/n1)2+n2(s22/n2)2(n1s12+n2s22)2) |
两个正态总体,不独立样本,成对检验 | t = d ˉ − μ d 0 s d ˉ t=\frac {\bar d-\mu_{d_0}} {s_{\bar d}} t=sdˉdˉ−μd0 | t ( n − 1 ) t(n-1) t(n−1) |
方差检验:
不同情形 | 检验统计量 | 服从分布 |
---|---|---|
单个正态总体 | χ n − 1 2 = ( n − 1 ) s 2 σ 0 2 \chi_{n-1}^2=\frac {(n-1)s^2} {\sigma_0^2} χn−12=σ02(n−1)s2 | χ n − 1 2 \chi_{n-1}^2 χn−12 |
两个正态总体 | F = s 1 2 s 2 2 F=\frac {s_1^2} {s_2^2} F=s22s12 | F ( n 1 − 1 , n 2 − 1 ) F(n_1-1,n_2-1) F(n1−1,n2−1) |
相关系数的假设检验
检验相关系数的原假设与备择假设如下:
原假设
H
0
:
ρ
=
0
备择假设
H
α
:
ρ
≠
0
原假设 \; H_0:\rho=0\\ 备择假设 \; H_\alpha:\rho \not = 0
原假设H0:ρ=0备择假设Hα:ρ=0
相关系数检验选取的统计量服从t分布,自由度为n-2,其公式为:
t
=
r
n
−
2
1
−
r
2
t=\frac {r\sqrt{n-2}} {\sqrt {1-r^2}}
t=1−r2rn−2
其中,r为样本相关系数;n为样本容量;n-2为自由度。
参数检验与非参数检验
按照假设的对象,假设检验可以分为参数检验与非参数检验两种。到目前为止,介绍的检验都是参数检验,如z检验、t检验、F检验等。
参数检验的重要特征有以下两项。
- 参数检验都与总体参数相关。
- 参数检验一般事先假定总体服从某个特定分布。
然而,在有些情形下,关注的不是总体分布的参数,而是基于总体分布的形式建立假设检验。这就需要用到非参数检验,非参数检验一般适用于以下三种情形。
- 总体分布未知,或样本数据并不满足服从某个特定分布。
- 按照等级分类的数据。
- 假设不涉及总体参数。