一、如何设置H0和H1假设
谁做H0,谁做H1,在统计学的假设检验里是有约定俗成的规定的。即:status quo(默认/现状)是H0,而新观点或试图challenge现状的是H1。H1也叫research hypothesis,所以我们做research、发文章就是要reject H0,而希望H1接受。
步骤和原则
1. 明确研究问题:
首先,需要明确你想要回答的研究问题或验证的假设。
2. 设定原假设(H0):
H0 一般是希望被检验和拒绝的假设,因为它通常代表现状或默认状态。
3. 设定备择假设(H1):
H1 是我们希望找到证据支持的假设。
二、 如何理解显著性水平和p值之间的关系
p 值的定义
p 值(p-value)是一个概率值,用于衡量在原假设(H0)为真时,观测数据(或比观测数据更极端的数据)出现的概率。它反映了数据与原假设的一致性。
理解 p 值
假设我们进行一个假设检验,下面是详细步骤和解释:
1. 设定假设:
- 原假设(H0):没有效果或没有差异。例如,假设一个新药对血压没有影响。
- 备择假设(H1):存在效果或存在差异。例如,假设新药对血压有影响。
2. 选择显著性水平( α \alpha α):
- 通常设定为 0.05,这意味着我们允许有 5% 的概率犯第一类错误,即错误地拒绝原假设。
3. 收集数据:
- 例如,我们收集了一组使用新药和一组使用安慰剂的患者的血压数据。
4. 计算检验统计量和 p 值:
- 使用适当的统计方法(例如 t 检验),计算出一个检验统计量(例如 t 值),并基于此计算出 p 值。
p 值的含义
- p 值是 0.03:这表示在原假设为真(即新药对血压没有影响)的情况下,获得与实际观测数据一样极端(或更极端)的结果的概率是 0.03(即 3%)。
- 换句话说,如果新药确实对血压没有影响,那么我们观测到这种数据的概率是 3%。
这么小的概率事件发生了,那我们是不是应该质疑原假设,认为原假设不正确。
- 换句话说,如果新药确实对血压没有影响,那么我们观测到这种数据的概率是 3%。
决策依据
- p 值 ≤ α(例如 0.03 ≤ 0.05):我们拒绝原假设 H0,认为数据提供了足够的证据支持备择假设 H1。也就是说,我们认为新药对血压有显著影响。
- p 值 > α(例如 0.07 > 0.05):我们不能拒绝原假设 H0,认为数据没有提供足够的证据支持备择假设 H1。也就是说,我们认为新药对血压没有显著影响。
举例说明
假设我们研究新药对降低血压的影响,进行了独立样本 t 检验,得到以下结果:
-
原假设 H0:新药对血压没有影响(新药组和对照组的平均血压相同)。
-
备择假设 H1:新药对血压有影响(新药组和对照组的平均血压不同)。
-
显著性水平 α:0.05。
-
计算得到的 p 值:0.03。
解释:
- p 值 0.03 表示在新药对血压没有影响的情况下,获得与实际观测数据一样极端或更极端结果的概率是 3%。
- 由于 p 值(0.03)小于显著性水平 αα(0.05),我们拒绝原假设 H0,认为新药对血压有显著影响。
直观理解
可以把 p 值看作是对原假设 H0 的质疑程度:
- 小 p 值:数据与原假设 H0 的一致性很低,因此我们更倾向于认为原假设不成立(拒绝原假设)。
- 大 p 值:数据与原假设 H0 的一致性较高,因此我们没有足够的理由拒绝原假设。
总结
p 值衡量了在原假设为真时,观测到当前数据的概率。通过比较 p 值和预设的显著性水平 αα,我们可以判断是否拒绝原假设,从而得出是否存在显著差异的结论。
三、如何选择合适统计量
选择合适的统计量(statistic)进行假设检验是统计分析中的关键步骤,具体的选择取决于数据的性质、样本量、研究问题以及假设检验的类型。下面是选择合适统计量的一些指导原则和常见的统计量。
指导原则
1. 数据类型:
- 定量数据(连续数据):如测量值、体重、温度等。
- 定性数据(分类数据):如类别、性别、品牌等。
2. 分布类型:
- 正态分布:数据服从正态分布。
- 非正态分布:数据不服从正态分布。
3. 样本量:
- 大样本: 通常指样本量大于 30。
- 小样本: 通常指样本量小于 30。
4. 假设检验类型:
- 均值检验:比较两个或多个组的均值。
- 比例检验:比较两个或多个组的比例。
- 相关性检验:检验两个变量之间的关系。
- 方差分析:比较多个组的方差。
常见统计量
1. 均值检验:
- 单样本 t 检验(One-Sample t-Test):用于检验单个样本均值是否与已知值有显著差异。适用于小样本且数据服从正态分布。
- 独立样本 t 检验(Independent Samples t-Test):用于检验两个独立样本均值是否有显著差异。适用于小样本且数据服从正态分布。
- 配对样本 t 检验(Paired Samples t-Test):用于检验两个相关样本均值是否有显著差异。适用于小样本且数据服从正态分布。
- Z 检验(Z-Test):用于检验两个独立样本均值是否有显著差异,适用于大样本。
2. 比例检验:
- 卡方检验(Chi-Square Test):用于检验分类数据的比例是否有显著差异。适用于大样本。
- Z 检验(Z-Test):用于检验两个比例是否有显著差异,适用于大样本。
3. 相关性检验:
- 皮尔逊相关系数(Pearson Correlation Coefficient):用于检验两个连续变量之间的线性关系,适用于数据服从正态分布。
- 斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient):用于检验两个连续变量或顺序变量之间的关系,不要求数据服从正态分布。
4. 方差分析(ANOVA):
- 单因素方差分析(One-Way ANOVA):用于比较多个组的均值是否有显著差异。
- 双因素方差分析(Two-Way ANOVA):用于比较两个因素对多个组的均值的影响。
5. 非参数检验:
- 曼-惠特尼 U 检验(Mann-Whitney U Test):用于检验两个独立样本的中位数是否有显著差异,不要求数据服从正态分布。
- 威尔科克森符号秩检验(Wilcoxon Signed-Rank Test):用于检验两个相关样本的中位数是否有显著差异,不要求数据服从正态分布。
- 克鲁斯卡尔-沃利斯检验(Kruskal-Wallis Test):用于比较三个或更多独立样本的中位数是否有显著差异,不要求数据服从正态分布。
选择步骤
1. 确定研究问题: 明确需要检验的假设类型(如均值、比例、相关性等)。
2. 数据类型和分布: 根据数据类型和分布选择合适的统计量。
3. 样本量: 根据样本量选择合适的检验方法(如 t 检验或 Z 检验)。
4. 检验假设: 根据假设检验的类型(如单尾或双尾检验)选择适当的统计量。
实例
假设我们要比较两组学生的考试成绩是否有显著差异:
- 数据类型: 连续数据(考试成绩)。
- 分布类型: 假设数据服从正态分布。
- 样本量: 两组学生样本量都小于 30。
根据这些信息,我们可以选择 独立样本 t 检验 来比较两组学生的考试成绩是否有显著差异。
通过以上步骤和指导原则,可以有效选择合适的统计量来进行假设检验,从而得出可靠的结论。
四、统计量和p值有什么关系
统计量(test statistic)和 p 值之间的关系是非常密切的。统计量是从样本数据计算得出的一个值,用于评估数据与原假设(H0)的偏离程度。p 值则是基于统计量计算出来的概率值,用于衡量在原假设为真的情况下,观测到当前统计量或更极端的统计量的概率。
关系总结
-
统计量的计算:
- 统计量是从样本数据计算得出的一个值,具体计算方法取决于所使用的假设检验类型。
- 例如,对于 t 检验,统计量是 t 值;对于卡方检验,统计量是 (\chi^2) 值;对于 z 检验,统计量是 z 值。
-
统计量与分布:
- 每种假设检验都有对应的统计分布,如 t 分布、正态分布、卡方分布等。
- 统计量的位置在对应的统计分布上决定了 p 值。
-
p 值的计算:
- p 值是根据统计量在对应统计分布中的位置计算得出的概率值。
- 它表示在原假设为真的情况下,获得与观测数据一样极端或更极端的统计量的概率。
例子解释
1. 单样本 t 检验
假设我们有一个样本数据集,样本均值为 x ˉ = 105 \bar{x} = 105 xˉ=105,样本标准差为 s = 15 s = 15 s=15,样本大小为 n = 30 n = 30 n=30,已知均值为 μ 0 = 100 \mu_0 = 100 μ0=100。
-
计算 t 统计量:
t = x ˉ − μ 0 s / n = 105 − 100 15 / 30 = 5 2.738 ≈ 1.83 t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} = \frac{105 - 100}{15 / \sqrt{30}} = \frac{5}{2.738} \approx 1.83 t=s/nxˉ−μ0=15/30105−100=2.7385≈1.83 -
确定 t 分布:
- 自由度 ( d f = n − 1 = 29 ) (df = n - 1 = 29) (df=n−1=29)。
-
查找 t 分布表或使用统计软件:
- 对应 t 值 1.83,在自由度为 29 的 t 分布中查找 p 值。
- 假设查找结果为 p 值大约是 0.038。
-
p 值解释:
- p 值 0.038 表示在原假设为真的情况下,获得 t 统计量等于或大于 1.83 的概率是 0.038。
2. 双尾检验
假设进行一个双尾 t 检验:
- 原假设(H0):样本均值等于总体均值( μ = 0 \mu = 0 μ=0)。
- 备择假设(H1):样本均值不等于总体均值。
假设计算出的 t 统计量为 2.0。
-
计算统计量:
t = 2.0 t = 2.0 t=2.0 -
查找 t 分布表:
- 对应 t 值 2.0 和自由度 df 查找 p 值。
-
计算 p 值:
- 双尾检验中,p 值是两个尾部的和:
p = 2 × P ( T > 2.0 ) p = 2 \times P(T > 2.0) p=2×P(T>2.0)
- 双尾检验中,p 值是两个尾部的和:
假设查找到的 p 值为 0.05。
关系总结
- 统计量:从数据中计算得出,用于评估数据与原假设的偏离程度。
- p 值:基于统计量计算出的概率值,表示在原假设为真时,观测到当前统计量或更极端统计量的概率。
使用统计软件计算
在实际操作中,通常使用统计软件来计算统计量和 p 值。例如,使用 Python 的 scipy.stats
模块:
from scipy import stats
# 样本数据
sample_data = [105, 100, 95, 110, 120, 90, 85, 105, 100, 110]
# 已知均值
mu_0 = 100
# 计算 t 统计量和 p 值
t_stat, p_value = stats.ttest_1samp(sample_data, mu_0)
print(f"t 统计量: {t_stat}")
print(f"p 值: {p_value}")
这段代码会输出 t 统计量和对应的 p 值,帮助你判断是否拒绝原假设。
总结
统计量和 p 值是密切相关的。统计量通过衡量样本数据与原假设的偏离程度,p 值则通过统计量在对应分布中的位置,反映了在原假设为真时,观测到当前数据或更极端数据的概率。理解统计量和 p 值的关系,有助于在假设检验中做出正确的决策。