统计学的假设检验/置信区间计算

假设检验的核心其实就是反证法。反证法是数学中的一个概念,就是你要证明一个结论是正确的,那么先假设这个结论是错误的,然后以这个结论是错误的为前提条件进行推理,推理出来的结果与假设条件矛盾,这个时候就说明这个假设是错误的,也就是这个结论是正确的。以上就是反证法的一个简单思路。

了解完反证法以后,我们开始正式的假设检验,这里还是引用一个大家都很熟悉的一个例子『女士品茶』。

女士品茶是一个很久远的故事,讲述了在很久很久以前的一个下午,有一群人在那品茶,这个时候有位女士提出了一个有趣的点,就是把茶加到奶里和把奶加到茶里面最后得到的『奶茶』的味道是不一样的。大部分人都觉得这位女士在瞎说,只有其中一位男士提出了要用科学的方法去证明到底一样不一样(牛人想问题角度永远都是那么独特,多想想别人为什么那么说,而不是一上来就不经思考的拒绝)。

接下来,我们具体看一下这一位男士是怎么去证明的。首先他假设了把茶加到奶里和把奶加到茶里面得出来的『奶茶』味道是一样的。然后随机把这两种『奶茶』端给女士,让女士品,是先加的奶还是先加的茶,如果女士都能品对,说明确实有差异,如果要是品不对,说明是没差异的。这里面就涉及到一个问题,让女士品多少杯呢,品一杯肯定是不行的,因为任意一杯猜对(瞎蒙)的概率都有50%。下面是不同杯数对应的猜对的概率(注意,这里是猜对而不是品对)。

通过上表我们可以看出,连续4杯都猜对的概率不足0.1,连续10杯都猜对的概率不足0.001。如果把奶加到茶里和把茶加到奶里面得到的『奶茶』真没有差别,也就是女士要想品对,基本全靠猜,但是10杯全部猜对的概率不足0.001,我们把这种概率很小很小(这里需要定义一下,具体多小算小概率事件)的事件称为小概率事件。我们认为小概率事件一般是不会发生的,如果发生了,说明我们的认知就是错误的,也就是说女士品茶不是靠猜的,也就是把奶加到茶里和把茶加到奶里面得到的『奶茶』的确是有差别的。

我们把上面这个过程就叫做假设检验

了解完假设检验的思想以后,我们来看一下具体步骤:

step1:提出零假设和备择假设;

零假设(H0)一般是我们要推翻的论点,备择假设(H1)则是我们要证明的论点。拿上面的女士品茶例子来讲。

H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是一样的。
H0:把茶加到奶里和把奶加到茶里面得到的『奶茶』是不一样的。

step2:构造检验统计量,并找出在H0假设成立的前提下,该统计量所服从的分布;

检验统计量是根据样本观测结果计算得到的样本统计量,并以此对零假设和备择假设做出决策。

图片来源于网络

上面图片中是三种不同的统计量以及其对应的分布,分别叫做Z检验、T检验、卡方检验。

Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。
T检验:主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
卡方检验:卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

下面为三种检验对应的分布图:

正态分布

T分布,与正态类似

卡方分布,n为自由度

根据不同检验的特征,我们可以根据下图来进行选择合适的检验方式:

step3:根据要求的显著性水平,求临界值和拒绝域

还记得我们在前面提到的小概率事件吗?如果小概率事件发生了,就表示我们的零假设是错误的,可是具体多小的概率才算是小概率呢?一般这个概率为0.05,也就是5%,如果一件事情发生的概率小于等于5%,我们就认为这是一个小概率事件,0.05就是显著性水平,用α表示。显著性水平把概率分布分为两个区间:拒绝区间和接受区间,最后计算出来的结果落在拒绝区间,我们就可以拒绝零假设;如果落在了接受区间,我们就需要接受零假设。1-α称为置信水平(置信度)。

现在我们知道了显著性水平了,然后就可以根据显著性水平求得临界值和拒绝域了。那具体怎么求呢?这里的临界值就是z值(正太分布用z值)或t值(t分布用t值),以临界值为端点的区间称为拒绝域。z值和t值直接根据显著性水平然后到对应的z值表和t值表中查询即可。

下图为双侧检验和单侧检验对应的α、1-α、临界值、拒绝域、接受域的情况,其中α是表示阴影部分的面积,而不是x轴的值。

双侧检验

单侧检验

到这里显著性水平对应的临界值和拒绝域就算出来了。

step4:计算检验统计量

根据我们在前面选择检验统计量类型,计算对应的检验统计量的值。除此之外我们还可以根据样本量得出P值,P值就是实际样本中小概率事件的具体概率值。

(显著性水平 \alpha 本质上就是在总体统计量分布中人为规定一个小概率事件发生的概率;P值就是样本统计量在总体统计量下发生的概率,如果P值< \alpha表明样本统计量在总体统计量的分布中属于小概率事件,因此总体统计量和样本统计量存在显著性差异)

step5:决策

比较计算出来的检验统计量与临界值和拒绝域,如果值落在了拒绝域内,那我们就要拒绝零假设,否则接受零假设。

比较计算出来的P值和显著性水平α值,如果P值小于等于α,则拒绝零假设,否则接受原假设。

上面两种方法分别叫做统计量检验和P值检验。

以上就是假设检验的一般流程。除此之外,假设检验里面还有两种错误,第一类错误叫做弃真错误,通俗一点就是漏诊,就是本来是生病了(假设是正确的),但是你没有检测出来,所以给拒绝掉了;第二类错误是取伪错误,通俗一点就是误诊,就是本来没病(假设是错误的),结果你诊断说生病了(假设是正确的),所以就把假设给接受了。

最终判断H0本来正确H0本来错误
拒绝H0假设犯I型错误正确
接受H0假设正确犯II错误

I型错误的值一般为0.05,II型错误的值一般为0.1或0.2,除此之外还有一个指标叫做功效(power),power = 1 - II型错误的值,power 表示你有多大把握能够正确的拒绝你的零假设H0。

关于假设检验我们就讲到这里,后面会分享统计学里面的其他知识,如果有想看的内容,可以评论区留言。

统计学的假设检验

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/24495.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《JavaEE》HTTPS

文章目录 HTTPS起源HTTPS对称加密非对称加密两者的区别 HTTPS的安全问题使用对称加密正常交互黑客入侵解决方案 非对称加密引入非对称加密后的流程 中间人攻击黑客的入侵方案加入后的流程解决方案黑客再次加注解决方案 ​&#x1f451;作者主页&#xff1a;Java冰激凌 &#x1…

毫米波雷达信号处理中的通道间相干与非相干积累问题

说明 相干和非相干积累是雷达信号处理中的常用方法&#xff0c;这两个概念一般是用在多脉冲积累这个问题上&#xff1a;积累可以提高信号的SNR&#xff0c;从而提高检出概率。不过本文内容与脉冲积累无关&#xff0c;本文讨论的话题是将这两个概念(non-coherent combination、c…

HCIA-MSTP替代技术之链路捆绑(LACP模式)

目录 手工链路聚合的不足&#xff1a; LACP链路聚合的原理 LACP模式&#xff1a; LACPDU&#xff1a; 1&#xff0c;设备优先级&#xff1a; 设备优先级的比较是&#xff1a;先比较优先级大小&#xff0c;0到32768&#xff0c;越小优先级越高&#xff0c;如果优先级相同&a…

OpenAI再出新作,AIGC时代,3D建模师的饭碗危险了!

大家好&#xff0c;我是千与千寻&#xff0c;也可以叫我千寻哥&#xff0c;说起来&#xff0c;自从ChatGPT发布之后&#xff0c;我就开始焦虑&#xff0c;担心自己程序员的饭碗会不会哪天就被AIGC取代了。 有人说我是过度焦虑了&#xff0c;但是我总觉有点危机感肯定没有坏处。…

【017】C++ 指针变量详解,理解指针变量

C 指针变量详解 引言一、内存概述二、指针变量2.1、地址和指针变量的关系2.2、定义指针变量2.3、指针变量的初始化2.4、指针类型2.5、案例2.6、注意事项 三、数组元素的指针3.1、概述3.2、在使用中 [ ] 就是 *()的缩写3.3、指向同一数组的元素的两个指针变量间的关系 四、字符串…

UOS桌面系统使用RLinux恢复数据

UOS桌面系统使用RLinux恢复数据 一、工具介绍二、注意事项三、准备四、制作live系统启动盘五、拷贝文件六、进入live系统一、工具介绍 R-Linux 是一款用于 Linux 和某些 Unixes 操作系统 Ext2/Ext3/Ext4 FS 文件系统的免费文件恢复实用工具。R-Linux 与 R-Studio 使用相同的 I…

病毒分析丨plubx

作者丨黑蛋 一、基本信息 文件名称 00fbfaf36114d3ff9e2c43885341f1c02fade82b49d1cf451bc756d992c84b06 文件格式 RAR 文件类型(Magic) RAR archive data, v5 文件大小 157.74KB SHA256 00fbfaf36114d3ff9e2c43885341f1c02fade82b49d1cf451bc756d992c84b06 SHA1 1c251974b2e…

Nova 和 SuperNova:无需通用电路的通用机器执行证明系统

1. 引言 前序博客有&#xff1a; Nova: Recursive Zero-Knowledge Arguments from Folding Schemes学习笔记SuperNova&#xff1a;为多指令虚拟机执行提供递归证明基于Nova/SuperNova的zkVMSangria&#xff1a;PLONK Folding2023年 ZK Hack以及ZK Summit 亮点记Sangria&…

ptp4l测试-LinuxPTP\ptp4l配置与问题排查

目录 一、前言 1.1 什么是ptp4l 1.2 描述 1.3 官网连接 1.4 目的 1.5 平台 二、 平台必要软件 2.1 linux物理机 2.2 imx6ull开发板 三、检查硬件是否支持 3.1 ifconfig查看当前网卡的名称 3.2 ethtool检查驱动和网卡是否支持 四、开启ptp4l服务 4.1 方法一&#x…

leetcode--环形链表.找到入环节点(java)

环形链表II 环形链表.找到入环节点题目描述解题思路 环形链表.找到入环节点 LeetCode 142&#xff1a;环形链表II 可以在这里测试 题目描述 给定一个链表的头节点 head &#xff0c;返回链表开始入环的第一个节点。 如果链表无环&#xff0c;则返回 null。 如果链表中有某个节…

电压放大器的主要指标有哪些方面

电压放大器是电子电路中常用的器件&#xff0c;在选择和评估电压放大器时&#xff0c;需要考虑以下几个主要指标&#xff1a; 输入电阻&#xff08;Input Resistor&#xff09;&#xff1a;输入电阻是指放大器输入端的电阻值&#xff0c;它反映了放大器将输入信号转换成输出信号…

Linux驱动入门(二)——嵌入式处理器介绍和构建驱动程序开发环境

文章目录 嵌入式处理器和开发板介绍处理器简述处理器种类Intel的PXA系列处理器StrongARM系列处理器MIPS处理器摩托罗拉龙珠(DragonBall)系列处理器日立SH3处理器德州仪器OMAP系列处理器 ARM处理器ARM处理器简介ARM处理器的特点ARM处理器系列ARM处理器的应用ARM处理器选型 STM32…

Jupyter Notebook如何导入导出文件

目录 0.系统&#xff1a;windows 1.打开 Jupyter Notebook 2.Jupyter Notebook导入文件 3.Jupyter Notebook导出文件 0.系统&#xff1a;windows 1.打开 Jupyter Notebook 1&#xff09;下载【Anaconda】后&#xff0c;直接点击【Jupyter Notebook】即可在网页打开 Jupyte…

初阶数据结构之栈的实现(五)

文章目录 &#x1f60f;专栏导读&#x1f916;文章导读&#x1f640;什么是栈&#xff1f;&#x1f640;画图描述 &#x1f633;栈的代码实现及其各类讲解&#x1f633;栈的初始化代码实现及其讲解&#x1f633;栈的初始化 &#x1f633;栈的销毁代码实现及其讲解&#x1f633;…

PLX31-EIP-SIE 以太网/IP到西门子工业以太网

ProSoft Technology的EtherNet/IP to Siemens工业以太网通信网关允许支持EtherNet/IP的控制器或设备与西门子S7 PACs(包括S7-200s、S7-300s、S7-400s、S7-1200和S7-1500 PACs)之间进行高速双向数据传输。 此外&#xff0c;该网关还包括几个功能&#xff0c;包括数据优先级&…

横向移动-传递攻击SMB服务利用psexecsmbexec

win2012以上版本&#xff0c;关闭了wdigest 或者安装了 KB287199补丁。无法获取明文密码 总的来说就是win2012后无法获取明文密码 解决办法就是&#xff1a; 1.可以利用哈希hash传递&#xff08;pth&#xff0c;ptk等进行移动&#xff09; 2.利用其他服务协议&#xff08;S…

UGUI进阶知识[二十九]循环GridView

节省内存的常用滑动列表还有一种形式&#xff0c;上下滑动的GridView。这种格式的滑动列表可用于移动设备的背包&#xff0c;仓库&#xff0c;商店UI等数据可能海量从而导致产生特别多但又看不见的UI的情况。 于是基于 UGUI进阶知识[八]循环利用滑动列表的循环ListView工程做了…

Tomcat服务器、Servlet生命周期、上传下载文件、使用XHR请求数据、注解使用

文章目录 Servlet认识Tomcat服务器使用Maven创建Web项目创建Servlet探究Servlet的生命周期解读和使用HttpServletWebServlet注解详解使用POST请求完成登陆上传和下载文件下载文件上传文件 使用XHR请求数据重定向与请求转发重定向请求转发 ServletContext对象初始化参数 Servlet…

Office project 2010安装教程

哈喽&#xff0c;大家好。今天一起学习的是project 2010的安装&#xff0c;Microsoft Office project项目管理工具软件&#xff0c;凝集了许多成熟的项目管理现代理论和方法&#xff0c;可以帮助项目管理者实现时间、资源、成本计划、控制。有兴趣的小伙伴也可以来一起试试手。…

在职阿里6年,一个29岁女软件测试工程师的心声

简单的先说一下&#xff0c;坐标杭州&#xff0c;14届本科毕业&#xff0c;算上年前在阿里巴巴的面试&#xff0c;一共有面试了有6家公司&#xff08;因为不想请假&#xff0c;因此只是每个晚上去其他公司面试&#xff0c;所以面试的公司比较少&#xff09; 其中成功的有4家&am…