【小白学机器学习11】假设检验之2:Z检验(U检验,正态检验)

目录

1 什么是Z检验

1.1 Z检验的别名 Z-test /U-test / 正态检验

1.2 维基百科定义

1.2 百度百科定义

1.3 定义提炼关键点

1.4 Z检验量 : Z=(X-θ)/s = (X-u)/s

2 Z检验量的构造

2.1 Z检验量 : Z=(X_-u)/s

2.2 Z检验变量的构造

2.4 Z检验量的核心参数

2.4.1 原始公式

2.4.2 正式公式

2.4.3 核心参数

3 Z分布

3.1 Z分布的定义

3.2 Z分布与正态分布的比较

4  Z检验适用范围/ 情况

4.1 Z分布的适用范围/ 情况

4.2 Z检验的适用情况

4.3  具体适用范围/情况,比较的对象

4.3.1 单样本Z检验

4.3.2 两样本z检验

5 检验原理 

5.1 检验原理

5.1.0 建立h0建设和显著度α ,这个模型

5.1.1 先计算Z检验值

5.1.2 显著度α =置信度 =概率 =曲线下外侧面积

5.1.3 看要求得双侧还是单侧检验?

5.1.4 得到Z值后,联合显著度α, 查表得 查表Z值,然后比较

5.1.5 比较P值和α,然后判断

5.2 检验原理说明:自百度百科

6 Z检验得实际操作查表等

6.1 Z检验的边界值查表原理

6.2 计算Z检验:手动查表

6.2.1 先确定显著度水平 α

6.2.2 已知Z值和 α后,查表获得p值,然后进行比较

6.2.3 比较p和显著度水平 α

6.2.4 查表

7 例题

7.1 先确定检验方式:双样本Z检验

7.2 题目已知样本均值和方差

7.3 计算Z值

7.4 查表获得P值

7.4.1 第1个Z值查表p

7.4.2 第2个Z值查表p

8 参考文章等


1 什么是Z检验

  • 也叫U检验,正态检验
  • 目的是:比较样本的平均值的差异,也可以叫 均值齐性检验
  • 前提假设,不同的样本都符合正态分布,标准正态分布?

1.1 Z检验的别名 Z-test /U-test / 正态检验

  • U检验 ,U-test
  • 正态检验

1.2 维基百科定义

  • Z检验,也称“U检验”,是为了检验在零假设情况下测试数据能否可以接近正态分布的一种统计测试。
  • 根据中心极限定理,在大样本条件下许多测验可以被贴合为正态分布。
  • 在不同的显著性水平上,Z检验有着同一个临界值,因此它比临界值标准不同的学生t检验更简单易用。当实际标准差未知,而样本容量较小(小于等于30)时,学生t检验更加适用。
  • 如果发现一个统计T接近于正态分配,Z检验的第二步为在零假设情况下估计T的期望值θ ,随后获得T的标准差s。
  • 在计算标准分数Z=(T-θ)/s后,单侧或双侧的p值可以用标准累积分布函数Φ来计算,分别为Φ(−Z)(左侧) Φ(Z)(右侧)和 2Φ(−|Z|) (双侧)。

1.2 百度百科定义

  • Z检验(Z Test)又叫U检验。
  • 由于实际问题中大多数随机变量服从或近似服从正态分布,U作为检验统计量与X的均值是等价的,且计算U的分位数或查相应的分布表比较方便。
  • 通过比较由样本观测值得到的U的观测值,可以判断数学期望的显著性,我们把这种利用服从标准正态分布统计量的检验方法称为U检验(U-test)

1.3 定义提炼关键点

  • 这是一种利用服从标准正态分布统计量的检验方法
  • 要检测的变量符合正态分布 n~(u,δ) ,并不要求符合 标准正态分布 n~(0,1) , 因为很多样本都符合正态分布,所以适应性很广
  • 在不同的显著性水平上,Z检验有着同一个临界值,因此它比临界值标准不同的学生t检验更简单易用。
  • 当实际标准差未知,而样本容量较小(小于等于30)时,学生t检验更加适用。样本数量较大时,Z检验和T检验都可以,但是Z检验更简单好用。

1.4 Z检验量 : Z=(X-θ)/s = (X-u)/s

  • U/Z与X的均值是等价的
  • U/Z的分位数或查相应的分布表比较方便
  • 如果X符合正态分布,那么Z检验量= 标准分数Z=(X-θ)/s = (X-u)/s
  • 其中 u/θ 是均值,而s是样本的标准差std

2 Z检验量的构造

2.1 Z检验量 : Z=(X_-u)/s

  • 简单公式:Z=(X_-θ)/s = (X_-u)/s
    • U/Z与X的均值是等价的
    • U/Z的分位数或查相应的分布表比较方便
    • 如果X符合正态分布,那么Z检验量= 标准分数Z=(X-θ)/s = (X-u)/s
    • 其中 u/θ 是均值,而s是样本的标准差std

2.2 Z检验变量的构造

  • 此处公式里都不是Xi 而是 X_=average(X)
  • 因为Xi 符合正态分布  Xi ~N(u,δ)
  • 所以很显然,average(X) 也符合正态分布,average(X) ~N(u,δ/✔n)。 因为average(X)的均值还是u,而average(X)的波动肯定比Xi要小得多,所以方差肯定是降低了=δ/✔n
  • Z检验量相当于构造了一个标准正态分布变量 Z=(X_-u) / (δ/✔n)~N(0,1)

下面是各种百科写的构造过程

Z检验量的构造  和 检验原理

2.4 Z检验量的核心参数

2.4.1 原始公式

  • Z=average(x)-u/δ
  • 有点像 标准化正态分布的公式,Zi=xi-u/δ ,但是这里用的不是xi而是均值average(x)
  • 但是要特意写成Z=average(x)-u/(δ/✔n) 原因? 
    • 就是✔n 是公式变换的结果,因为x ~ N(u,δ)  ,average(x) ~ N(u,δ/✔n)
    • 是只取了总体数里的n个样本,核心变量是 average(x),整个方法都是评价和比较的均值!!!,核心就是均值之间的差异

2.4.2 正式公式

  • Z检验要求大样本的原因,因为总体方差往往不可知,so需要一个大样本的样本方差)
  • 但是总体方差变不好获得,那总体均值就那么好得?
  • Z检验的公式
  • Z=(X_-u) / (δ/✔n)~N(0,1)
  • Z=(X1_-X2_) / ✔(s1/n1+s2/n2)

2.4.3 核心参数

  • 平均值 :      总体均值u  ,样本均值δ
  • 样本标准差:   s =std  或者双样本检测时  s1 和s2
  • 样本数量:     n,或者双样本检测时 2个 n1 和n2

3 Z分布

3.1 Z分布的定义

  • Z分布,全称费歇耳(Fisher)Z分布,亦称费歇耳方差比分布。
  • 从图形上看,特别像正态分布
  • 但是它是离散的,不是连续的

3.2 Z分布与正态分布的比较

  • Z分布是统计学中常用的一种离散概率分布,通常用于计算样本数据与总体均值之间的差异。它是通过将样本数据的均值与总体均值之差除以标准差来得到的。
  • 而正态分布是一种连续概率分布,具有钟形曲线形状,广泛用于自然现象和实验数据的概率分布。

4  Z检验适用范围/ 情况

Z检验是否合适先要看Z分布是否适用当下情况

4.1 Z分布的适用范围/ 情况

  • Z分布的准确性取决于样本数据的数量和总体分布的正态性。在样本数量较少或总体分布非正态时,Z分布的准确性会受到影响。
  • Z分布的计算方法只适用于均值为整数且标准差为小数的情形。如果均值或标准差不是整数,或者样本数量较少,则需要使用其他计算方法。

4.2 Z检验的适用情况

  • n>30大样本情况,适合Z检验和T检验
  • 否则只适合T检验

4.3  具体适用范围/情况,比较的对象

4.3.1 单样本Z检验

  • 单样本Z检验:比较一组样本和某数值(比如理想中的总体平均值)的平均值的差异
  • 原假设h0: average(x)=m

4.3.2 两样本z检验

  • 两样本/双样本z检验,比较一组样本和另外一组样本数据的平均值的差异
  • 原假设h0: average(x1)= average(x2)

5 检验原理 

5.1 检验原理

5.1.0 建立h0建设和显著度α ,这个模型

  • 对比均值/差值对比:
  • 置信水平:95% 即对原假设H0有95%的把握
  • 假设检验,H0和h1

5.1.1 先计算Z检验值

  • Z检验的公式
  • Z=(X_-u) / (δ/✔n)~N(0,1)
  • Z=(X1_-X2_) / ✔(s1/n1+s2/n2)

5.1.2 显著度α =置信度 =概率 =曲线下外侧面积

  • 显著度α 
  • 置信度
  • 概率
  • 曲线下外侧面积

5.1.3 看要求得双侧还是单侧检验?

  • 单侧检验,右侧/左侧
  • 双侧检验
  • 如果是双边检验,就比较查表的 Z(α/2)
  • 如果是单边检验,就比较查表的 Z(α)

5.1.4 得到Z值后,联合显著度α, 查表得 查表Z值,然后比较

  • 就是根据 显著度α, 
  • 比较 Z计算<> Z(α/2) ,如果Z计算> Z(α/2) ,那就意味着Z太大,概率p<α ,从而拒绝原假设h0

5.1.5 比较P值和α,然后判断

  • 置信水平:95% 即对原假设H0有95%的把握
  • 假设检验,H0和h1
  • 比较 Z计算<> Z(α/2) ,如果Z计算> Z(α/2) ,那就意味着Z太大,概率p<α ,从而拒绝原假设h0

5.2 检验原理说明:自百度百科

6 Z检验得实际操作查表等

6.1 Z检验的边界值查表原理

  • 可见Z分布是一个离散图形,类正态分布
  • 当Z值很大得时候,对应的p就会很小,也就是曲线下面右边的面积会越小,也就是发生的概率越小就越要拒绝原假设h0

6.2 计算Z检验:手动查表

6.2.1 先确定显著度水平 α

  • 如果是双边检验,是查Z( α/2)
  • 如果是单边检验,是查Z( α)

6.2.2 已知Z值和 α后,查表获得p值,然后进行比较

  • Z值表
  • 横坐标是显著度 α
  • 纵坐标是Z值
  • 交叉处即是P

6.2.3 比较p和显著度水平 α

  • 如果p<α,则拒绝原假设
  • 算出来得Z值越大,查表得p值越小,越要拒绝,两者相等的原假设

6.2.4 查表

  • 在此负Z得分表的平均值左侧找到值 。z的表项表示z的钟形曲线下方的区域。z表中的负分数对应于小于平均值的值。
  • 在此z表中的平均值右边找到值。z的表项表示z的钟形曲线下方的区域。Z表中的正分数对应于大于平均值的值。

7 例题

7.1 先确定检验方式:双样本Z检验

  • 样本1:50个
  • 样本2:50个

7.2 题目已知样本均值和方差

见表

7.3 计算Z值

参考EXCEL公式

7.4 查表获得P值

  • 第1个,因为 |Z|=0.658<1.96,所以前测两组差异不显著
  • 第2个,因为 |Z|=2.16>1.96,所以后测两组差异显著

7.4.1 第1个Z值查表p

  • z=0.658 查表 先z=0.66
  • 纵列查0.6
  • 横列找0.06
  • 查得p=0.7454 ,因为显著度是0.05,且是双边检验, 0.7454<95%,因此不是小概率事件,而接受原假设h0

7.4.2 第2个Z值查表p

  • 2.16 查表的
  • z=2.16 查表
  • 纵列查2.1
  • 横列找0.06
  • 查得p=0.9846 ,因为显著度是0.05,且是双边检验, 0.9846>95%,因此是小概率事件,而拒绝原假设h0

8 参考文章等

SPSSPRO官方文章

统计学假设检验——均值Z检验详解,入门必看! - 知乎1、简介z 检验一般用于比较样本平均值差异性。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 对比平均值的差异性,包括一组数据与某数值的差异性或两组数据的平均值差异性,…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/635888184

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/524591.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用单点登录(SSO)如何提高安全性和用户体验

什么是单点登录&#xff08;SSO&#xff09; 对于所有大量采用云应用程序的组织来说&#xff0c;有效的身份管理是一个巨大的挑战&#xff0c;如果每个 SaaS 应用程序的用户身份都是独立管理的&#xff0c;则用户必须记住多个密码&#xff0c;技术支持技术人员在混合环境中管理…

【ELK】搭建elk日志平台(使用docker-compose),并接入springboot项目

1、环境搭建 前提条件&#xff1a;请自行安装docker以及docker-compose环境 version: 3 services:elasticsearch:image: elasticsearch:7.14.0container_name: elasticsearchports:- "9200:9200"- "9300:9300"environment:# 以单一节点模式启动discovery…

ASP.NET Core 模型绑定

&#x1f340;介绍 在C#中&#xff0c;特别是在ASP.NET Core中&#xff0c;模型绑定是一个将HTTP请求中的数据映射到C#对象的过程。它使得开发者能够方便地从请求中提取数据&#xff0c;而无需手动解析请求体、查询字符串、路由数据等。ASP.NET Core提供了多种特性&#xff08…

uniapp极光推送、java服务端集成

一、准备工作 1、进入【服务中心】-【开发者平台】 2、【创建应用】&#xff0c;填写应用名称和图标&#xff08;填写项目名称&#xff0c;项目logo就行&#xff0c;也可填写其他的&#xff09; 3、选择【消息推送】服务&#xff0c;点击下一步 ​ ​ Demo测试 参照文档&…

数据备份的演变:数字时代的一个关键方面

微信关注获取更多内容 数据备份至关重要&#xff0c;涵盖了其过去、现在和未来&#xff0c;是数字时代任何企业运营的一个重要方面。 如今&#xff0c;公司运营的几乎每个方面&#xff0c;从客户信息到内部财务数据&#xff0c;都以数字方式存储。 有鉴于此&#xff0c;数据…

【Linux系列】“dev-node1“ 运行的操作系统分析

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【STL】list的底层原理及其实现

文章目录 list的介绍list的整体结构设计list的构造代码模拟实现&#xff1a; list节点类的实现list 迭代器Iterator的使用以及实现Iterator的使用Iterator的底层实现反向迭代器 list与vector的比较实现list类 list的介绍 list是可以在常数范围内在任意位置进行插入和删除的序列…

Linux中shell脚本的学习第一天,编写脚本的规范,脚本注释、变量,特殊变量的使用等,包含面试题

4月7日没参加体侧的我自学shell的第一天 Shebang 计算机程序中&#xff0c;shebang指的是出现在文本文件的第一行前两个字符 #&#xff01; 1)以#!/bin/sh 开头的文件&#xff0c;程序在执行的时候会调用/bin/sh, 也就是bash解释器 2)以#!/usr/bin/python 开头的文件&#…

科研学习|研究方法——扎根理论三阶段编码如何做?

一、背景介绍 “主题标引”意指对文献内容进行分析, 然后对文献所表达的中心思想、所讨论的基本问题以及研究的对象等进行提取, 以形成主题概念, 然后在此基础上把可检索的主题词表示出来, 再将这些主题词按一定顺序 (如字顺) 排列, 对论述相同主题内容的文献加以集中, 从而提高…

vmware和ubuntu的问题与解决

1.问题与对策 最近使用vmware安装ubuntu16和ubuntu20&#xff0c;遇到了挺多的问题&#xff0c;如下 ubuntu在用过多次后&#xff0c;重启后登录用户名后会出现花屏的现象。 解决方案如下 在键盘上同时按键&#xff1a;Ctrl Alt F4&#xff0c;进入命令行模式&#xff0c;…

Hive3.0.0建库表命令测试

Hive创建表格格式如下&#xff1a; create [external] table [if not exists] table_name [(col_name data_type [comment col_comment],)] [comment table_comment] [partitioned by(col_name data_type [comment col_comment],)] [clustered by (col_name,col_name,...)…

三防平板定制服务:亿道信息与个性化生产的紧密结合

在当今数字化时代&#xff0c;个性化定制已经成为了市场的一大趋势&#xff0c;而三防平板定制服务作为其中的一部分&#xff0c;展现了数字化技术与个性化需求之间的紧密结合。这种服务是通过亿道信息所提供的技术支持&#xff0c;为用户提供了满足特定需求的定制化三防平板&a…

leetcode代码记录(下一个更大元素 I

目录 1. 题目&#xff1a;2. 我的代码&#xff1a;小结&#xff1a; 1. 题目&#xff1a; nums1 中数字 x 的 下一个更大元素 是指 x 在 nums2 中对应位置 右侧 的 第一个 比 x 大的元素。 给你两个 没有重复元素 的数组 nums1 和 nums2 &#xff0c;下标从 0 开始计数&#x…

Severt和tomcat的使用(补充)

打包程序 在pom.xml中添加上述代码之后打包时会生成war包并且包的名称是test 默认情况打的是jar包.jar里量但是tomcat要求的是war包. war包Tomcat专属的压缩包. war里面不光有.class还有一些tomcat要求的配置文件(web.xml等)还有前端的一些代码(html, css, js) 点击其右边的m…

【大数据】安装hive-3.1.2

1、上传HIVE包到/opt/software目录并解压到/opt/modules/ tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/modules/ 2、修改路径 mv /opt/modules/apache-hive-3.1.2-bin/ /opt/modules/hive 3、将hIVE下的bin目录加入到/etc/profile中 export HIVE_HOME/opt/module…

机器学习(30)

文章目录 摘要一、文献阅读1. 题目2. abstract3. 网络架构3.1 Sequence Generative Adversarial Nets3.2 SeqGAN via Policy Gradient3.3 The Generative Model for Sequences3.4 The Discriminative Model for Sequences(CNN) 4. 文献解读4.1 Introduction4.2 创新点4.3 实验过…

Svg Flow Editor 原生svg流程图编辑器(五)

系列文章 Svg Flow Editor 原生svg流程图编辑器&#xff08;一&#xff09; Svg Flow Editor 原生svg流程图编辑器&#xff08;二&#xff09; Svg Flow Editor 原生svg流程图编辑器&#xff08;三&#xff09; Svg Flow Editor 原生svg流程图编辑器&#xff08;四&#xf…

如何自定义项目启动时的图案

说明&#xff1a;有的项目启动时&#xff0c;会在控制台输出下面的图案。本文介绍Spring Boot项目如何自定义项目启动时的图案&#xff1b; 生成字符图案 首先&#xff0c;找到一张需要设置的图片&#xff0c;使用下面的代码&#xff0c;将图片转为字符文件&#xff1b; impo…

蓝桥杯练习系统(算法训练)ALGO-957 P0703反置数

资源限制 内存限制&#xff1a;256.0MB C/C时间限制&#xff1a;1.0s Java时间限制&#xff1a;3.0s Python时间限制&#xff1a;5.0s 一个整数的反置数指的是把该整数的每一位数字的顺序颠倒过来所得到的另一个整数。如果一个整数的末尾是以0结尾&#xff0c;那么在它的…

Java: LinkedList的模拟实现

一、双向链表简介 上一篇文章我介绍了单向链表的实现&#xff0c;单向链表的特点是&#xff1a;可以根据上一个节点访问下一个节点&#xff01;但是&#xff0c;它有个缺点&#xff0c;无法通过下一个节点访问上一个节点&#xff01;这也是它称为单向链表的原因。 那么&#x…