学习笔记|SPSS|描述变量|按照3倍标准差剔除异常值|标准化值另存为变量|剔除个案|Zscore|箱图|Zscore取值范围

目录

  • 学习目的
  • 软件版本
  • 原始文档
  • 概述
  • 服从正态分布-按照3倍标准差剔除异常值
    • 读数据
    • 数据概览
      • 描述变量
    • 正态性检验
    • 异常值检验及剔除
  • 非正态分布-根据Zscore取值范围确定
    • 基础数据
    • 数据概览
      • 正态性检验
      • Tips:箱图圆圈的含义
    • 异常值检验及剔除
      • 描述变量,并将标准化值另存为变量:
      • 异常值筛选
  • Tips:Zscore取值范围
  • Tips:什么是Z-score?有哪些使用场景?

学习目的

SPSS按照3倍标准差剔除异常值

软件版本

IBM SPSS Statistics 26。

原始文档

spss按照3倍标准差剔除异常值
《小白爱上SPSS》课程第3讲数据

概述

数据需要服从正态分布。在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。
如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。即,使用Z-分数(Z-score)进行判断,计算每个数据的Z-分数。样本中每个数据 - 样本平均数,除以样本标准差,即可以计算每个数据的Z-分数。Z-score的值应该为【-3,+3】,超过该值的存在为异常值的可能,需要进一步判断。

服从正态分布-按照3倍标准差剔除异常值

三倍标准差法剔除异常值是一种经典的数据处理方法,指根据样本量和样本方差确定统计准则,将极端异常值(离群点)剔除,它是根据样本量和样本方差体现出来的分布统计学中的“三倍标准差”原则来处理数据异常值的方法。
三倍标准差剔除异常值涉及两个概念;根据总体样本方差的大小,让算出每个样本的“允许范围”;.将超出“允许范围”的异常值剔除出去。
其具体步骤是: 1、计算样本的标准差;2、确定样本的允许范围;3、如果有极端异常值,就剔除出来。
总体样本标准差的大小和离群点的定义有关,一般将样本标准差的三倍作为样本允许偏差范围,即若极端值(离群点)超出三倍标准差,则该数据被认为是异常值,可以被剔除。
异常值指的是在观测样本中,偏离于绝大部分样本分布的值。在连续型变量中,如果一个值与该变量的均值超过2倍标准差,我们一般就可以将之视为异常值。
由于样本中的离群点影响样本的方差,因此用三倍标准差的方法能有效地将极端值剔除,使样本方差更准确。
三倍标准差剔除异常值的优点是简单、快捷,可被广泛应用于分析数据,但也有不足之处。如果总体数据分布不同,样本标准差容易受到偏差;如果总体数据分布是非正态分布,由于样本数据分布更集中,因此很可能会误判离群点,这种情况下,可以考虑调整标准差的倍数,要求更大倍数以保证准确率。

读数据

GET 
  FILE='E:\E盘备份\recent\小白爱上SPSS\小白数据\第三讲 正态分布.sav'. 

在这里插入图片描述

数据概览

描述变量

在这里插入图片描述
选择连续性变量“身高”作为描述变量,选择输出值类型:
在这里插入图片描述
命令行:

DESCRIPTIVES VARIABLES=身高 
  /SAVE 
  /STATISTICS=MEAN STDDEV MIN MAX	/*平均值,标准化值,最小值,最大值*/.

在这里插入图片描述

正态性检验

命令行:

EXAMINE VARIABLES=身高
  /PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*/
  /COMPARE GROUPS 
  /STATISTICS DESCRIPTIVES 
  /CINTERVAL 95 
  /MISSING LISTWISE 
  /NOTOTAL.

在这里插入图片描述
样本数量25个小于40个,使用夏皮洛-威尔克检验。经S-W检验,体重数据的P=0.998(P>0.05,接受原假设),没有统计学意义,可认为该组数据符合正态分布。
结合直方图:
命令行:

GRAPH 			/*绘图*/
  /HISTOGRAM(NORMAL)=身高	/*直方图(正态)*/.

在这里插入图片描述
呈明显的倒钟型,该组数据符合正态分布。
身高的正态Q-Q图:
在这里插入图片描述
观察Q-Q图上的点能否分布在一条直线上,分布在一条直线上则说明近似或服从正态分布。
本例中,身高绝大多数的点能分布在一条直线上,直线趋势明显,可认为该连续数据服从正态分布。

异常值检验及剔除

数据-选择个案:
在这里插入图片描述
进入后,选择身高-选择如果条件满足:
筛选条件:身高 <= (149.68+311.3274) & 身高 >= (149.68-311.3274)
在这里插入图片描述
有效数据范围:
在这里插入图片描述
命令行:

USE ALL. 
COMPUTE filter_$=(身高 <= (149.68+3*11.3274)  &  身高 >= (149.68-3*11.3274)). 
VARIABLE LABELS filter_$ '身高 <= (149.68+3*11.3274)  &  身高 >= (149.68-3*11.3274) (FILTER)'. 
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. 
FORMATS filter_$ (f1.0). 
FILTER BY filter_$. 
EXECUTE.

数据均在平均值+/-33倍标准差范围内,无需剔除:
在这里插入图片描述

非正态分布-根据Zscore取值范围确定

基础数据

引自原文。
在这里插入图片描述

数据概览

正态性检验

命令行:

EXAMINE VARIABLES=height
  /PLOT BOXPLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表,增加箱图输出:BOXPLOT*/
  /COMPARE GROUPS 
  /STATISTICS DESCRIPTIVES 
  /CINTERVAL 95 
  /MISSING LISTWISE 
  /NOTOTAL.

在这里插入图片描述
样本数量6个,小于40个,使用夏皮洛-威尔克检验。经S-W检验,体重数据的P<0.001(P<0.05,不接受原假设),有统计学意义,该组数据不符合正态分布。
在这里插入图片描述
结合箱图,可以明显看到,id=4的数据明显偏离。

Tips:箱图圆圈的含义

箱线图中的“o"表示可疑的异常值﹐此处异常值的确定采用的是"五数概括法",即:变量值超过第75百分位点和25百分位点上变量值之差的1.5倍(箱体上方)或变量值小于第75百分位点和25百分位点上变量值之差的1.5倍(箱体下方)的点对应的值。

异常值检验及剔除

描述变量,并将标准化值另存为变量:

命令行:

DESCRIPTIVES VARIABLES=身高 
  /SAVE 
  /STATISTICS=MEAN STDDEV MIN MAX	/*平均值,标准化值,最小值,最大值*/.

在这里插入图片描述

异常值筛选

说明:大多数指标均要求正常Z值区间为[-3,3]。Z值落在区间[-3,3],我们所测值在总群体的发生概率为99.7%,超出这个区间的概率为0.3%。而本例中原作者采用的Z值区间标准较小小,如[-1.5,1.5]之间。
数据-选择个案:
进入后,选择Zscore-选择如果条件满足
在这里插入图片描述
点击“如果”,输入条件,添加条件公式,使用变量名Z身高生成公式:
Zheight * 2 <= 3 & Zheight * 2 >=( -3 )
在这里插入图片描述
点击继续,确定,形成筛选列。
在这里插入图片描述
最终,下划线剔除id=4样本,filter变量Selected表示选中,Not Selected表示剔除。
命令行:

USE ALL. 
COMPUTE filter_$=(Zheight * 2 <= 3  & Zheight * 2 >=( -3 )). 
VARIABLE LABELS filter_$ 'Zheight * 2 <= 3  & Zheight * 2 >=( -3 ) (FILTER)'. 
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. 
FORMATS filter_$ (f1.0). 
FILTER BY filter_$. 
EXECUTE.

Tips:Zscore取值范围

引自百度文库:Zscore取值范围。
Z分数是一种常用的统计方法,用于度量一个数据点在数据集中的位置。它的取值范围为-3到+3之间,表示数据点与平均值的偏离程度和相对于标准差的偏离程度。Z分数的取值范围可以帮助我们解释和理解数据,判断异常值,以及进行比较和分析。无论在统计学还是其他领域,Z分数都具有重要的应用价值。
它衡量的是某个数据点与平均值的偏离程度,以及相对于标准差的偏离程度。Z分数可以告诉我们一个数据点相对于其他数据点的相对位置,从而帮助我们进行比较和分析。
Z分数的范围在理论上是无限的,但在实际应用中,我们通常将其限制在一定的取值范围内,以便更好地解释和理解数据。一般来说,Z分数的取值范围为-3到+3之间。超出这个范围的Z分数很少出现,因为它们表示的是极端的情况,即数据点与平均值的偏离程度非常大。
当Z分数为负数时,表示数据点低于平均值。例如,一个工分数为-2的数据点表示该数据点低于平均值两个标准差。当Z分数为正数时,表示数据点高于平均值。例如,一个7分数为+2的数据点表示该数据点高于平均值两个标准差。
Z分数的取值范围为-3到+3之间的原因是,根据正态分布的性质,约68%的数据点的Z分数在-1到+1之间,约95%的数据点的Z分数在-2到+2之间,约99.7%的数据点的Z分数在-3到+3之间。这个规律被称为“68-95-99.7法则”,它告诉我们在正态分布中,数据点相对于平均值的偏离程度大致符合这个分布。
Z分数的取值范围也可以用来判断数据的异常值。一般来说,Z分数超过3的数据点可以被认为是异常值,因为它们与平均值的偏离程度非常大。异常值可能是由于测量误差、数据录入错误或真实的异常情况导致的。通过识别和处理异常值,我们可以更准确地分析数据和做出决策。
除了在统计学中的应用,Z分数还被广泛应用于其他领域。例如,在金融领域中,Z分数可以用来度量股票的回报率相对于市场回报率的偏离程度,从而帮助投资者判断股票的表现。在医学研究中,Z分数可以用来比较不同患者群体的生物指标,帮助医生进行诊断和治疗决策。

Tips:什么是Z-score?有哪些使用场景?

引自:什么是Z-score?有哪些使用场景?
Z值(z-score,z-values, normal score)又称标准分数(standard score, standardized variable),是一个实测值与平均数的差再除以标准差的过程。Z score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z score分值进行比较。
用公式表示为:
z=(x-μ)/σ
x为某实测值,μ为平均数,σ为标准差
Z值的量代表着实测值和总体平均值之间的距离,是以标准差为单位计算。
大于平均数的实测值会得到一个正数的Z值,小于平均数的实测值会得到一个负数的Z值。
一句话:
Z score通过(x-μ)/σ将两组或多组数据转化为无单位的Z score分值,使得数据标准统一化,提高了数据可比性,削弱了数据解释性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/124691.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言C位出道心法(三):共用体|枚举

C语言C位出道心法(一):基础语法 C语言C位出道心法(二):结构体|结构体指针|链表 一: C语言共用体数据类型认知 二:C语言枚举基本数据类型认知 忙着去耍帅,后期补充完整.............

Verilog刷题[hdlbits] :Alwaysblock2

题目&#xff1a;Alwaysblock2 For hardware synthesis, there are two types of always blocks that are relevant: 对于硬件综合&#xff0c;有两种相关的always块&#xff1a; Combinational: always () 组合型&#xff1a;always ()Clocked: always (posedge clk) 时钟型…

Python实现图片与PDF互相转换

目录 图片转PDF文件夹所有图片转为1个PDF文件夹指定图片转为1个PDF文件夹所有图片分别转为PDF举例 PDF转图片指定PDF转为图片文件夹所有PDF转为图片举例 图片转PDF 之前的一篇博客《Python合并拼接图片》&#xff0c;可对图片进行合并拼接 使用前需要安装PyMuPDF库&#xff0c…

设置区块链节点输出等级为警告级,并把日志存储阈值位100MB并验证;

题目 获取指定区块链节点输出等级为警告级&#xff0c;并设置日志存储阈值位100MB并验证&#xff1b; 操作步骤 1.切换目录 cd nodes/127.0.0.1/node0 2.打开配置文件并修改 vim config.ini warn&#xff1a;警告

力扣最热一百题——每日温度

Python后面的文章&#xff0c;内容都比较多&#xff0c;但是同时我又想保持每天更新的速度&#xff0c;所以Python的文章我继续打磨打磨&#xff0c;先更新一篇算法的文章。 一身正气报国家&#xff0c;旁无乱境不恋她 ヾ(◍∇◍)&#xff89;&#xff9e; 力扣题号&#xff1a…

大语言模型比武

今年随着 ChatGPT 的流行&#xff0c;并在各个领域有一定程度生产级别的应用。国内外也掀起了一股大语言模型浪潮&#xff0c;各大厂商都推出了自己的大语言模型&#xff0c;阿里推出了 通义千问&#xff0c;腾讯推出了 Hunyuan&#xff0c;亚马逊云推出了 Titan&#xff0c;大…

微服务-grpc-consul-protoBuf-micro

微服务 一、微服务&#xff08;microservices&#xff09; 近几年,微服这个词闯入了我们的视线范围。在百度与谷歌中随便搜一搜也有几千万条的结果。那么&#xff0c;什么是微服务 呢&#xff1f;微服务的概念是怎么产生的呢&#xff1f; 我们就来了解一下Go语言与微服务的千丝…

C++ 断言

1.断言的概念 断言(assertion)是一种编程中常用的手段。在通常情况下&#xff0c;断言就是将一个返回值总是需要为真的判别式放在语句中&#xff0c;用于排除在设计的逻辑上不应该产生的情况。比如一个函数总需要输人在一定的范围内的参数&#xff0c;那么程序员就可以对该参数…

汽车标定技术(五)--基于模型开发如何生成完整的A2L文件(1)

1 数据对象的创建 CtrlH打开Model Explorer&#xff0c;在Base workspace中点击工具栏add&#xff0c;出现如下界面&#xff0c; 可以看到Simulink提供了多种数据类型 Matlab Variable&#xff1a;Simulink.Parameter&#xff1a;使用该数据对象表示工程应用中的标定量Simuli…

CSS 渐变、文本效果、字体

一、CSS3渐变&#xff1a; CSS3渐变&#xff08;gradient&#xff09;可以在两个或多个指定的颜色之间显示平稳的过渡。CSS3定义了两种类型的渐变&#xff08;gradient&#xff09;&#xff1a;线性渐变&#xff08;linear gradient&#xff09;-向下/向上/向左/向右/对角方向…

MySQL–第4关:查询用户日活数及支付金额

MySQL–第4关&#xff1a;查询用户日活数及支付金额 – WhiteNights Site 标签&#xff1a;MySQL 非常好的题&#xff0c;爱来自中国。 题目 没啥用 任务描述 现有3张业务表&#xff0c;详见如下: 需要输出结果如下&#xff0c;没有支付的日期不需要显示&#xff0c;请写出对…

设计模式——建造者模式

目录 建造者模式盖房项目需求基本介绍四个角色实例代码注意事项和细节抽象工厂模式 VS 建造者模式 建造者模式 盖房项目需求 传统方式&#xff1a;打地基&#xff0c;砌墙&#xff0c;封顶 盖房子步骤 public abstract class AbstractHouse {// 地基public abstract void b…

【小白专用】PHP中的JSON转换操作指南 23.11.06

一、JSON的基础知识 1.1JSON数据格式 JSON数据格式是一组键值对的集合&#xff0c;通过逗号分隔。键值对由“键”和“值”组成&#xff0c;中间使用冒号分隔。JSON数据格式可以嵌套&#xff0c;而且可以使用数组 二、PHP中的JSON函数 JSON的操作需要使用编程语言进行处理&am…

软考软件设计师刷题笔记整理

软件设计师 HTML代码中&#xff0c;创建指向邮箱地址的链接正确的是ARP攻击造成网络无法跨网段通信的原因是在软件开发过程中进行风险分析关于哈夫曼树的叙述关于风险管理的叙述ISO/IEC9126软件质量模型关于结构化开发方法的叙述分布式数据库中的分片透明、复制透明、位置透明和…

day61--单调栈2

503.下一个更大元素II 42. 接雨水 第一题&#xff1a;下一个更大元素2 给定一个循环数组&#xff08;最后一个元素的下一个元素是数组的第一个元素&#xff09;&#xff0c;输出每个元素的下一个更大元素。数字 x 的下一个更大的元素是按数组遍历顺序&#xff0c;这个数字之…

前端工程化(vue2)

一、环境准备 1.依赖环境&#xff1a;NodeJS 官网&#xff1a;Node.js 2.脚手架&#xff1a;Vue-cli 参考网址&#xff1a;安装 | Vue CLI 介绍&#xff1a;Vue-cli用于快速的生成一个Vue的项目模板。主要功能有&#xff1a;统一的目录结构&#xff0c;本地调试&#xff0…

小程序day04

目标 自定义组件 创建组件 引用组件 局部引用 全局引用 组件的函数定义到metods节点中&#xff0c;梦回vue2. 样式 数据&#xff0c;方法&#xff0c;属性 下划线开头的称为自定义方法&#xff0c;非下划线开头的都是事件处理函数。 神特么&#xff0c;this.datathis.pro…

一种ESDF地图实现方法:FIESTA

背景&#xff1a; 在机器人定位、行动规划中建图是一个很重要的工作&#xff0c;只有通过感知器感知到自己在哪、周围有什么&#xff1b;才能为下一步行动作出决策的依据。然而要知道自己在哪&#xff0c;就必须要有一个整体规划和参照也就是所谓的地图。地图相当于是一次规划…

c语言 结构体 简单实例

结构体 简单例子 要求&#xff1a; 结构体保存学生信息操作 代码 #include <stdio.h>//定义结构体 struct student{int ID;char name[20];char sex;char birthday[8];int grade; };int main(){int number;printf("请输入学生个数&#xff1a;");scanf(&quo…

java入门,记一次mysql函数使用

一、前言 记一次mysql函数使用&#xff0c;要求给一个字段进行拼接&#xff0c;然后MD5加密&#xff0c;再转换成大写。这里都是有现成的函数&#xff0c;所以记录下来 二、函数使用 1、拼接函数&#xff1a; concat(字符串1,字符串2) select concat(字符串1,字符串2); 2、…