统计分析笔记3

文章目录

  • 统计检验
    • 选择正确的统计检验
      • 统计检验是做什么的?
      • 何时进行统计检验
      • 选择参数化测试:回归、比较或相关性
      • 选择非参数检验
    • 假设检验的假设条件
      • skewness
        • 什么是零偏度
        • right skew
        • left skew
        • 计算skewness
        • what to do if your data is skewed
      • kurtosis
        • 怎么计算kurtosis
    • t Tests
        • When to use a T test
        • What type of t test should I use?
        • 执行T检验

统计检验

选择正确的统计检验

统计检验用于假设检验。它们可以用来:

确定预测变量与结果变量是否有统计学上显著的关系。
估计两个或多个组之间的差异。
统计检验假设零假设为组间无关系或无差异。然后,它们确定观察到的数据是否落在零假设预测的值范围之外。

如果你已经知道你正在处理的变量类型,你可以使用流程图来为你的数据选择正确的统计检验。

统计检验是做什么的?

统计检验的工作原理是通过计算一个检验统计量——一个数字,描述你的测试中变量之间的关系与无关系的零假设相比有多大的不同。

然后,它计算一个 p 值(概率值)。p 值估计如果零假设(即变量之间无关系)为真,你看到由检验统计量描述的差异的可能性有多大。

如果检验统计量的值比从零假设计算出的统计量更极端,那么你可以推断出预测变量和结果变量之间存在统计学上显著的关系。

如果检验统计量的值不如从零假设计算出的那个极端,那么你可以推断预测变量和结果变量之间不存在统计学上显著的关系。

何时进行统计检验

你可以对以统计有效方式收集的数据进行统计检验——无论是通过实验还是通过使用概率抽样方法进行的观察。

为了使统计检验有效,你的样本量需要足够大,以近似所研究总体的真实分布。

要确定使用哪种统计检验,你需要知道:

  • 你的数据是否满足某些假设。
  • 你正在处理的变量类型。

统计假设
统计测试对它们正在测试的数据做出一些常见假设:

  • 观察的独立性(又称无自相关):你在测试中包含的观察/变量是不相关的(例如,对单一测试主体的多次测量不是独立的,而对多个不同测试主体的测量是独立的)。
  • 方差的同质性:被比较各组内的方差在所有组中是相似的。如果一个组的变异性比其他组大得多,它会限制测试的有效性。
  • 数据的正态性:数据遵循正态分布(又称钟形曲线)。这个假设只适用于定量数据。

如果你的数据不满足正态性或方差同质性的假设,你可能能进行非参数统计测试,这允许你在不对数据分布做任何假设的情况下进行比较。
如果你的数据不满足观察独立性的假设,你可能能使用考虑到你数据结构的测试(重复测量测试或包含阻塞变量的测试)。

变量类型
你拥有的变量类型通常决定了你可以使用什么类型的统计测试。

定量变量代表事物的数量(例如,森林中的树木数量)。定量变量的类型包括:

  • 连续变量(又称比率变量):代表测量值,通常可以划分为小于一的单位(例如,0.75克)。
  • 离散变量(又称整数变量):代表计数,通常不能划分为小于一的单位(例如,1棵树)。

分类变量代表事物的分组(例如,森林中不同的树种)。分类变量的类型包括:

  • 序数变量:代表有顺序的数据(例如,排名)。
  • 名义变量:代表组名称(例如,品牌或物种名称)。
  • 二元变量:代表有是/否或1/0结果的数据(例如,赢或输)。

选择适合你收集的预测变量和结果变量类型的测试(如果你正在做实验,这些是独立变量和依赖变量)。请参阅下面的表格,以查看哪个测试最符合你的变量。

选择参数化测试:回归、比较或相关性

参数化测试通常比非参数化测试有更严格的要求,并且能够从数据中做出更强的推断。它们只能用于符合统计测试常见假设的数据。

最常见的参数化测试类型包括回归测试、比较测试和相关性测试。

回归测试
回归测试寻找因果关系。它们可以用来估计一个或多个连续变量对另一个变量的影响。
在这里插入图片描述

比较测试
比较测试寻找组间平均值的差异。它们可以用来测试分类变量对某些其他特征的平均值的影响。

T检验用于比较恰好两组的平均值(例如,男性和女性的平均身高)。ANOVA(方差分析)和MANOVA(多元方差分析)测试用于比较两个以上组的平均值(例如,儿童、青少年和成人的平均身高)。
在这里插入图片描述

相关性测试
相关性测试检查变量之间是否存在关系,而不假设因果关系。

这些可以用来测试你想要在(例如)多元回归测试中使用的两个变量是否存在自相关。
在这里插入图片描述

选择非参数检验

非参数检验对数据的假设不那么多,当一个或多个常见的统计假设被违反时,它们是有用的。然而,它们做出的推论不如参数检验那样强。
在这里插入图片描述
在这里插入图片描述

假设检验的假设条件

skewness

偏度是分布不对称性的度量。当分布的左右两侧不是镜像关系时,该分布是不对称的。

分布可以有右偏(或正偏)、左偏(或负偏)或零偏度。右偏分布的右侧比峰值更长,左偏分布的左侧比峰值更长:
在这里插入图片描述
您可能想要计算分布的偏度以:

  • 描述变量的分布情况,与其他描述性统计量一同使用
  • 确定一个变量是否呈正态分布。正态分布的偏度为零,是许多统计程序的假设之一
什么是零偏度

当一个分布的偏度为零时,它是对称的。它的左右两侧是镜像的。

正态分布具有零偏度,但它们并不是唯一具有零偏度的分布。任何对称分布,如均匀分布或一些双峰(两个顶点)分布,也将具有零偏度。

检查一个变量是否有偏斜分布的最简单方法是将其绘制在直方图中。

该分布大致对称,观测值在其峰值的左右两侧分布相似。因此,该分布的偏度大约为零。
在这里插入图片描述

在偏度为零的分布中,均值和中位数相等。

零偏度:均值 = 中位数

right skew

在这里插入图片描述
Right skew: mean > median

left skew

在这里插入图片描述

Left skew: mean < median

计算skewness

在这里插入图片描述

what to do if your data is skewed

如果您的数据偏斜,您通常有三种选择,如果您的统计程序要求正态分布而您的数据偏斜:

  • 什么都不做。许多统计测试,包括t检验、方差分析(ANOVA)和线性回归,并不非常敏感于偏斜数据。特别是如果偏斜轻微或中等,最好忽略它。
  • 使用不同的模型。您可能想选择一个不假设正态分布的模型。非参数测试或广义线性模型可能更适合您的数据。
  • 转换变量。另一个选项是转换一个偏斜变量,使其偏斜程度减小。“转换”意味着对变量的所有观察值应用相同的函数。
    在这里插入图片描述

kurtosis

峰度是衡量分布尾部厚度的一个指标。尾部厚度是指异常值出现的频率。相对于正态分布的超额峰度是衡量分布尾部厚度的一个指标。

  • 具有中等峰度(中等尾部)的分布是中峰的。
  • 具有低峰度(薄尾部)的分布是扁峰的。
  • 具有高峰度(厚尾部)的分布是尖峰的。

尾部是分布两侧逐渐变细的末端。它们代表与均值相比极高或极低的值的概率或频率。换句话说,尾部代表异常值出现的频率。

在这里插入图片描述

怎么计算kurtosis

在这里插入图片描述
在这里插入图片描述
四阶标准矩 (Fourth order standardized moment)是峰度(Kurtosis),峰度是描述随机变量分布尖锐程度的统计量,衡量分布曲线在均值附近平坦或者是尖峰的程度。当峰度值等于3时,当前分布的峰态与正态分布一致;当峰度值大于3时,均值附近较尖锐,尾部较厚,高峰度分布;当峰度值小于3时,均值附近较平坦,尾部较薄,低峰度分布。

t Tests

T检验是一种用来比较两组均值的统计检验。它常用于假设检验中,以确定某个过程或治疗是否真的对感兴趣的总体有影响,或者两组之间是否存在差异。

t检验示例
您想知道根据其种类,鸢尾花的花瓣长度均值是否有差异。您在一个花园中找到两种不同的鸢尾花种类,并测量了每种种类的25朵花的花瓣。您可以使用t检验和零假设及备择假设来检验这两组之间的差异。
零假设(H0)是这两个组的均值之间的真实差异为零。
备择假设(Ha)是真实差异不为零。

When to use a T test

T检验仅在比较两组的均值时使用(也称为成对比较)。如果您想比较两个以上的组,或者想进行多个成对比较,请使用ANOVA检验或事后检验。

T检验是一种参数差异检验,这意味着它对数据做出了与其他参数检验相同的假设。T检验假设您的数据:

  • 是独立的
  • (大致)呈正态分布
  • 在每个被比较的组内有相似的方差量(也称为方差齐性)

如果您的数据不符合这些假设,您可以尝试T检验的非参数替代方法,如Wilcoxon符号秩检验,用于方差不等的数据。

What type of t test should I use?

在选择T检验时,您需要考虑两件事:被比较的组是否来自单一群体或两个不同群体,以及您是否想测试特定方向上的差异。

One-sample, two-sample, or paired t test?

  • 如果组来自单一群体(例如,在实验处理前后进行测量),进行配对T检验。这是一种被试内设计。
  • 如果组来自两个不同的群体(例如,两种不同的物种,或来自两个不同城市的人),进行两样本T检验(也称为独立T检验)。这是一种被试间设计。
  • 如果有一个组与标准值进行比较(例如,将液体的酸度与中性pH值7进行比较),进行单样本T检验。

One-tailed or two-tailed t test?

  • 如果你只关心两个群体是否不同,进行双尾T检验。
  • 如果你想知道一个群体的平均值是大于还是小于另一个群体,进行单尾T检验

t test example
在你测试花瓣长度是否因种类而异的实验中:
你的观测来自两个不同的群体(不同的种类),因此你进行了两样本T检验。
你不关心差异的方向,只关心是否存在差异,所以你选择使用双尾T检验。

执行T检验

T检验通过使用两组均值之差与两组的合并标准误之比来估计两组均值之间的真实差异。你可以使用公式手动计算,或使用统计分析软件。
在这里插入图片描述
较大的t值显示组均值之间的差异大于合并标准误,表明组之间的差异更显著。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/414795.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python进阶学习:Pandas--将一种的数据类型转换为另一种类型(astype())

Python进阶学习&#xff1a;Pandas–将一种的数据类型转换为另一种类型(astype()) &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&…

【C++那些事儿】深入理解C++类与对象:从概念到实践(上)| 揭开this指针的神秘面纱

&#x1f4f7; 江池俊&#xff1a; 个人主页 &#x1f525;个人专栏&#xff1a; ✅数据结构冒险记 ✅C那些事儿 &#x1f305; 有航道的人&#xff0c;再渺小也不会迷途。 文章目录 1. 面向过程和面向对象初步认识2.类的引入3.类的定义4.类的访问限定符及封装4.1 访问限定符…

TikTok云手机可以运营多少个账号

在社交媒体平台上&#xff0c;尤其是像TikTok这样的热门应用中&#xff0c;账号运营已经成为了许多人的日常工作。而利用云手机技术&#xff0c;一台手机能够同时运营多个TikTok账号&#xff0c;为用户带来了更大的便利和灵活性。本文将探讨 TikTok云手机能够运营多少个账号&am…

网站的安全防护需要注意哪些问题?有什么方法可以加固网站的防护

网站的安全防护&#xff0c;是一项复杂性、多方面的系统工程。现如今网络安全风险的增加&#xff0c;使得上至国家部门机关&#xff0c;小到个人博客&#xff0c;都有可能遭受网络安全问题。说到网络安全问题&#xff0c;比如&#xff1a;竞争最为激烈的游戏行业&#xff0c;从…

【GO开发工程师】grpc进阶#golang

【GO开发工程师】grpc进阶#golang 推荐个人主页&#xff1a;席万里的个人空间 文章目录 【GO开发工程师】grpc进阶#golang1、protobuf2、grpc2.1、gRPC 的 Metadata机制2.2、grpc拦截器 1、protobuf syntax "proto3"; // 指定使用的 protobuf 版本为 proto3 import…

配置前端项目到 github-pages

Quickstart for GitHub Pages - GitHub Docs

云计算新宠:探索Apache Doris的云原生策略

文章目录 Apache Doris 特性极简架构高效自运维高并发场景支持MPP 执行引擎明细与聚合模型的统一便捷数据接入 Apache Doris 极速 1.0 时代极速列式内存布局向量化的计算框架Cache 亲和度虚函数调用SIMD 指令集 稳定多源 关于 Apache Doris 开源社区基于云原生向量数据库Milvus…

大模型(LLM)的token学习记录-I

文章目录 基本概念什么是token?如何理解token的长度&#xff1f;使用openai tokenizer 观察token的相关信息open ai的模型 token的特点token如何映射到数值&#xff1f;token级操作&#xff1a;精确地操作文本token 设计的局限性 tokenizationtoken 数量对LLM 的影响训练模型参…

设计模式七:责任链模式

文章目录 1、责任链模式2、spring中的责任链模式Spring InterceptorServlet FilterNetty 1、责任链模式 责任链模式为请求创建了一个接收者对象的链&#xff0c;在这种模式下&#xff0c;通常每个节点都包含对另一个节点者的引用。每个节点针对请求&#xff0c;处理自己感兴趣…

基于springboot+vue的大学城水电管理系统(前后端分离)

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

特征融合篇 | YOLOv8 引入通用高效层聚合网络 GELAN | YOLOv9 新模块

今天的深度学习方法专注于如何设计最合适的目标函数,以使模型的预测结果最接近真实情况。同时,必须设计一个合适的架构,以便为预测提供足够的信息。现有方法忽视了一个事实,即当输入数据经过逐层特征提取和空间转换时,会丢失大量信息。本文将深入探讨数据通过深度网络传输…

UE 贴地绘制/日历/鼠标光标滚轮位置缩放图片/UMG滚动数据从前后添加新UI/多图片批量下载 收费项目源码资源

基本里面的内容本人CSDN发的都有现成代码.里面大部分是功能实现思路.这里面是把这几个功能合成了一个完整5.1项目源码.拿到即用.收费项目源码资源. 1.贴地绘制 2.日历 3.鼠标光标滚轮位置缩放图片 \ 4.UMG滚动数据从前后添加新UI思路 5.多图片批量下载 这是整合的懒人源码包收…

Rocky Linux 运维工具yum

一、yum的简介 ​​yum​是用于在基于RPM包管理系统的包管理工具。用户可以通过 ​yum​来搜索、安装、更新和删除软件包&#xff0c;自动处理依赖关系&#xff0c;方便快捷地管理系统上的软件。 二、yum的参数说明 1、install 用于在系统的上安装一个或多个软件包 2、seach 用…

【HarmonyOS】鸿蒙开发之Video组件——第3.7章

Video组件内VideoOptions属性简介 src&#xff1a;设置视频地址。currentProgressRate&#xff1a;设置视频播放倍速&#xff0c;参数说明如下&#xff1a; number|string&#xff1a;只支持 0.75 &#xff0c; 1.0 &#xff0c; 1.25 &#xff0c; 1.75 &#xff0c; 2.0 。P…

JavaEE进阶(7)Spring Boot 日志(概述、用途、使用:打印日志,框架介绍,SLF4J 框架介绍、更简单的日志输出)

接上次博客&#xff1a;JavaEE进阶&#xff08;6&#xff09;SpringBoot 配置文件&#xff08;作用、格式、properties配置文件说明、yml配置文件说明、验证码案例&#xff09;-CSDN博客 目录 日志概述 日志的用途 日志使用 打印日志 在程序中获取日志对象 使用日志对象…

androidble蓝牙开发,12道Android高级面试题

Java面试题 1.GC机制 垃圾回收需要完成两件事&#xff1a;找到垃圾&#xff0c;回收垃圾。 找到垃圾一般的话有两种方法&#xff1a; 引用计数法&#xff1a; 当一个对象被引用时&#xff0c;它的引用计数器会加一&#xff0c;垃圾回收时会清理掉引用计数为0的对象。但这种方…

论文笔记:A survey on zero knowledge range proofs and applications

https://link.springer.com/article/10.1007/s42452-019-0989-z 描述了构建零知识区间证明&#xff08;ZKRP&#xff09;的不同策略&#xff0c;例如2001年Boudot提出的方案&#xff1b;2008年Camenisch等人提出的方案&#xff1b;以及2017年提出的Bulletproofs。 Introducti…

SpringBoot案例(黑马学习笔记)

这个案例呢&#xff0c;就是Tlias智能学习辅助系统。 参考接口文档完成后端功能的开 发&#xff0c;然后结合前端工程进行联调测试即可。 完成后的成品效果展示&#xff1a; 准备工作 需求&环境搭建 需求说明 部门管理 部门管理功能开发包括&#xff1a; ● 查询部门列…

【JavaSE】实用类——枚举类型、包装类、数学类

目录 Java API枚举优势代码示例 包装类作用包装类和基本数据类型的对应关系包装类的构造方法包装类的常用方法装箱和拆箱 留一个问题大家猜猜看包装类的特点 Math类Random类代码示例 Java API Java API(Java Application Programming Interface) 即Java应用程序编程接口&#…

设备管理系统解决方案

软件资料获取&#xff1a;软件项目开发全套文档下载_软件项目文档-CSDN博客 1.系统概述 1.1.需求描述 建立设备信息库&#xff0c;对设备相关档案的登录、整理。通过建立完善的设备档案&#xff0c;将设备的各类原始信息进行信息化管理&#xff0c;使设备档案查询工作方便快…