机器学习数学基础:30.Pearson相关系数及t检验教程

Pearson相关系数及t检验教程

一、定义与原理

Pearson相关系数

Pearson相关系数(记为 ρ X , Y \rho_{X,Y} ρX,Y)用于衡量两个变量 X X X Y Y Y之间线性相关的强度与方向,取值范围在 − 1 -1 1 1 1 1之间。公式为 ρ X , Y   = cov ( X , Y ) σ X σ Y   = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y \rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}\ =\frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y} ρX,Y =σXσYcov(X,Y) =σXσYE[(XμX)(YμY)],其中 cov ( X , Y ) \text{cov}(X,Y) cov(X,Y)是协方差,反映两个变量的总体误差; σ X \sigma_X σX σ Y \sigma_Y σY分别是 X X X Y Y Y的标准差,衡量变量的离散程度; μ X \mu_X μX μ Y \mu_Y μY分别是 X X X Y Y Y的均值。值为正表示正相关,为负表示负相关,绝对值越接近 1 1 1,线性相关越强;接近 0 0 0,线性相关越弱。

t检验

在Pearson相关系数的应用中,t检验用于检验总体中两个变量是否真的存在线性相关关系。因为样本计算出的相关系数可能受到抽样误差的影响,通过t检验可以判断基于样本得到的相关关系在总体层面是否具有统计学意义。

二、计算步骤

计算Pearson相关系数

  1. 准备数据:收集两个变量 X X X Y Y Y n n n组观测值 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) (x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n) (x1,y1),(x2,y2),,(xn,yn)
  2. 计算均值 μ X   = 1 n ∑ i   = 1 n x i \mu_X \ = \frac{1}{n}\sum_{i \ = 1}^{n}x_i μX =n1i =1nxi μ Y   = 1 n ∑ i   = 1 n y i \mu_Y \ = \frac{1}{n}\sum_{i \ = 1}^{n}y_i μY =n1i =1nyi
  3. 计算协方差 cov ( X , Y )   = 1 n ∑ i   = 1 n ( x i − μ X ) ( y i − μ Y ) \text{cov}(X,Y)\ =\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)(y_i - \mu_Y) cov(X,Y) =n1i =1n(xiμX)(yiμY)
  4. 计算标准差 σ X   = 1 n ∑ i   = 1 n ( x i − μ X ) 2 \sigma_X\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)^2} σX =n1i =1n(xiμX)2 σ Y   = 1 n ∑ i   = 1 n ( y i − μ Y ) 2 \sigma_Y\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(y_i - \mu_Y)^2} σY =n1i =1n(yiμY)2
  5. 计算相关系数:将协方差和标准差代入公式 ρ X , Y   = cov ( X , Y ) σ X σ Y \rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y} ρX,Y =σXσYcov(X,Y)

进行t检验

  1. 建立假设
    • 原假设 H 0 H_0 H0:总体的相关系数 ρ   = 0 \rho \ = 0 ρ =0,即总体中两个变量之间不存在线性相关关系。
    • 备择假设 H 1 H_1 H1:总体的相关系数 ρ ≠ 0 \rho\neq 0 ρ=0,即总体中两个变量之间存在线性相关关系。
  2. 计算t统计量:公式为 t   = r n − 2 1 − r 2 t\ =\frac{r\sqrt{n - 2}}{\sqrt{1 - r^{2}}} t =1r2 rn2 ,其中 r r r为计算得到的Pearson相关系数, n n n为样本数量。
  3. 确定临界值:根据给定的显著性水平 α \alpha α(常用 0.05 0.05 0.05)和自由度 d f   = n − 2 df \ = n - 2 df =n2,查阅 t t t分布表得到临界值 t α / 2 ( n − 2 ) t_{\alpha/2}(n - 2) tα/2(n2)
  4. 做出决策
    • 如果 ∣ t ∣ > t α / 2 ( n − 2 ) \vert t\vert>t_{\alpha/2}(n - 2) t>tα/2(n2),则拒绝原假设 H 0 H_0 H0,认为总体中两个变量之间存在线性相关关系。
    • 如果 ∣ t ∣ ≤ t α / 2 ( n − 2 ) \vert t\vert\leq t_{\alpha/2}(n - 2) ttα/2(n2),则不能拒绝原假设 H 0 H_0 H0,即没有足够证据表明总体中两个变量之间存在线性相关关系。

三、实例演示

研究每周运动时间 X X X(小时)和体重减少量 Y Y Y(千克)的关系,选取 6 6 6名参与者的数据:

参与者 X X X Y Y Y
131
252
341.5
462.5
520.5
673

计算Pearson相关系数

  1. 均值: μ X   = 3 + 5 + 4 + 6 + 2 + 7 6   = 4.5 \mu_X\ =\frac{3 + 5 + 4 + 6 + 2 + 7}{6}\ =4.5 μX =63+5+4+6+2+7 =4.5 μ Y   = 1 + 2 + 1.5 + 2.5 + 0.5 + 3 6   = 1.75 \mu_Y\ =\frac{1 + 2 + 1.5 + 2.5 + 0.5 + 3}{6}\ =1.75 μY =61+2+1.5+2.5+0.5+3 =1.75
  2. 协方差: cov ( X , Y )   = ( 3 − 4.5 ) × ( 1 − 1.75 ) + ( 5 − 4.5 ) × ( 2 − 1.75 ) + ( 4 − 4.5 ) × ( 1.5 − 1.75 ) + ( 6 − 4.5 ) × ( 2.5 − 1.75 ) + ( 2 − 4.5 ) × ( 0.5 − 1.75 ) + ( 7 − 4.5 ) × ( 3 − 1.75 ) 6 ≈ 1.375 \text{cov}(X,Y)\ =\frac{(3 - 4.5)\times(1 - 1.75)+(5 - 4.5)\times(2 - 1.75)+(4 - 4.5)\times(1.5 - 1.75)+(6 - 4.5)\times(2.5 - 1.75)+(2 - 4.5)\times(0.5 - 1.75)+(7 - 4.5)\times(3 - 1.75)}{6}\approx1.375 cov(X,Y) =6(34.5)×(11.75)+(54.5)×(21.75)+(44.5)×(1.51.75)+(64.5)×(2.51.75)+(24.5)×(0.51.75)+(74.5)×(31.75)1.375
  3. 标准差: σ X   = ( 3 − 4.5 ) 2 + ( 5 − 4.5 ) 2 + ( 4 − 4.5 ) 2 + ( 6 − 4.5 ) 2 + ( 2 − 4.5 ) 2 + ( 7 − 4.5 ) 2 6 ≈ 1.87 \sigma_X\ =\sqrt{\frac{(3 - 4.5)^2+(5 - 4.5)^2+(4 - 4.5)^2+(6 - 4.5)^2+(2 - 4.5)^2+(7 - 4.5)^2}{6}}\approx1.87 σX =6(34.5)2+(54.5)2+(44.5)2+(64.5)2+(24.5)2+(74.5)2 1.87 σ Y   = ( 1 − 1.75 ) 2 + ( 2 − 1.75 ) 2 + ( 1.5 − 1.75 ) 2 + ( 2.5 − 1.75 ) 2 + ( 0.5 − 1.75 ) 2 + ( 3 − 1.75 ) 2 6 ≈ 0.94 \sigma_Y\ =\sqrt{\frac{(1 - 1.75)^2+(2 - 1.75)^2+(1.5 - 1.75)^2+(2.5 - 1.75)^2+(0.5 - 1.75)^2+(3 - 1.75)^2}{6}}\approx0.94 σY =6(11.75)2+(21.75)2+(1.51.75)2+(2.51.75)2+(0.51.75)2+(31.75)2 0.94
  4. 相关系数: r   = 1.375 1.87 × 0.94 ≈ 0.78 r\ =\frac{1.375}{1.87\times0.94}\approx0.78 r =1.87×0.941.3750.78

进行t检验

  1. 计算 t t t统计量: t   = 0.78 6 − 2 1 − 0.7 8 2 ≈ 2.84 t\ =\frac{0.78\sqrt{6 - 2}}{\sqrt{1 - 0.78^{2}}}\approx2.84 t =10.782 0.7862 2.84
  2. 设显著性水平 α   = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f   = 6 − 2   = 4 df \ = 6 - 2 \ = 4 df =62 =4,查 t t t分布表得 t 0.025 ( 4 )   = 2.776 t_{0.025}(4)\ =2.776 t0.025(4) =2.776
  3. 因为 ∣ 2.84 ∣ > 2.776 \vert 2.84\vert>2.776 ∣2.84∣>2.776,拒绝原假设 H 0 H_0 H0,认为总体中每周运动时间和体重减少量之间存在线性相关关系。

四、注意事项

  1. 数据要求:Pearson相关系数理想情况是变量服从正态分布,样本量足够大时对非正态有一定稳健性。同时,t检验的有效性也依赖于数据的正态性假设。
  2. 关系性质:Pearson相关系数仅衡量线性相关,若变量间存在非线性关系,可能得出错误结论。
  3. 因果关系:相关不代表因果,两个变量相关可能是受其他未考虑因素的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/975542.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

forge-1.21.x模组开发(二)给物品添加功能

功能效果 创建一个兑换券,当使用兑换券对着兑换机右键时,获得一条烤鱼 创建兑换券 创建ExchangeCouponsItem.java,继承Item,定义兑换券内容 public class ExchangeCouponsItem extends Item {public ExchangeCouponsItem(Prop…

NIO-Reactor模型梳理与demo实现

关于NIO,我们在上一篇 linux下网络编程socket&select&epoll的底层实现原理 就介绍了网络阻塞IO、以及基于事件驱动的非阻塞IO。对于NIO的API基本使用是java提供的接口,然后我们在业务上对NIO的使用,也是有不同的使用方法的。然后在我…

数据结构与算法-搜索-双向搜索 和 A*算法(字串变换,八数码,第k短路)

双向搜索: 双向搜索是一种优化的搜索策略,常用于在状态空间中寻找从起始点到目标点的路径或满足特定条件的状态 基本概念 双向搜索指的是从起始点和目标点同时出发进行搜索的方法。传统的单向搜索,如深度优先搜索(DFS&#xff09…

Java实现斗地主-做牌以及对牌排序

卡牌类 public class Card {private String size;//大小private String color;//花色private int value;//权值public Card() {}public Card(String size, String color, int value) {this.size size;this.color color;this.value value;}public String toString(){return …

Tesla T4 显卡 Linux 64-bit Ubuntu 24.04 驱动和cuda系统支持版本

搜索结果 | <dd~ProductName> | <dd~OSName> | NVIDIA 操作系统和硬件平台&#xff1a;页面展示的是适用于Linux 64位操作系统&#xff0c;版本为Ubuntu 24.04&#xff0c;并且专门为Tesla T4等NVIDIA数据中心GPU提供驱动程序。 驱动版本&#xff1a;页面列出了不…

申请SSL证书,如何完成域名验证

一、前言 给大家分享一下Lets Encrypt 证书申请时&#xff0c;如何完成域名验证这一步操作的方法。 二、为什么要进行域名验证 申请SSL证书时进行域名验证的主要原因是确保证书只颁发给有权控制特定域名的实体。这是为了保证互联网的安全性和信任&#xff0c;防止恶意方获取不…

Innovus中快速获取timing path逻辑深度的golden脚本

在实际项目中我们经常会遇到一条timing path级数特别多&#xff0c;可能是一两页都翻不完。此时&#xff0c;我们大都需要手工去数这条path上到底有哪些是设计本身的逻辑&#xff0c;哪些是PR工具插入的buffer和inverter。 数字IC后端手把手培训教程 | Clock Gating相关clock …

MySQL | MySQL库、表的基本操作01

MySQL库、表的基本操作01 一、库操作1.1 查看数据库1.2 创建数据库1.3 选择数据库1.4 查看创建数据库的SQL语句1.5 修改数据库1.6 删除数据库 二、表操作2.1 创建数据表2.2 查看表2.3 查看表结构2.4 查看创建数据库的SQL语句2.5 修改表2.6 删除表 ⚠️MySQL版本 8.0 一、库操作…

Cocos Creator Shader入门实战(一):材质和Effect的了解

引擎版本&#xff1a;3.8.5 环境&#xff1a; Windows 简介 在Cocos Creator中&#xff0c;游戏炫彩缤纷的效果是借助着色器(Shader)来实现的。 Cocos主要基于OpenGL ES&#xff0c;而Shader的编写则是在可编程渲染管线中基于修改&#xff1a;顶点着色器(Vertex) 和 片段着色…

【2025深度学习环境搭建-1】在Win11上用WSL2和Docker解锁GPU加速

建议有&#xff1a; 较新的win11电脑&#xff0c;GPU是nvidia一点点Linux基础一点点Docker基础 一、安装WSL2 【控制面板】》【程序】》【启用或关闭Windows功能】 打开三个功能&#xff1a;【Hyper-V】【Virtual Machine Platform】【适用于Linux的Windows子系统】 可能看…

每天五分钟深度学习pytorch:使用Inception模块搭建GoogLeNet模型

本文重点 前面我们学习了Incetption模块,它的作用类似于vgg块对于VGG网络模型一样,本文我们使用Inception搭建GoogLeNet网络,如果使用卷积层开始从头开始搭建GoogleNet,那么这样看起来会很不清晰,我们使用已经封装好的Inception来搭建GoogLeNet网络 关键点 关键点在于I…

Open WebUI 是什么

Open WebUI 是什么 Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台,旨在完全离线运行。它支持各种 LLM 运行器,如 Ollama 和 OpenAI 兼容的 API,并内置了 RAG 推理引擎,使其成为强大的 AI 部署解决方案。 https://github.com/open-webui/open-webui 🚀 …

ssh与服务器

目录 前言&#xff1a; 一、密码连接 二、密钥对连接 1.将公钥放在服务器 2.ssh连接 三、禁用密码 1.进入服务器/etc/ssh文件夹 2.打开sshd_config文件&#xff0c;进行如下配置 3.有可能还需要更改其他文件夹 4.重启ssh服务 四、config 五.ssh与github 1.本地创建…

图像处理篇---图像处理中常见参数

文章目录 前言一、分贝&#xff08;dB&#xff09;的原理1.公式 二、峰值信噪比&#xff08;PSNR, Peak Signal-to-Noise Ratio&#xff09;1.用途2.公式3.示例 三、信噪比&#xff08;SNR, Signal-to-Noise Ratio&#xff09;1.用途2.公式3.示例 四、动态范围&#xff08;Dyna…

剖析IO原理和零拷贝机制

目录 1 Linux的五种IO模型1.1 模型调用的函数1.1.1 recv函数1.1.2 select函数1.1.3 poll函数1.1.4 epoll函数1.1.5 sigaction函数 1.2 IO模型1.2.1 阻塞IO模型1.2.2 非阻塞IO模型1.2.3 IO复用模型1.2.4 信号驱动IO模型1.2.5 异步IO模型1.2.6 IO模型比较 2 Java的BIO、NIO、AIO2…

DeepSeek 助力 Vue 开发:打造丝滑的滑块(Slider)

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…

vivado 在ip引出来emio 没有显示

原因是IP核 block design 里面需要ctrs 保存了 再generate output

C进阶 自定义类型

目录 前言 一 结构体 二 结构体的存储 三 位段 四 枚举 五 联合体 总结 前言 我们之前学习的int char double ......都是内置类型&#xff0c;但是我们今天所学习的是自定义类型&#xff0c;比如联合体&#xff0c;结构体&#xff0c;枚举 一 结构体 结构体是一…

四、综合案例(Unity2D)

一、2D渲染 1、2D相机基本设置 上面是透视&#xff0c;下面是正交 2、图片资源 在Unity中&#xff0c;常规图片导入之后&#xff0c;一般不在Unity中直接使用&#xff0c;而是转为精灵图Sprite 将图片更改为即可使用Unity内置的图片切割功能 无论精灵图片是单个的还是多个的…

使用大语言模型对接OA系统,实现会议室预定功能

随着人工智能技术的不断进步&#xff0c;越来越多的企业开始借助 AI 助手来提高工作效率&#xff0c;尤其是在日常事务的自动化处理中。比如&#xff0c;在许多公司里&#xff0c;会议室的预定是一个常见且频繁的需求&#xff0c;通常需要员工手动检查空闲时间并做出选择。而通…