机器学习数学基础:37.偏相关分析

偏相关分析教程

一、偏相关分析是什么

在很多复杂的系统中,比如地理系统,会有多个要素相互影响。偏相关分析就是在这样多要素构成的系统里,不考虑其他要素的干扰,专门去研究两个要素之间关系紧密程度的一种方法。用来衡量这种紧密程度的数值,叫做偏相关系数。

举个简单例子,在研究一个地区的房价时,房价会受到很多因素影响,像地段、房屋面积、周边配套设施等。如果我们想知道单纯的房屋面积和房价之间的关系,就可以用偏相关分析,把地段、周边配套设施等其他因素的影响先排除掉。

二、适用场景

偏相关分析适用于各种多因素影响的场景,不仅是地理领域,在经济领域分析商品销量和价格关系时,可控制消费者喜好、广告投入等因素;在教育领域研究学生成绩和学习方法的关系时,可控制学生的基础水平、家庭环境等因素。只要存在多个因素相互关联,且你想明确其中两个因素的纯粹关系,都能用到它。

三、相关符号含义

(一)偏相关系数公式符号

在分析变量 x 1 x_1 x1 x 2 x_2 x2之间的净相关(也就是排除其他因素后的相关关系),并且控制了变量 x 3 x_3 x3的影响时,会用到一阶偏相关系数公式 r 12.3   = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23,公式里各符号含义如下:

  • r 12 r_{12} r12:变量 x 1 x_1 x1 x 2 x_2 x2的简单相关系数,就是不考虑其他因素时,这两个变量之间的相关程度。比如在研究身高( x 1 x_1 x1)和体重( x 2 x_2 x2)关系时,不考虑年龄、饮食习惯等因素算出来的相关系数。
  • r 13 r_{13} r13:变量 x 1 x_1 x1 x 3 x_3 x3的简单相关系数。比如身高( x 1 x_1 x1)和年龄( x 3 x_3 x3)的相关系数。
  • r 23 r_{23} r23:变量 x 2 x_2 x2 x 3 x_3 x3的简单相关系数。比如体重( x 2 x_2 x2)和年龄( x 3 x_3 x3)的相关系数。
  • r 12.3 r_{12.3} r12.3:控制变量 x 3 x_3 x3后,变量 x 1 x_1 x1 x 2 x_2 x2之间的一阶偏相关系数。它反映了排除 x 3 x_3 x3的影响后, x 1 x_1 x1 x 2 x_2 x2的相关程度。

(二)显著性检验公式符号

公式 t   = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2 ,服从 t ( n − k − 2 ) t(n - k - 2) t(nk2)分布,用于偏相关系数的显著性检验,其中各符号含义为:

  • t t t:计算得出的统计量,用于和临界值比较,以此判断偏相关系数是否显著。
  • r r r:代表偏相关系数,即通过偏相关分析公式计算得到的,体现两个变量在控制其他变量影响后的相关程度的数值,范围在 − 1 -1 1 1 1 1之间。
  • n n n:表示样本容量,也就是参与分析的数据的数量。
  • k k k:是控制变量的个数。

四、计算步骤

(一)计算偏相关系数(以研究农作物产量、施肥量和降水量关系为例)

假设我们要研究农作物产量( x 1 x_1 x1)和施肥量( x 2 x_2 x2)之间的关系,同时知道降水量( x 3 x_3 x3)也会影响它们,现在来计算控制降水量后,产量和施肥量的偏相关系数。

  1. 收集数据并计算简单相关系数
    收集多年的农作物产量、施肥量、降水量数据。通过统计分析计算得到:
    • 农作物产量与施肥量的简单相关系数 r 12   = 0.6 r_{12}\ =0.6 r12 =0.6
    • 农作物产量与降水量的简单相关系数 r 13   = 0.4 r_{13}\ =0.4 r13 =0.4
    • 施肥量与降水量的简单相关系数 r 23   = 0.3 r_{23}\ =0.3 r23 =0.3
  2. 计算一阶偏相关系数 r 12.3 r_{12.3} r12.3
    把上面得到的数值代入公式 r 12.3   = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23
    r 12.3   = 0.6 − 0.4 × 0.3 ( 1 − 0. 4 2 ) ( 1 − 0. 3 2 )   = 0.6 − 0.12 ( 1 − 0.16 ) ( 1 − 0.09 )   = 0.48 0.84 × 0.91   = 0.48 0.7644 ≈ 0.55 \begin{align*} r_{12.3}&\ =\frac{0.6 - 0.4×0.3}{\sqrt{(1 - 0.4^{2})(1 - 0.3^{2})}}\\ &\ =\frac{0.6 - 0.12}{\sqrt{(1 - 0.16)(1 - 0.09)}}\\ &\ =\frac{0.48}{\sqrt{0.84×0.91}}\\ &\ =\frac{0.48}{\sqrt{0.7644}}\\ &\approx0.55 \end{align*} r12.3 =(10.42)(10.32) 0.60.4×0.3 =(10.16)(10.09) 0.60.12 =0.84×0.91 0.48 =0.7644 0.480.55
  3. 结果分析
    得到的一阶偏相关系数 r 12.3 ≈ 0.55 r_{12.3}\approx0.55 r12.30.55,说明在排除降水量的影响后,农作物产量和施肥量之间存在比较明显的正相关关系,即不考虑降水量因素,施肥量增加,农作物产量也倾向于增加。

(二)偏相关系数的显著性检验(接着上述例子)

  1. 计算 t t t统计量
    假设样本数量 n   = 30 n \ = 30 n =30(即收集了30组农作物产量、施肥量和降水量的数据),这里控制变量只有降水量,即 k   = 1 k \ = 1 k =1,偏相关系数 r   = 0.55 r \ = 0.55 r =0.55,将这些值代入公式 t   = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2
    t   = 0.55 × 30 − 1 − 2 1 − 0.5 5 2   = 0.55 × 27 1 − 0.3025   = 0.55 × 5.2 0.6975   = 2.86 0.6975 ≈ 3.43 \begin{align*} t&\ =\frac{0.55\times\sqrt{30 - 1 - 2}}{\sqrt{1 - 0.55^{2}}}\\ &\ =\frac{0.55\times\sqrt{27}}{\sqrt{1 - 0.3025}}\\ &\ =\frac{0.55\times5.2}{\sqrt{0.6975}}\\ &\ =\frac{2.86}{\sqrt{0.6975}}\\ &\approx3.43 \end{align*} t =10.552 0.55×3012  =10.3025 0.55×27  =0.6975 0.55×5.2 =0.6975 2.863.43
  2. 确定临界值并判断
    设定显著性水平 α   = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f   = n − k − 2   = 30 − 1 − 2   = 27 df\ =n - k - 2 \ = 30 - 1 - 2 \ = 27 df =nk2 =3012 =27。查 t t t分布表,找到自由度为 27 27 27,双侧 α   = 0.05 \alpha \ = 0.05 α =0.05时的临界值约为 2.052 2.052 2.052
    由于计算得到的 ∣ t ∣   = 3.43 > 2.052 \vert t\vert \ = 3.43> 2.052 t =3.43>2.052,所以拒绝原假设(原假设为总体中控制降水量后,农作物产量和施肥量无相关关系) 。这表明在总体中,控制降水量后,农作物产量和施肥量之间存在显著的相关关系。

五、注意事项

  1. 偏相关分析依赖的数据必须准确可靠,数据质量不好会影响结果准确性。
  2. 确定控制变量很关键,如果选择了不恰当的控制变量,可能得不到想要的纯粹的两个变量之间的关系。
  3. 偏相关系数只能说明两个变量在排除其他因素后的关联程度,不能直接说明存在因果关系。
  4. 在进行显著性检验时,要正确确定样本容量和控制变量个数,以保证自由度计算准确,从而得出可靠的检验结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/976124.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙开发深入浅出04(首页数据渲染、搜索、Stack样式堆叠、Grid布局、shadow阴影)

鸿蒙开发深入浅出04(首页数据渲染、搜索、Stack样式堆叠、Grid布局、shadow阴影) 1、效果展示2、ets/pages/Home.ets3、ets/views/Home/SearchBar.ets4、ets/views/Home/NavList.ets5、ets/views/Home/TileList.ets6、ets/views/Home/PlanList.ets7、后端…

SOME/IP-SD -- 协议英文原文讲解2

前言 SOME/IP协议越来越多的用于汽车电子行业中,关于协议详细完全的中文资料却没有,所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块: 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 5.1.2.2 S…

Spring AI + Ollama 实现调用DeepSeek-R1模型API

一、前言 随着人工智能技术的飞速发展,大语言模型(LLM)在各个领域的应用越来越广泛。DeepSeek 作为一款备受瞩目的国产大语言模型,凭借其强大的自然语言处理能力和丰富的知识储备,迅速成为业界关注的焦点。无论是文本生…

验证码介绍及生成与验证

验证码介绍及生成与验证 验证码 验证码(全自动区分计算机和人类的图灵测试,‌CAPTCHA ,C‌ompletely ‌A‌utomated ‌P‌ublic ‌T‌uring test to tell ‌C‌omputers and ‌H‌umans ‌A‌part)是一种用于区分用户是人类还是…

点击修改按钮图片显示有问题

问题可能出在表单数据的初始化上。在 ave-form.vue 中,我们需要处理一下从后端返回的图片数据,因为它们可能是 JSON 字符串格式。 vue:src/views/tools/fake-strategy/components/ave-form.vue// ... existing code ...Watch(value)watchValue(v: any) …

陀螺匠·企业助手v1.8 产品介绍

陀螺匠企业助手是一套采用Laravel 9框架结合Swoole高性能协程服务与Vue.js前端技术栈构建的新型智慧企业管理与运营系统。该系统深度融合了客户管理、项目管理、审批流程自动化以及低代码开发平台,旨在为企业提供一站式、数字化转型的全方位解决方案,助力…

C++ QT 6.6.1 QCustomPlot的导入及使用注意事项和示例 | 关于高版本QT使用QCustomPlot报错问题解决的办法

C QT 6.6.1 QCustomPlot的导入及使用注意事项和示例 | 关于高版本QT使用QCustomPlot报错问题解决的办法 记录一下 qmake .pro文件的配置 QT core gui printsupportgreaterThan(QT_MAJOR_VERSION, 4): QT widgetsCONFIG c17# You can make your code fail to compil…

【附源码】基于opencv+pyqt5搭建的人脸识别系统

文章目录 前言一、人脸检测二、人脸识别1.训练识别器2.识别人脸 三、界面相关1.Qlabel展示图片2.表格跟随内容而增加和减少3.选择图片文件4.警告框 四、源码获取总结 前言 人脸识别技术作为人工智能领域的一颗璀璨明珠,正逐渐渗透到我们生活的每一个角落&#xff0…

DeepSeek 提示词:高效的提示词设计

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项 技能测试试卷(一)

2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项 技能测试试卷(一) 第一部分:网络平台搭建与设备安全防护任务书DCRS:DCFW:DCWS:WAF: 第二部分:网络安全事件响应、数字取证调查、应用程序安全任务书任务 1&…

【Java】—— 二叉树

一、树型结构 树形结构是一种重要的数据结构,它类似于现实生活中的树的结构,由结点和边构成。树形结构具有以下特点: 树形结构是一种层次化的结构,由根结点、内部结点和叶子结点组成。根结点是树的顶部结点,没有父结点…

AWS - Redshift - 外部表读取 Parquet 文件中 timestamp 类型的数据

问题: 通过 Redshift Spectrum 功能可以读取 S3 中的文件,当读取 Parquet 文件时,如果列格式设置为 timestamp, 通过 psql 客户端读取会出现以下错误: testdb# select * from myspectrum_schema_0219.test_ns; ERROR…

即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成 | Big Model Weekly 第57期...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 ProTransformer: Robustify Transformers via Plug-and-Play Paradigm 近年来,基于Transformer的架构在机器学习的各个领域占据了主导地位。本文介绍了一种新颖的鲁棒性注意力机制,旨…

[ComfyUI] 【AI】如何获得一张人物图片的优质描述

在使用ComfyUI时,获取一张人物图片的优质英文描述非常重要,尤其是在涉及图像生成、自动化标签和多模态AI任务时。以下是一个简单的流程,可以帮助你快速从一张人物图片中提取出精确且高质量的英文描述。 1. 打开 Hugging Face 网站 首先,您需要访问 Hugging Face 提供的 J…

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

摘要 本文介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规 模强化学习(RL)训练的模型,在没有使用监督微调(SFT)这个前置步骤的情况下,展示了卓越的推…

springboot004网页时装购物系统(源码+数据库+文档)

源码地址:网页时装购物系统 文章目录 1.项目简介2.部分数据库结构与测试用例3.系统功能结构4.包含的文件列表(含论文)前台运行截图后台运行截图 1.项目简介 ​ 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的…

C++ Primer 容器适配器

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

git上传gitee仓库---简单方便

安装完git以后 在资源管理器中右键: 选择Open Git Bash here 接着gitclone,从gitee上面复制链接: https://gitee.com/hekai666/python-deeplearning.git 粘贴过来: 回车: 然后在本地就会多出来一个文件: 打开文件夹以…

C语言(13)------------>do-while循环

1.do-while循环的语法 我们知道C语言有三大结构,顺序、选择、循环。我们可以使用while循环、for循环、do-while循环实现循环结构。之前的博客中提及到了前两者的技术实现。可以参考: C语言(11)------------->while循…

浏览器JS打不上断点,一点就跳到其他文件里。浏览器控制台 js打断点,指定的位置打不上断点,一打就跳到其他地方了。

关闭JavaScript 源代码映射,F12开发者模式 设置->偏好设置->源代码/来源->JavaScript 源代码映射。 肯定不是这个原因导致的,但这个办法可以暂时解决问题,点完这个东西就隐藏了webpack,有懂的来讲讲。 又浪费一个小时…