医学案例|线性回归

一、案例介绍

某医师预研究糖尿病患者的总胆固醇和甘油三酯对空腹血糖的影响,某研究者调查40名糖尿病患者的总胆固醇、甘油三酯和空腹血糖的测量值如下,试根据上述研究问题作统计分析。

二、问题分析

本案例想要研究一些变量(总胆固醇和甘油三酯)对另一变量(空腹血糖)的影响,可以使用多元线性回归分析进行研究。多元线性回归分析比较重要的假设有以下5个:

假设1:线性——因变量与自变量之间存在线性关系

假设2:独立性——各观测值之间相互独立,即残差之间不存在自相关。

假设3:正态性——残差接近正态分布。

假设4:方差齐——残差的方差齐。

假设5:多重共线性——自变量间不存在多重共线性。

如果违反了这些假设中的一个或多个,那么可能导致线性回归分析结果不可靠。因此我们需要对假设1-5使用软件进行检验。

三、前提假设检验

(1)检验假设1:线性

多元线性回归分析要求因变量Y与自变量X之间存在线性关系。针对连续型自变量,可以通过绘制自变量与因变量的散点图,直观判断是否存在线性关系。而对于分类自变量(如学历),可以忽略与因变量之间的线性关系。

使用SPSSAU分别绘制Y空腹血糖和X1总胆固醇、X2甘油三酯的散点图,在【可视化】模块选择【散点图】,将数据拖拽到右侧相应分析框中,点击开始分析,操作如下图:

SPSSAU输出散点图如下:

①总胆固醇和空腹血糖散点图

以“空腹血糖”作Y轴,“总胆固醇”作X轴绘制散点图,可以看出,空腹血糖与总胆固醇之间存在线性关系。

②甘油三酯和空腹血糖散点图

同理查看甘油三酯与空腹血糖绘制的散点图,二者之间存在近似线性关系。

综上,可以认为本案例数据满足假设1:,即因变量与自变量之间存在线性关系。

(2)检验假设2:独立性

线性回归分析假设各个观测值之间是相互独立的,即残差之间不存在自相关。可以使用Durbin-Watson检验残差是否存在自相关

SPSSAU线性回归分析结果会输出D-W检验结果,如下图:

一般来说,D-W检验其值在0到4之间。如果D-W检验值接近0,说明存在正自相关,如果接近4,说明存在负自相关。一般认为,如果D-W检验值在1.5到2.5之间,就说明不存在自相关问题。从上表可知,本案例D-W值为2.0437,因此认为不存在自相关,所以数据满足假设2,即各观测值之间相关独立。

(3)检验假设3:正态性

线性回归假设中的正态性是指残差(即随机扰动项)近似服从正态分布。首先得到残差值,在使用SPSSAU进行线性回归时,勾选“保存残差和预测值”,操作如下图:

正态分布检验的方法有很多种,例如直方图、P-P图/Q-Q图、统计检验等。本案例使用P-P图进行正态性检验,得到残差P-P图如下:

P-P图近似呈现为一条对角直线,说明数据接近正态分布。从上图可以看到,残差的P-P图近似为一条对角直线,故认为残差基本满足正态分布,满足假设3。

(4)检验假设4:方差齐

多元线性回归方差齐指的是残差项在不同自变量取值下具有相同的方差,即各组残差具有相同的离散程度。可以通过绘制标准化预测值与标准化残差的散点图来检验多元线性回归的方差齐性。以标准化预测值为横坐标,以标准化残差为纵坐标,绘制散点图。

①数据标准化处理

首先将保存的残差值和预测值进行标准化处理,在SPSSAU【数据处理】模块,选择【生成变量】,选中残差值和预测值,在“量纲处理”选择标准化处理,点击“确认处理”,操作如下图:

②散点图绘制

以标准化预测值为X轴,以标准化残差为Y轴,绘制散点图,得到散点图如下:

如果方差齐性假设成立,则散点图中的点应该大致均匀分布在坐标系中,散点的分布情况不会因为标准化预测值的变化而改变。从上图可以看出,散点基本均匀分布在坐标系中,无明显趋势,所以可以认为满足假设4,即残差近似满足方差齐性。

(5)检验假设5:多重共线性

自变量之间不存在多重共线性,如果存在多重共线性,那么自变量之间的线性关系会导致回归系数的估计变得不稳定,增加标准误差,从而影响预测的准确性。同时,多重共线性还会导致t检验和P值失去意义,无法准确判断自变量对因变量的影响。在多元线性回归分析中,我们通常使用方差膨胀因子(VIF值)来检测多重共线性。

SPSSAU线性回归分析结果输出共线性诊断结果如下:

SPSSAU同时输出VIF值和容忍度值(容忍度=1/VIF,二者选其一即可,通常描述VIF值)。一般认为,当VIF值大于5时(或容忍度小于0.2),存在严重的多重共线性问题。分析上表知,VIF值均小于5,所以认为本案例自变量之间不存在多重共线性问题,满足假设5。

如果存在共线性问题,可以通过移除共线性变量、使用逐步回归、岭回归或者增加样本量等方式进行处理。

综上所述,本案例数据满足使用多元线性回归分析的假设,可以进行分析。

四、线性回归分析

本案例线性回归分析结果如下:

对于多元线性回归模型的检验可以分为两部分:①多个自变量与因变量这个整体的显著性检验(F检验);②每个自变量对因变量影响的显著性检验(t检验),二者检验目的不同。

(1)模型检验

\begin{aligned}H_0&:\beta_1=\beta_2=\cdots=\beta_m=0\\H_1&:\beta_1,\beta_2,\cdots,\beta_m\text{ 不全为 0}\end{aligned}

检验统计量

F=\frac{MS_\text{回归 }}{ M S _\text{残差 }}

当H0为真时,统计量F服从自由度为m和n-m-1的F分布,其中,n为样本量,m为回归模型中的自变量个数,加入自变量回归系数全为0,则Y与各个自变量没有任何关系,这就失去了建立回归方程的意义,故当检验结果为拒绝H0时,称该回归模型是有统计学意义的。

SPSSAU多元线性回归分析F检验输出结果如下:

从上表回归模型方程分析结果可知,F=9.2572,p=0.0005<0.05,所以拒绝原假设H0,即回归模型有统计学意义。

(2)单个回归系数检验

回归系数显著性检验是指每个自变量对因变量影响的显著性检验,使用t检验进行。SPSSAU输出每个自变量对因变量影响的t检验结果如下:

分析上表可知,总胆固醇与甘油三酯对应t检验的p值均小于0.05,说明两变量均对空腹血糖具有显著影响。

(3)影响大小比较

自变量对因变量影响大小的比较是通过标准化回归系数进行比较的。标准化回归系数的绝对值越大,说明该自变量对因变量的影响越大。

标准化回归系数,是对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,是的不同变量之间具有可比性,因此使用标准化回归系数比较不同自变量对因变量的影响大小。

分析结果可知,总胆固醇和甘油三酯的标准化回归系数分别为0.4788和0.2944,说明二者均对空腹血糖有显著正态性影响,且相对来讲总胆固醇的影响更大一些。

(4)模型公式

从分析结果可以看出,模型公式为:空腹血糖=4.985 + 0.212*总胆固醇 + 0.351*甘油三酯,模型R方值为0.334,意味着总胆固醇、甘油三酯可以解释空腹血糖的33.4%变化原因。

特别提示:构建回归模型使用非标准化回归系数,它是方程中不同自变量对应的原始回归系数,反映了在其他自变量不变的情况下,该自变量每变化一个单位对因变量作用的大小。通过非标准化回归系数构建的回归方程,才可以对因变量进行预测。

更多分析结果可登录SPSSAU查看,在此不再进行赘述。

五、结论

本案例使用多元线性回归分析研究总胆固醇和甘油三酯对空腹血糖的影响,研究发现,总胆固醇和甘油三酯均会对空腹血糖产生显著正向影响,其中总胆固醇的影响更大一点。

六、知识小贴士

(1)R方值多少合适?

R平方值表示模型拟合能力的大小,比如0.3表示自变量X对于因变量Y有30%的解释能力。这个值介于0~1之间,越大越好。但实际研究中并没有固定的标准,有的专业0.1甚至0.05这样都可以,但有的专业却常常出现0.8以上。一般情况下只需要报告此值即可,不用过多关注其大小,原因在于多数时候我们更在乎X对于Y是否有影响关系即可。

(2)回归系数非常非常小或者非常非常大?

如果说数据的单位很大,不论是自变量X还是因变量Y;此种数据会导致结果里面的回归系数出现非常非常小,也或者非常非常大。此种情况是正常现象,但一般需要对数据进行统一取对数处理,以减少单位问题带来的‘特别大或特别小的回归系数’问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/101614.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

软件架构Architecture篇卷首语

2023年9月2日&#xff0c;周六晚上 我为什么要开始学习软件架构&#xff1f;我为什么要专门开始这个专栏&#xff1f; 原因如下&#xff1a; Well-structured software is delivered in half the time, at half the cost, with 8x less bugs ——US Air Force study 这句话是我…

17.CSS发光按钮悬停特效

效果 源码 <!DOCTYPE html> <html> <head><title>CSS Modern Button</title><link rel="stylesheet" type="text/css" href="style.css"> </head> <body><a href="#" style=&quo…

Pygame中Trivia游戏解析6-4

3.3.3 显示题目选项 在显示题目选项时&#xff0c;有三种情况&#xff1a;分别是用户还未选择答案时&#xff1b;用户的答案是正确时&#xff1b;用户的答案是错误时。 &#xff08;1&#xff09;用户还未选择答案时 此时&#xff0c;用白色显示四个备选答案&#xff0c;如图…

Docker 网络模式

文章目录 一、Docker 网络实现原理1.容器的端口映射 二、Docker的网络模式1.Host模式2.Container模式3.none模式4.bridge模式 三、自定义网络1、查看网络模式列表2、查看容器信息(包含配置、环境、网关、挂载、cmd等等信息&#xff09;3、指定分配容器IP地址 面试题 一、Docker…

Python之分支-循环

Python之分支-循环 程序控制 顺序 按照先后顺序一条条执行。 a 1 b a 1 c max(a, b) d c 100 # 这是顺序执行分支 根据不同的情况判断&#xff0c;条件满足执行某条件下的语句。 if 真(True)真执行的语句体passpassif True:pass else:pass # 单分支if语句这行的最后…

【方案】基于视频与AI智能分析技术的城市轨道交通视频监控建设方案

一、背景分析 地铁作为重要的公共场所交通枢纽&#xff0c;流动性非常高、人员大量聚集&#xff0c;轨道交通需要利用视频监控系统来实现全程、全方位的安全防范&#xff0c;这也是保证地铁行车组织和安全的重要手段。调度员和车站值班员通过系统监管列车运行、客流情况、变电…

查询优化器内核剖析之查询的执行与计划的缓存 Hint 提示

本篇议题如下: 查询的执行与计划的缓存 Hint 提示 首先看到第一个议题 查询的执行与计划的缓存 一旦查询被优化之后&#xff0c;存储引擎就使用选中的执行计划将结果返回&#xff0c;而被使用的这个执行 计划就会被保存在内存中一个被称之为“计划缓存”的地方&#xff0c;从…

【负载均衡】常见的负载均衡策略有哪些?

文章目录 前言负载均衡分类常见负载均衡策略小结 前言 负载均衡策略是实现负载均衡器的关键&#xff0c;而负载均衡器又是分布式系统中不可或缺的重要组件。使用它有助于提高系统的整体性能、可用性、可靠性和安全性&#xff0c;同时支持系统的扩展和故障容忍性。对于处理大量…

Linux常用命令——cupsdisable命令

在线Linux命令查询工具 cupsdisable 停止指定的打印机 补充说明 cupsdisable命令用于停止指定的打印机。 语法 cupsdisable(选项)(参数)选项 -E&#xff1a;当连接到服务器时强制使用加密&#xff1b; -U&#xff1a;指定连接服务器时使用的用户名&#xff1b; -u&#…

程序开发:构建功能强大的应用的艺术

程序开发是在今天的数字化时代中扮演重要角色的一项技术。通过编写代码&#xff0c;开发人员能创造出无数不同的应用&#xff0c;从简单的计算器到复杂的社交平台。电子商务应用、在线教育平台、医疗记录系统等&#xff0c;都重视程序开发的重要性&#xff0c;通过这其中的交互…

[C/C++]天天酷跑超详细教程-中篇

个人主页&#xff1a;北海 &#x1f390;CSDN新晋作者 &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏✨收录专栏&#xff1a;C/C&#x1f91d;希望作者的文章能对你有所帮助&#xff0c;有不足的地方请在评论区留言指正&#xff0c;大家一起学习交流&#xff01;&#x1f9…

【08期】ArrayList常见面试题

简介 ArrayList是我们开发中非常常用的数据存储容器之一&#xff0c;其底层是数组实现的&#xff0c;我们可以在集合中存储任意类型的数据&#xff0c;ArrayList是线程不安全的&#xff0c;非常适合用于对元素进行查找&#xff0c;效率非常高。 线程安全性 对ArrayList的操作…

Linux整合seata

1、到官网下载seata&#xff0c;这里以ZIP为例 2、使用远程工具上传ZIP包 3、通过命令解压 unzip seata-server-1.7.0.zip4、修改配置文件、新建表&#xff0c;参考我之前的文章 分布式系统的多数据库&#xff0c;实现分布式事务回滚&#xff08;1.7.0 seata整合2.0.4nacos…

2023开学礼新疆理工学院图书馆藏八一新书《乡村振兴战略下传统村落文化旅游设计》许少辉新财经理工

2023开学礼新疆理工学院图书馆藏八一新书《乡村振兴战略下传统村落文化旅游设计》许少辉新财经理工

怎样来实现流量削峰方案

削峰从本质上来说就是更多地延缓用户请求&#xff0c;以及层层过滤用户的访问需求&#xff0c;遵从“最后落地到数据库的请求数要尽量少”的原则。 1.消息队列解决削峰 要对流量进行削峰&#xff0c;最容易想到的解决方案就是用消息队列来缓冲瞬时流量&#xff0c;把同步的直…

[HNCTF 2022] web 刷题记录

文章目录 [HNCTF 2022 Week1]easy_html[HNCTF 2022 Week1]easy_upload[HNCTF 2022 Week1]Interesting_http[HNCTF 2022 WEEK2]ez_SSTI[HNCTF 2022 WEEK2]ez_ssrf [HNCTF 2022 Week1]easy_html 打开题目提示cookie有线索 访问一下url 发现要求我们输入手机号&#xff0c;可是只…

又一关键系统上线,理想车云和自动驾驶系统登陆OceanBase

8 月 1 日&#xff0c;理想汽车公布 7 月交付数据&#xff0c;理想汽车 2023 年 7 月共交付新车 34,134 辆&#xff0c;同比增长 227.5%&#xff0c;并已连续两个月交付量突破三万。至此&#xff0c;理想汽车 2023 年累计交付量已经达到 173,251 辆&#xff0c;远超 2022 年全年…

【MATLAB第71期】基于MATLAB的Abcboost自适应决策树多输入单输出回归预测及多分类预测模型(更新中)

【MATLAB第71期】基于MATLAB的Abcboost自适应决策树多输入单输出回归预测及多分类预测模型&#xff08;更新中&#xff09; 一、效果展示&#xff08;多分类预测&#xff09; 二、效果展示&#xff08;回归预测&#xff09; 三、代码获取 CSDN后台私信回复“71期”即可获取下…

Python Opencv实践 - 凸包检测(ConvexHull)

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg cv.imread("../SampleImages/stars.png") plt.imshow(img[:,:,::-1])img_contour img.copy() #得到灰度图做Canny边缘检测 img_gray cv.cvtColor(img_contour, cv.COLOR_BGR2GRAY) edges…

NoSQL技术——Redis

简单介绍 Redis是当下最流行的NoSQL数据库。在Redis中&#xff0c;数据的存储格式是以键值对的方式进行存储的。在键值对的存储形式中&#xff0c;值除了是常见的字符串&#xff0c;也可以是类似于Json对象的形式&#xff0c;或者是List&#xff0c;Map等数组格式&#xff0c;…