相关性分析和作图

相关的类型

1. PearsonSpearmanKendall相关
Pearson 积差相关系数衡量了两个定量变量之间的线性相关程度。(连续)
Spearman等级相关系数则衡量分级定序变量之间的相关程度。(分类)
Kendall’s Tau 相关系数也是一种非参数的等级相关度量。
cor() 函数可以计算这三种相关系数,而 cov() 函数可用来计算协方差。两个函数的参数有
很多,其中与相关系数的计算有关的参数可以简化为:
cor(x, y = NULL, use = "everything",
    method = c("pearson", "kendall", "spearman"))
states<-state.x77[,1:6]
cov(states)#协方差
cor <- cor(states)#相关性

1.计量资料 计量资料(measurement data)又称定量资料(quantitative data)或数值变量(numericalvariable)资料。为观测每个观察单位某项指标的大小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。根据其观测值取值是否连续,又可分为连续型(continuous)或离散型(discrete)两类。前者可在实数范围内任意取值,如身高、体重、血压等;后者只取整数值,如某医院每年的病死人数等。

2.计数资料 计数资料(cnumeration data)又称定性资料(qualitative data)或无序分类变量(unorderedcategorical variable)资料,亦称名义变量(nominal variable)资料。为将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性或类别,如试验结果的阳性阴性、家族史的有无等。分两种情形:

(1)二分类:如检查某小学学生大便中的蛔虫卵,以每个学生为观察单位,结果可报告为蛔虫卵阴性与阳性两类;如观察某药治疗某病患者的疗效,以每个患者为观察单位,结果可归纳为治愈与未愈两类。两类间相互对立,互不相容。

(2)多分类:如观察某人群的血型分布,以人为观察单位,结果可分为A型、B型、AB型与O型,为互不相容的四个类别。

3.等级资料 等级资料(ranked data)又称半定量资料(semi-quantitative data)或有序分类变量(ordinalcategorical variable)资料。为将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表现为等级大小或属性程度。如观察某人群某血清反应,以人为观察单位,根据反应强度,结果可分一、±、+、++、+++、++++六级;又如观察用某药治疗某病患者的疗效,以每名患者为观察单位,结果可分为治愈、显效、好转、无效四级等。

2. 偏相关
偏相关 是指在控制一个或多个定量变量时,另外两个定量变量之间的相互关系。你可以使用
ggm 包中的 pcor() 函数计算偏相关系数。
library(ggm)
pcor(c(1,5,2,3,6),cov(states))
[1] 0.3462724
在控制了收入、文盲率和高中毕业率的影响时,人口和谋杀率之间的相关系数为
0.346

pcor(c(1,5,2,3,6),cov(states))##控制了变量

相关性的显著性检验

cor.test()

可以使用cor.test()函数对单个的PearsonSpearmanKendall相 系数进行检验。简化后的使用格式为:

cor.test(x, y,
         alternative = c("two.sided", "less", "greater"),#指定进行双侧检验或单侧检验
         method = c("pearson", "kendall", "spearman"),#计算的相关类型
         exact = NULL, conf.level = 0.95, continuity = FALSE, ...)
当研究的假设为总体的相关系数小于 0 时,请使用alternative= "less" 。在研究的假设为总体的相关系数大于 0 时,应使用 alternative="greater"。在默认 情况下,假设为 alternative="two.side" (总体相关系数不等于 0 )。
cor.test(states[,3],states[,5])

Pearson's product-moment correlation
data:  states[, 3] and states[, 5]
t = 6.8479, df = 48, p-value = 1.258e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.5279280 0.8207295
sample estimates:
      cor 
0.7029752 
这段代码检验了预期寿命和谋杀率的 Pearson 相关系数为 0的原假设。及预期寿命和谋杀率存在相关性。
corr.test()更好
cor.test 每次只能检验一种相关关系。但幸运的是, psych包中提供的 corr.test() 函数可以一次做更多事情。 corr.test() 函数可以为 Pearson Spearman 或Kendall 相关计算相关矩阵和显著性水平。
library(psych)
res <-corr.test(states,use = "pairwise")
#"pairwise"或"complete" 分别表示对缺失值执行成对删除或行删除
corr <- res$r#可以查看相关性R值
corp <- res$p#可以查看P值
res$p.adj#可以查看FDR值
library(psych)
res <- corr.test(data, exp, use = 'pairwise', 
                 method = 'spearman', adjust = 'holm',#FDR值
                 alpha = 0.05)
res$p.adj#可以查看FDR值
res$r#可以查看相关性R值

相关性方法选择

正态分布Pearson

        直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normaldistribution)资料。直线相关的性质可由散点图直观的说明。

        相关系数(coefficient of correlation)又称Pearson积差相关系数(coefficient of product-momentcorrelation),以符号r表示样本相关系数,符号p表示其总体相关系数。它用来说明具有直线关系的两变量间相关的密切程度与相关方向。R²取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。回归平方和越接近总平方和,则r绝对值越接近1,说明相关的实际效果越好。

 正态分布检测:t检验(连续变量)和卡方检验(分类变量)-CSDN博客


data <- iris##鸢尾花数据集
data1 <- data[,c(1,5)]
data2 <- data1[data1$Species=="setosa"|data1$Species=="versicolor",]
##提取鸢尾花数据集的部分数据进行分析

shapiro.test(data2$Sepal.Length)
#W = 0.96964, p-value = 0.02076 不符合正太分布
 
#密度图
ggdensity(data2$Sepal.Length, 
          main = "Density plot of sepal length",
          xlab = "sepal length")
#正态性测试对样本量敏感。小样本最常通过正态性测试。
#因此,重要的是将外观检查和显着性测试相结合以做出正确的决定
#综合分析也可以采用t检验

秩相关Spearman

        秩相关(rank correlation)或称等级相关,是用双变量等级数据作直线相关分析,这类方法对原变量分布不作要求,属于非参数统计方法。适用于下列资料:①不服从双变量正态分布而不宜作积差相关分析,这一点从原始数据的基本统计描述或直观的散点图中可以看出;②总体分布型未知,例如限于仪器测量精度个别样品的具体数值无法读出而出现“超限值”时(如X<0.001);③原始数据是用等级表示用等级相关系数r来说明两个变量间直线相关关系的密切程度与相关方向

相关性热图

corrplot包corrplot函数
数据处理:计算相关性系数和P值
rm(list = ls())
library(corrplot)
# 计算相关性
corData = cor(mtcars,
              method = "pearson",            # 计算相关性的方法有"pearson", "spearman", "kendall"
              use = "pairwise.complete.obs") # 缺失值处理的方式
# 计算相关性的P值和置信区间
testRes = cor.mtest(mtcars,
                    conf.level = 0.95,       # 置信区间
                    method = "pearson")      # 计算相关性的方法有"pearson", "spearman", "kendall"
corrp <- testRes$p

绘图:
#pdf("plot.pdf",width = 4,height = 4)##保存图片
# 绘图
?corrplot
corrplot(corData,
         method = "square",           # 图案形状 "square"方框,"circle"圆, "ellipse"椭圆, "number"数字, "shade"阴影花纹, "color"颜色方框, "pie饼图"
         type = "full",               # 绘制范围"full"全部, "lower"下半部分, "upper"半部分
         col=colorRampPalette(c('#0000ff','#ffffff','#ff0000'))(100), # 主体颜色
         bg = "white",                # 背景颜色
         # col.lim = c(-1,1),         # 数据颜色的范围,是相关性数据的话,直接is.corr = T就好
         title = "ABCD",             # 标题
         is.corr = T,                 # 输入相关性矩阵,数据范围-1到1
         add = F,                     # 是否在原来的图层上添加图形
         diag = T,                    # 是否显示主对角
         outline = "green",           # 轮廓,True或False或设置颜色
         mar = c(5, 4, 4, 2),         # bottom,left,top,right 指定的边距行数(需要一定的边距才能显示标题)
         addgrid.col = NA,          # 网格线的颜色,NA为不绘制,NULl为默认的灰色
         addCoefasPercent = F,        # 是否把相关性数值改为百分数
         order = "original",          # 排序方式 c("original", "AOE", "FPC", "hclust", "alphabet")
         hclust.method = c("complete", "ward", "ward.D", "ward.D2", "single", "average","mcquitty", "median", "centroid"),
         
         #position of text labels标签参数(好像没有缩短图例的参数)
         tl.pos = "lt",               # 位置'lt', 'ld', 'td', 'd' or 'n'   
         tl.cex = 1,                  # 字体的大小
         tl.col = "black",            # 字体的颜色
         tl.offset = 0.4,             # 标签离图案的距离
         tl.srt = 60,                 # 坐标轴标签旋转角度
         #color-legend;图例参数
         cl.pos = "r",                # 图例位置:r右边 b下边 n不显示
         cl.length = NULL,            # 数字越大,图例的分隔越稠
         cl.cex = 0.8,                # 图例的字体大小
         cl.ratio = 0.2,             # 图例的宽度
         cl.align.text = "c",         # 图例文字的对齐方式 l左对齐 c居中 r右对齐
         cl.offset = 1,             # 图例文字距离图例颜色条的距离 居中时无效
         #数值显示
         number.cex = 1,              # 相关性数字标签的字体大小
         number.font = 2,             # 相关性数字标签的字体
         number.digits = 2,           # 相关性数字标签,保留的小数点位数
         na.label = "",               # 当为NA时,显示的内容
         ## P值矩阵
         p.mat = testRes$p,           
         sig.level = 0.05,            # 当p大于sig.level时触发动作
         insig = "label_sig",         # sig.level, insig, pch, pch.col, pch.cex,label_sig(星号)
         
         #置信区间
         plotCI = "n",                # c("n", "square", "circle", "rect")
         lowCI.mat = testRes$lowCI,   # p值置信区间下边界数据
         uppCI.mat = testRes$uppCI,   # p值置信区间上边界数据
)

添加下三角:上下三角不一致

add = T,   diag = F,

#添加图形
corrplot(corData,
         method = "number",            
         type = "lower",   #下三角
         col=colorRampPalette(c('#0000ff','#ffffff','#ff0000'))(100), # 主体颜色
         add = T,                      # 是否在原来的图层上添加图形
         diag = F,                     # 是否显示主对角
         order = "original",          
         na.label = "",                # 当为NA时,显示的内容
         p.mat = testRes$p,            # P值矩阵
         sig.level = 0.05,             # 当p大于sig.level时触发动作
)
dev.off()

ggcorrplot包ggcorrplot函数
数据
rm(list = ls())
library(ggcorrplot)
library(ggtext)
data(mtcars)
corr <- round(cor(mtcars), 2)#相关系数(保留2位小数)
p.mat <- cor_pmat(mtcars)##P值
作图

(这个图例要小很多)

?ggcorrplot
ggcorrplot(corr, method = "square", #"square", "circle"
           type ="full" , #full完全(默认),lower下三角,upper上三角
           ggtheme = ggplot2::theme_minimal,
           title = "ABCD",
           show.legend = TRUE,  #是否显示图例。
           legend.title = "CorrA", #指定图例标题。
           show.diag =T ,    #对角线
           colors = c("blue", "white", "red"), #颜色设置
           outline.color = "white", #指定方形或圆形的边线颜色
           hc.order = FALSE,  #是否按hclust(层次聚类顺序)排列
           ##显示相关性系数设置
           lab =F , #是否添加相关系数
           lab_col = "black", #相关系数的颜色,只有当lab=TRUE时有效
           lab_size = 4, #指定相关系数大小,只有当lab=TRUE时有效。
           
           #P值显示
           p.mat = p.mat ,  #p.mat= p_mat,insig= "pch", pch.col= "red", pch.cex= 4,
           sig.level = 0.05,#P值
           insig = c("pch", "blank"),#显示X
           pch = 8, #8为星号
           pch.cex = 4, #大小
           #标签
           tl.cex = 10, #指定变量文本的大小,
           tl.col = "black", #指定变量文本的颜色,
           tl.srt = 45, #指定变量文本的旋转角度。
           digits = 2 #指定相关系数的显示小数位数(默认2)。
           
)
dev.off()

如果需要显示相关性系数:展示

##显示相关性系数设置
           lab =T , #是否添加相关系数
           lab_col = "black", #相关系数的颜色,只有当lab=TRUE时有效
           lab_size = 4, #指定相关系数大小,只有当lab=TRUE时有效。

计算矩阵后使用pheatmap作图

pheatmap作图可以更好的展示P值

数据准备
rm(list = ls())
library(ggcorrplot)
library(ggtext)
library(psych)
library(pheatmap)
library(reshape2)

data(mtcars)
corr <- round(cor(mtcars), 2)
p.mat <- cor_pmat(mtcars)
table(p.mat<0.05)#P计数

##对所有p值进行判断,p<0.01的以“**”标注,p值0.01<p<0.05的以“*”标注
if (!is.null(p.mat)){
  ssmt <- p.mat< 0.01
  p.mat[ssmt] <-'**'
  smt <- p.mat >0.01& p.mat <0.05
  p.mat[smt] <- '*'
  p.mat[!ssmt&!smt]<- ''
} else {
  p.mat <- F
}
作图
#自定义颜色范围
mycol<-colorRampPalette(c("blue","white","tomato"))(100)
#绘制热图,可根据个人需求调整对应参数
?pheatmap
pheatmap(corr,
         scale = "none",#均一化处理
         cluster_row = T, #行距类
         cluster_col = T, #列聚类
         treeheight_col = 0, #设置为0 即不显示聚类树
         treeheight_row = 20,#行聚类树
         border=NA,#边框颜色
         display_numbers = p.mat,##显著性标记
         fontsize_number = 12, 
         number_color = "white",
         cellwidth = 20, #格子宽度
         cellheight =20,#格子高度
         color=mycol,#颜色
         legend=T,#是否显示图例
         main="ABCD")#标题
dev.off()

参考:

1:医学统计学/孙振球,徐勇勇主编.—4版.一北京:人民卫生出版社,2014

2:R语言实战/(美)卡巴科弗(Kabacoff,R.I.)著;高涛,肖楠,陈钢译.--北京:人民邮电出版社,

2013.1

3:R语言---相关系数_r语言相关系数-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/197144.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL实现高可用方案-MHA安装及配置

MySQL高可用性解决方案Master High Availability (MHA) 是一种在 MySQL 故障转移环境中实现快速故障转移和数据保护的开源软件。MHA 能在 MySQL 主节点发生故障时&#xff0c;自动将备节点提升为主节点&#xff0c;并且不会中断正在进行的 SQL 操作。 需求&#xff1a;主从配置…

业务建模工具BPMN

目录 一、什么是BPMN 二、业务流程梳理的重要作用 三、BPMN的全图 四、BPMN的组成 1.BPMN的基本元素&#xff08;2.0&#xff09; 1.1 流对象&#xff08;Flow Objects&#xff09; 1.2 数据&#xff08;Data&#xff09; 1.3 连接对象&#xff08;Connecting Objects&a…

M3VSNET:无监督多度量多视图立体视觉网络(2021年)

M3VSNET&#xff1a;无监督多度量多视图立体视觉网络&#xff08;2021年&#xff09; 摘要1 引言2 相关工作3 实现方法3.1 网络架构 B. Huang, H. Yi, C. Huang, Y. He, J. Liu and X. Liu, “M3VSNET: Unsupervised Multi-Metric Multi-View Stereo Network,” 2021 IEEE Inte…

智能优化算法应用:基于混合蛙跳算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于混合蛙跳算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于混合蛙跳算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.混合蛙跳算法4.实验参数设定5.算法结果6.参考…

2021年12月 Scratch图形化(四级)真题解析#中国电子学会#全国青少年软件编程等级考试

Scratch等级考试(1~4级)全部真题・点这里 一、单选题(共15题,每题2分,共30分) 第1题 下图两个积木的值分别是? A:false true B:false false C:true true D:true false 答案:A 第2题 小猫和小狗是非常好的朋友,他们发明了一种加密方法:用两位数字代表字母。…

qInstallMessageHandler的学习

背景&#xff1a;需要做一个日志系统。 把信息重定向到txt文件中。 参考&#xff1a; QT 调试信息如何输出到文件&#xff08;qDebug/qWarning/qCritical/qFatal&#xff09;-CSDN博客 Qt 之 qInstallMessageHandler&#xff08;重定向至文件&#xff09;-CSDN博客 demo…

使用 ZFPlayer 播放视频的注意点

一 静音功能 通过调用系统的AVPlayer.muted来实现的 - (void)setMuted:(BOOL)muted {_muted muted;self.player.muted muted;if (self.audioMuteChange) {self.audioMuteChange(self, muted);}... }播放进度条 /// 滑杆 property (nonatomic, strong, readonly) ZFSliderV…

Kubernetes入门学习(上)

文章目录 Kubernetes入门学习&#xff08;上&#xff09;介绍云原生 Kubernetes架构基础概念Kubernetes架构控制平面组件Node组件 组件关系 安装Kubernetes基本对象和操作Pod&#xff08;容器集&#xff09;Deployment(部署)与ReplicaSet(副本集)Service&#xff08;服务&#…

Linux shell编程学习笔记31:alias 和 unalias 操作 命令别名

目录 0 前言1 定义别名2 查看别名 2.1 查看所有别名2.2 查看某个别名 2.2.1 alias 别名2.2.2 alias | grep 别名字符串2.2.3 使用 CtrlAltE 组合键3 unalias&#xff1a;删除别名4 如何执行命令本身而非别名 4.1 方法1&#xff1a;使用 CtrlAltE 组合键 && unalias4…

促进高层次人才创新创业,长沙又在“放大招”

“人才”&#xff0c;寥寥数笔&#xff0c;却勾勒出一座城市的发展核心、创新引擎。大力引进高层次人才&#xff0c;更是城市提升综合实力的有效举措。 11月26日&#xff0c;在长沙市委组织部&#xff08;市委人才工作局&#xff09;举办“汇聚磅礴力量 全力建设全球研发中心城…

TCP 三次握手和四次挥手(图解)

TCP 三次握手和四次挥手 建立连接-三次握手 什么是三次握手&#xff1f; 简单来说&#xff1a; 客户端向服务器发送 SYN 报文&#xff0c;请求建立连接。服务器收到 SYN 报文后&#xff0c;回复一个 SYNACK 的报文&#xff0c;表示同意建立连接。客户端收到 SYNACK 报文后&am…

unity3d 旋转cube时变形

将cube移到父路径同级&#xff0c;重置再&#xff0c;更改角度&#xff0c;或者将父路径先重置&#xff0c;再将cube移动到父节点下面

股票技术从初级到高级,从实盘进阶到摩尔缠论

一、教程描述 摩尔缠论是什么&#xff1f;一个伟大的缠论分支体系&#xff0c;由顶尖高手创立的缠论分支&#xff0c;这个顶尖高手&#xff0c;江湖上的代号为摩尔&#xff0c;可能是一个人&#xff0c;或者是一群人。摩尔缠论&#xff0c;基于缠论的核心思想与基础理论&#…

Windows下Linkis1.5DSS1.1.2本地调试

1 Linkis: 参考&#xff1a; 单机部署 | Apache Linkis技术分享 | 在本地开发调试Linkis的源码 (qq.com)DataSphere Studio1.0本地调试开发指南 - 掘金 (juejin.cn) 1.1 后端编译 参考【后端编译 | Apache Linkis】】 修改linkis模块下pom.xml,将mysql.connetor.scope修改…

数据结构 | 查找

基本概念 关键字&#xff1a;数据元素中唯一标识该元素的某个数据项的值&#xff0c;使用基于关键字的查找&#xff0c;查找结果应该是唯一的。例如&#xff0c;在由一个学生元素构成的数据集合中&#xff0c;学生元素中“学号”这一数据项的值唯一地标识一名学生。 查找表&a…

从零开始的c语言日记day37——数组指针练习

一、 取地址数组储存在了*p里&#xff0c;里面储存的是整个数组的地址但本质也是第一个元素的地址解引用后1为4个字节所以就可以打印数组了。但一般不用这种方法 这样更方便一些 打印多维数组 如果不用这样传参&#xff0c;用指针传参怎么做呢&#xff1f; Main里函数的arr表示…

22款奔驰GLE450升级原厂360全景影像 超广角的视野

360全景影像影像系统提升行车时的便利&#xff0c;不管是新手或是老司机都将是一个不错的配置&#xff0c;无论是在倒车&#xff0c;挪车以及拐弯转角的时候都能及时关注车辆所处的环境状况&#xff0c;避免盲区事故发生&#xff0c;提升行车出入安全性。 360全景影像包含&…

网工内推 | 外企网工,五险一金,弹性工作,最高30k*14薪

01 金蝶软件&#xff08;中国&#xff09;有限公司 招聘岗位&#xff1a;网络工程师 职责描述&#xff1a; 1、合理规划公司网络&#xff0c;保障网络架构的合理性、可靠性及前瞻性&#xff1b; 2、负责公司网络运维&#xff0c;处理日常运维事件&#xff0c;保障网络的稳定可…

基于mvc的大学生家教信息网站系统php+vue

运行环境:phpstudy/wamp/xammp等 开发语言&#xff1a;php 后端框架&#xff1a;Thinkphp5 前端框架&#xff1a;vue.js 服务器&#xff1a;apache 数据库&#xff1a;mysql 数据库工具&#xff1a;Navicat/phpmyadmin 开发软件&#xff1a;hbuilderx/vscode/Dreamweaver/PhpSt…