一、相关性分析介绍
相关性分析是指研究两种或者两种以上的变量之间相关关系的统计分析方法,一般分析步骤为:
- 1)判断变量间是否存在关联;
- 2)分析关联关系(线性/非线性)、关联方向(正相关/负相关)、关联数量(单相关/复相关/偏相关)和关联强度(显著相关/高度相关/中度相关/弱相关)等关联特征。
常用于度量两个或多个变量之间相关程度的指标有:
如何把这些关联特征表达得更易于理解,那就需要借助将相关性分析结果可视化的方法了。
在平时的论文阅读中我们经常看到有关相关性分析的内容,作者们根据自己的表达需求,也向我们展示了五花八门的绘图样式,比如:散点图、拟合线、相关矩阵(热力图)、相关性空间分布图等。接下来详细向大家介绍这些图表的特点。
二、散点图
一般情况下我们可以通过散点图来检测和了解变量间的关系。如果变量之间存在某种关联,那么数据点就会在图上呈现某种趋势。在某些情况下(如样本点较少),可能会出现聚集趋势不明显的问题,这时我们可以借助线性拟合而成的“趋势线”来辅助分析。
如下图a中,利用散点图展现了SSP126、SSP245、SSP370和SSP585排放情景下未来降水增长率与未来气温增长率之间的约束关系。由于单个情景下的散点数量较少,且多个情景的散点放置于同一张图中进行比较,散点的聚集趋势难以肉眼捕捉,因此该图对各个场景下的散点进行线性拟合,展现出散点的分布趋势线,便于读者更为直观地解读。
- 这类散点图可借助Python实现,可参考:“Python-matplotlib 学术散点图 EE 统计及绘制”
- 也可以借助R语言实现,可参考:“R-ggplot2 学术散点图绘制”
三、散点密度图
若需对数据量很大的变量相关性进行可视化,可考虑在散点图的基础上添加热力图元素,即通过将数据计数映射到颜色,来表现数据的分布情况。
下图为无云日GRSAD模拟的逐月湖泊面积与另一个数据集的6715个湖泊逐月面积的比较。图a显示了两个变量之间分布的密集程度,并通过添加辅助线的方式,在图中显示相应点对应的拟合效果(即R2 — 决定系数,相关系数的平方)。
- 使用Matlab绘制散点密度图,可参考:“如何使用Matlab绘制hist2d/密度散点图” —
- 还可通过R语言绘制,可参考:“Density 2d” — https://r-graph-gallery.com/2d-
四、相关性空间分布图
当需要在流域、全国、甚至全球这样的大空间尺度上进行相关性分析时,简单的散点图+拟合线难以表达出相关性的空间变异性。此时,在每个网格单元上计算变量之间的相关系数,并绘制其空间分布图,会是一个很好的选择。
例如,下图展示了1982-2015年北纬30°以上的地区植被生长与水资源可用性指数之间相关性的空间分布及相应的统计值。图中的黑色原点表示该点所在计算单元的相关系数通过了显著性检验(p<0.05)。
- 可通过Matlab计算栅格数据相关性及其显著性(M-K检验),参考:“【Matlab】栅格数据相关分析及显著性检验”
五、相关性矩阵图
相关性矩阵图的表达优势在于单个图上丰富的颜色变化可直观反映数据信息,同时,矩阵上还可以同时显示对应的p-value数值,添加其他图形元素等,在一张图中展现出多个变量间的关联方向、关联数量和关联强度等关联特征。
如下图的图(a)和图(b)分别利用了相关性矩阵图来验证策略a和a+下增强回归树(BRT)模型在时间尺度上的性能。该矩阵中的绿色色块越多且越深,则说明该策略下的训练数据和测试数据的相关性越高;反之,深棕色色块越多且越深,则说明该策略下的训练数据和测试数据的相关性越低。
相关性矩阵图除了上图的表达方式外,还可根据自己的需求对图的颜色、图例、数值标签等特征进行调整,一般可以通过R语言的corrplot包、corrgram包、GGally包、ggcorrplot包等实现,参考:
“超多类别!这个相关性矩阵绘制工具绝了!”
“corrplot包可视化相关性矩阵的详细教程”
六、成对矩阵图
成对矩阵图融合了散点图、关系拟合线、概率分布图以及相关系数值。能将图和表格数据结合起来,真正做到一图胜千言!适用于多变量相关性分析的可视化。
成对矩阵图可通过R语言的ggpair函数实现方法,参考:
“Pairs plot with ggpairs” — https://r-charts.com/correlatio