【R语言】主成分分析与因子分析

一、主成分分析

主成分分析(Principal Component Analysis, PCA)是一种常用的无监督数据降维技术,广泛应用于统计学、数据科学和机器学习等领域。它通过正交化线性变换将(高维)原始数据投影到一个新的坐标系(低维空间),同时保留数据的主要变异信息,使得新坐标系中的第一个坐标轴(主成分1)上的方差最大,第二个坐标轴(主成分2)上的方差次大,并且各个坐标轴之间相互正交(即不相关)。PCA 的目标是通过保留数据的主要变异方向来减少数据的维度,同时尽可能少地丢失信息。

psych扩展包能提供很丰富和有用的函数,它的输出结果也更接近商业统计分析软件,如SAS和SPSS等,所使用的函数为principal()函数

principal()函数

# 准备数据(以 iris 数据集为例)
head(iris)
# 去除标签列,只保留数值列
iris_data <- iris[, 1:4]
head(iris_data)

 principal()函数的nfactors用来指定各种主成分,iris_data里面有4种变量,所以指定为4。

library(psych)
pcal_iris <- principal(iris_data, nfactors=4)
pcal_iris

从上面的结果可知,前三个成分(RC1+RC3+RC2)的累计解释比例(Cumulative Proportion)为99%,前两个成分(RC1+RC3)的累计解释比例(Cumulative Proportion)为72%,所以选择这两个或三个主要成分是合适的。 

pcal_iris1 <- principal(iris_data, nfactors=3)
pcal_iris1

从上面结果可知,当nfactors为3时,累计比例能近似达到100%,说明用三个主成分代替原有变量的信息是足够的。 

二、因子分析

因子分析(Factor Analysis)是一种降维技术,它用于研究变量之间的内在关系,试图通过少数几个“潜在变量”(或称“因子”)来解释多个观测变量之间的相关性,其核心思想是降维结构探测。这些潜在变量是不可直接观测的,但可以通过它们对观测变量的影响来推断。因子分析在心理学、社会学、市场研究、生物学等多个领域都有广泛应用。

根据是否已知潜在结构,可以将因子分析分为探索性因子分析(Exploratory Factor Analysis,EFA)和验证性因子分析(Confirmatory Factor Analysis,CFA)。

1、注意事项

在进行因子分析,需要注意以下两个方面。

保证有足够的样本量。一般认为样本量小于50时,不适合做因子分析;样本量至少在100以上;样本量达到1000时,效果会比较好。而且,样本量的选择还受原始变量数量的影响,一般样本量至少是原始变量数量的5倍以上,10倍更好。

原始变量之间应该要有足够的相关性。如果所有或者大部分原始变量是相互独立或者相关系数都小于0.3,则不能从中提取公共因子,即数据不适合进行因子分析。

原始变量之间的相关性可以使用KMO(Kaiser-Meyer-Oklin)检验Bartlett球形检验

因子分析可以使用psych扩展包中的fa()函数

fa(r, nfactors, n.obs, rotate, scores, fm)

  1. r:相关系数矩阵或者原始数据矩阵;
  2. nfactor:因子数,默认为1;
  3. n.obs:观测数,当r为相关系数矩阵时需手动输入;
  4. rotate:设定因子旋转的方法,默认为promax(斜交旋转);还有 varimax(正交旋转)旋转有助于更好地解释因子结构。
  5. scores:是否计算因子得分,默认为FALSE,且要求r为原始数据矩阵;
  6. fm:因子提取方法,默认为minres,一般选择ml(最大似然法)。

2、分析步骤

下面使用R语言中的内置数据集mtcars做演示:

2.1 准备数据

library(psych)
library(GPArotation) # 支持因子旋转
head(mtcars)
data <- mtcars[,c("mpg", "disp", "hp", "drat", "wt", "qsec")]
head(data)

2.2 检查数据的适用性

检验相关性:如果变量间相关性较低(绝对值<0.3),可能不适合因子分析

cor_data <- cor(data)
cor_data

从下面结果可知,绝大多数的绝对值都大于0.3。 

 KMO检验KMO值>0.6表示数据适合做因子分析。

KMO(data)

从下面结果可知,Overall MSA=0.76>0.6。 

 Bartlett球形检验: p<0.05时适合做因子分析。

cortest.bartlett(cor_data, n = nrow(data)) 

从下面结果可知,p=1.332068e-30 < 0.05。 

 2.3 确定因子数量

特征值(Eigenvalues):碎石图,选择特征值>1的因子

eigen_values <- eigen(cor_data)$values
plot(eigen_values, type = "b", main = "Scree Plot")

从以下结果可知,只能选择2个因子。 

 

 平行分析(Parallel Analysis):

fa.parallel(cor_data, n.obs=nrow(data), fm="ml", fa = "fa", n.iter=100)

从以下碎石图结果可知,建议取2个因子(虚线上面的小三角形个数) 

2.4 进行因子分析

使用正交旋转。

#   数据为相关矩阵 
#   nfactors: 因子数
#   最大迭代次数为100次
#   rotate: 旋转方法("varimax"正交旋转,"oblimin"斜交旋转)
#   fm: 因子提取方法("pa"主成分,"ml"极大似然)
result <- fa(r = cor_data, nfactors = 2, n.obs = nrow(data), n.iter=100, rotate = "varimax", fm = "ml")
result

从以下结果可知,2个因子一共解释了100%的变异。 

使用斜交旋转。

result <- fa(r = cor_data, nfactors = 2, n.obs = nrow(data), n.iter=100, rotate = "promax", fm = "ml")
result

 2.5 可视化结果

# 绘制因子载荷图
fa.diagram(result)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/972534.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

linux下pip下载项目失败

想下载CLIP的项目复现代码的时候&#xff0c;出现问题如下&#xff1a; 于是手动使用 Git 克隆仓库&#xff0c; git clone https://github.com/openai/CLIP.git cd CLIP pip install .ls查看文件如下&#xff1a;(手动克隆git项目成功)

Windows桌面系统管理8:项目实施

Windows桌面系统管理0&#xff1a;总目录-CSDN博客 Windows桌面系统管理1&#xff1a;计算机硬件组成及组装-CSDN博客 Windows桌面系统管理2&#xff1a;VMware Workstation使用和管理-CSDN博客 Windows桌面系统管理3&#xff1a;Windows 10操作系统部署与使用-CSDN博客 Wi…

【JavaScript】实战案例-放大镜效果、图片切换

目录 实现这种图片切换的和放大镜的效果&#xff1a; 第一步&#xff1a;图片的切换 第二步&#xff1a;鼠标经过中等盒子&#xff0c;显示隐藏大盒子 第三步&#xff1a;黑色遮罩盒子跟着鼠标来移动 遮罩层盒子移动的坐标&#xff1a; 总结一下~本章节对我有很大的收获…

windows使用clion运行lua文件,并且使用cjson

需要文件&#xff1a;clion&#xff0c;lua-5.4.2_Win64_bin&#xff0c;lua-5.4.2_Win64_dllw6_lib&#xff0c;lua-cjson-2.1.0.9&#xff0c;mingw64 1&#xff0c;下载安装clion。 2&#xff0c;下载lua windows运行程序 lua官网&#xff1a;http://www.lua.org/download…

人工智能基础之数学基础:01高等数学基础

函数 极限 按照一定次数排列的一列数:“&#xff0c;“,…,"…&#xff0c;其中u 叫做通项。 对于数列{Un}如果当n无限增大时&#xff0c;其通项无限接近于一个常数A&#xff0c;则称该数列以A为极限或称数列收敛于A&#xff0c;否则称数列为发散&#xff0c; 极限值 左…

flink-cdc同步数据到doris中

1 创建数据库和表 1.1 数据库脚本 -- 创建数据库eayc create database if not exists ods_eayc; -- 创建数据表2 数据同步 2.1 flnk-cdc 参考Flink CDC实时同步MySQL到Doris Flink CDC 概述 2.1.1 最简单的单表同步 从下面的yml脚本可以看到&#xff0c;并没有doris中创建…

CUDA兼容NVIDA版本关系

CUDA组成 兼容原则 CUDA 驱动(libcuda.so)兼容类型要求比CUDA新向后兼容无主版本一致&#xff0c;子版本旧兼容需要SASS、NVCC比CUDA老向前兼容提取对应兼容包 向后兼容&#xff1a;新版本支持旧版本的内容&#xff0c;关注的是新版本能否处理旧版本的内容。 向前兼容&#…

要配置西门子G120AX变频器实现**端子启停**和**Modbus RTU(485)频率给定

要配置西门子G120AX变频器实现端子启停和Modbus RTU&#xff08;485&#xff09;频率给定&#xff0c;需调整以下关键参数&#xff1a; 1. 端子启停控制 P29652[0]&#xff1a;设置启停信号源 &#xff08;例&#xff1a;P29652 [0] 722.0 表示用DI0端子作为启动/停止信号&…

撕碎QT面具(3):解决垂直布局的内容显示不全

问题&#xff1a;内容显示不全 解决方案&#xff1a;增加Vertical Spacer&#xff0c;它会把Group Box控件挤上去&#xff0c;让内容显示完全。 结果展示&#xff1a;

LabVIEW 中的 ax - events.llb 库

ax - events.llb 库位于C:\Program Files (x86)\National Instruments\LabVIEW 2019\vi.lib\Platform目录&#xff0c;它是 LabVIEW 平台下与特定事件处理相关的重要库。该库为 LabVIEW 开发者提供了一系列工具&#xff0c;用于有效地处理和管理应用程序中的各种事件&#xff0…

Macos机器hosts文件便捷修改工具——SwitchHosts

文章目录 SwitchHosts软件下载地址操作添加方案切换方案管理方案快捷键 检测 SwitchHosts SwitchHosts 是一款 Mac 平台上的免费软件&#xff0c;它可以方便地管理和切换 hosts 文件&#xff0c;支持多种 hosts 文件格式。 软件下载地址 SwitchHosts 操作 添加方案 添加 …

【算法】双指针(下)

目录 查找总价格为目标值的两个商品 暴力解题 双指针解题 三数之和 双指针解题(左右指针) 四数之和 双指针解题 双指针关键点 注意事项 查找总价格为目标值的两个商品 题目链接&#xff1a;LCR 179. 查找总价格为目标值的两个商品 - 力扣&#xff08;LeetCode&#x…

嵌入式linux利用标准字符驱动模型控制多个设备方法

一、驱动模型概述 Linux标准字符设备驱动模型基于以下核心组件: 设备号:由主设备号(Major)和次设备号(Minor)组成 cdev结构体:表征字符设备的核心数据结构 文件操作集合:file_operations结构体定义设备操作 sysfs接口:提供用户空间设备管理能力 传统单设备驱动与多设…

【可实战】Linux 常用统计命令:排序sort、去重uniq、统计wc

在 Linux 系统中&#xff0c;有一些常用的命令可以用来收集和统计数据。 一、常用统计命令的使用场景 日志分析和监控&#xff1a;通过使用 Linux 统计命令&#xff0c;可以实时监控和分析系统日志文件&#xff0c;了解系统的运行状况和性能指标。例如&#xff0c;使用 tail 命…

在 macOS 的 ARM 架构上按住 Command (⌘) + Shift + .(点)。这将暂时显示隐藏文件和文件夹。

在 macOS 的 ARM 架构&#xff08;如 M1/M2 系列的 Mac&#xff09;上&#xff0c;设置 Finder&#xff08;访达&#xff09;来显示隐藏文件夹的步骤如下&#xff1a; 使用快捷键临时显示隐藏文件&#xff1a; 在Finder中按住 Command (⌘) Shift .&#xff08;点&#xff…

分享一个解梦 Chrome 扩展 —— 周公 AI 解梦

一、插件简介 周公 AI 解梦是一款基于 Chrome 扩展的智能解梦工具&#xff0c;由灵机 AI 提供技术支持。它能运用先进的 AI 技术解析梦境含义&#xff0c;为用户提供便捷、智能的解梦服务。无论你是对梦境充满好奇&#xff0c;还是想从梦境中获取一些启示&#xff0c;这款插件都…

Git命令行入门

诸神缄默不语-个人CSDN博文目录 之前写过一篇VSCode Git的博文&#xff1a;VSCode上的Git使用手记&#xff08;持续更新ing…&#xff09; 现在随着开发经历增加&#xff0c;感觉用到命令行之类复杂功能的机会越来越多了&#xff0c;所以我专门再写一篇Git命令行的文章。 G…

【时时三省】(C语言基础)用N-S流程图表示算法

山不在高&#xff0c;有仙则名。水不在深&#xff0c;有龙则灵。 ----CSDN 时时三省 N-S流程图 既然用基本结构的顺序组合可以表示任何复杂的算法结构&#xff0c;那么&#xff0c;基本结构之间的流程线就是多余的了。1973年&#xff0c;美国学者I.Nassi和B .Shneiderman提出…

单元测试junit5

一、idea 安装自动化生成插件jcode5 安装可能不成功&#xff0c;尝试多次安装&#xff1b; 安装成功后&#xff0c;重启idea&#xff0c;再次确认安装是否成功&#xff1b; 二、在需要生成单元测试代码的模块的pom中引入依赖 ......<parent><groupId>org.springf…

Matlab写入点云数据到Rosbag

最近有需要读取一个点云并做处理后&#xff0c;重新写回rosbag。网上有很多读取的教程&#xff0c;但没有写入。自己写入时也遇到了很多麻烦&#xff0c;踩了一堆坑进行记录。 1. rosbag中一个lidar的msg有哪些信息&#xff1f; 通过如下代码&#xff0c;先读取一个rosbag的l…