主成成分分析法

问题引入:

公司评价
假设你是一个公司的财务经理,掌握了公司所有数据,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折扣、职工人数、分工和教育程度等等,你要如何选择关键因素进行汇报呢?
需要把这种有很多变量的数据高度概括,即找出少数代表多数

两种降维方法:主成分分析和因子分析法

1,主成成分分析法简介

是因子分析的一个特例。
研究如何通过少数几个主成分来解释多个变量间的内部结构。

从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。

1.1 主成分分析法基本思想

以两个变量为例
假设只有两个变量x和x,从散点图可见两个变量间存在相关关系,这意味着两个变量提供的信息有重叠

 如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维。

1.2 .主成分分析法的原理

当指标数较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。

数学上的处理是将原始的p个变量作线性组合作为新的变量。设p个原始变量为X1,X2……x,,构造新的变量指标z1,z2.,……,zm(m<=p),和原始变量之间的关系表示为

系数山的确定原则:
① zi与zj(i≠j; i,j=1,2,…,m)相互无关;

② z是x1,x2…,Xp,的一切线性组合中方差最大者,

zz是与z,不相关的x1,x2,…,Xm-1的所有线性组合中方差最大者

Zm是与Z1,Z2,…,Zm-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。
则新变量指标z1……,Zm分别称为原变量指标的第1,第2,…第m主成分

主成分分析的实质就是确定原来变量Xj(j=1,2,…,p)

在诸主成分zj(i=1,2,…,m)上的荷载Lij(i=1,2,…,m;=1,2,…,p)
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。

 1.3 主成成分分析法的解题步骤

①对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响。
②根据标准化后的数据矩阵求出协方差矩阵相关系数矩阵
③求出协方差矩阵或相关系数矩阵特征根和特征向量

④确定主成分,并对各主成分所包含的信息给予适当的解释。

 1.4 主成成分分析法各统计量的意义

特征值:衡量主成分解释力度的指标代表引入该主成分后可以解释平均多少个原始变量的信息。一般可以用特征值大于1作为纳入标准,如果小于1则解释力度不如直接引入原始变量

累积贡献率:前k个主成分的累积贡献率按照方差贡献率从大到小排列,前k个主成分累积提取了多少原始信息一般来说达到85%即可。

1.5 补充

 

 

 

 

 

2,因子分析法

2.1.因子分析法简介
因子分析可以看作主成分分析的推广和拓展,因子分析的用途与在成分分析类似,它也是一种降维方法。由于因子往往比主成分更易得到解释,故因子分析比主成分分析更容易成功,从而有更广泛的应用。通过对变量之间关系的研究,找出能综合原始变量的少数几个因子,使得少数因子能够反映原始信息的绝大部分信息,然后根据相关性大小将原始变量分组,使得组内变量之间相关性较高,而不同组的变量之间相关性较低。

 

 

3,总结: 

3.1 主成分分析法小结

优点:
不要求数据呈正态分布,主成分就是按数据离散程度最大的方向对基组进行旋转,这特性扩展了其应用范围:通过对原始变量进行综合与简化,可以客观地确定各个指标的权重,避免主观判断的随意性。

缺点:
主成分分析适用于变量间有较强相关性的数据,若原始数据相关性弱,:则起不到很好的降维作用;
降维后,存在少量信息丢失,不可能包含100%原始数据。

原始数据经过标准化处理之后,含义会发生变化,且主成分的解释含义:较原始数据比较模糊。
假设标准化后的原始变量间存在多重共线性,即原始变量之间存在不可忽视的信息重叠,主成分分析不能有效剔除信息重叠

3.2 因子分析法小结
优点:
它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;
缺点:
在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/497032.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

宝宝灯塔:成都辅助生殖市场研究,海外试管成热门

据宝宝灯塔网介绍&#xff1a;在成都的辅助生殖市场中&#xff0c;生殖医院一直是主体&#xff0c;它们提供专业的医疗服务和治疗&#xff0c;帮助不孕不育人群实现生育梦想。然而&#xff0c;随着科技的进步和市场的变化&#xff0c;互联网企业也开始涉足这一领域&#xff0c;…

盏燕生物科技将出席2024第七届燕窝天然滋补品博览会

参展企业介绍 深圳市盏燕生物科技有限公司&#xff0c;办公室地址位于中国第一个经济特区&#xff0c;鹏城深圳&#xff0c;深圳市龙岗区平湖街道禾花社区富安大道18号亚钢工贸大楼1栋1017A&#xff0c;我公司主要提供一般经营项目是&#xff1a;初级农产品、海产品、化妆品、…

低代码开发能用在哪些行业?

低代码开发平台&#xff08;Low code development platform&#xff09;是无需编码&#xff08;0代码&#xff09;或通过少量代码就可以快速生成应用程序的开发平台。通过可视化进行应用程序开发的方法&#xff0c;使具有不同经验水平的开发人员可以通过图形化的用户界面&#…

computed计算属性、watch侦听器、生命周期

计算属性 点击查看 Vue文档 基础语法 多次使用计算属性&#xff0c;计算属性方法也只执行一次&#xff0c; 调用计算属性的方法不能加() 直接修改计算数学的值 计算属性不能通过双向绑定修改&#xff08;默认不能改&#xff09; 想要修改计算属性&#xff0c;就必须使用计…

夜晚水闸3D可视化:科技魔法点亮水利新纪元

在宁静的夜晚&#xff0c;当城市的霓虹灯逐渐暗淡&#xff0c;你是否曾想过&#xff0c;那些默默守护着城市安全的水闸&#xff0c;在科技的魔力下&#xff0c;正焕发出别样的光彩&#xff1f;今天&#xff0c;就让我们一起走进夜晚水闸3D模型&#xff0c;感受科技为水利带来的…

包子凑数(蓝桥杯,闫氏DP分析法)

题目描述&#xff1a; 小明几乎每天早晨都会在一家包子铺吃早餐。 他发现这家包子铺有 N 种蒸笼&#xff0c;其中第 i 种蒸笼恰好能放 Ai 个包子。 每种蒸笼都有非常多笼&#xff0c;可以认为是无限笼。 每当有顾客想买 X 个包子&#xff0c;卖包子的大叔就会迅速选出若干笼…

计算机网络——29ISP之间的路由选择:BGP

ISP之间的路由选择&#xff1a;BGP 层次路由 一个平面的路由 一个网络中的所有路由器的地位一样通过LS&#xff0c;DV&#xff0c;或者其他路由算法&#xff0c;所有路由器都要知道其他所有路由器&#xff08;子网&#xff09;如何走所有路由器在一个平面 平面路由的问题 …

Liunx安装Nacos

Liunx安装Nacos 1、镜像下载 curl -O https://github.com/alibaba/nacos/releases/download/2.3.1/nacos-server-2.3.1.tar.gz2、解压到指定目录 tar -zxvf nacos-server-2.3.1.tar.gz -C /usr/local3、进入bin文件启动startup.sh文件 cd /usr/local/nacos/binsh startup.s…

精灵传信系统 匿名性系统 支持网站+小程序双端源码

精灵传信支持在线提交发送短信&#xff0c;查看回复短信&#xff0c;在线购买额度&#xff0c;自定义对接易支付&#xff0c;设置违禁词&#xff0c;支持网站小程序双端。 项目 地 址 &#xff1a; runruncode.com/php/19720.html 环境要求: PHP > 73 MySQL>5.6 Ngi…

Redis中的客户端(三)

客户端 身份验证 客户端状态的authenticated属性用于记录客户端是否通过了身份验证: typedef struct redisClient {// ...int authenticated;// ... } redisClient;如果authnticated的值为0&#xff0c;那么表示客户端未通过身份验证&#xff1b;如果authenticated的值为1&a…

分布式处理

前言 大家好&#xff0c;我是jiantaoyab&#xff0c;这是我作为学习笔记原理篇的最后一章&#xff0c;一台计算机在数据中心里是不够的。因为如果只有一台计算机&#xff0c;我们会遇到三个核心问题。第一个核心问题&#xff0c;叫作垂直扩展和水平扩展的选择问题&#xff0c;…

两年测开经历分享的测试开发学习路线

路线大纲 该学习路线一共是7个阶段&#xff0c;循序渐进&#xff0c;学习路线相对比较平缓图片 阶段0 : 前言 路线特点 适用于想转行做功能测试与测试开发的同学 给出目标、学习建议、关键知识点、最优资源以及各类资源推荐&#xff08;视频、书籍、文档、项目、工具等&am…

在宝塔面板中,为自己的云服务器安装SSL证书,为所搭建的网站启用https(主要部分攻略)

前提条件 My HTTP website is running Nginx on Debian 10&#xff08;或者11&#xff09; 时间&#xff1a;2024-3-28 16:25:52 你的网站部署在Debain 10&#xff08;或者11&#xff09;的 Nginx上 安装单域名证书&#xff08;默认&#xff09;&#xff08;非泛域名&#xf…

【TB作品】MSP430G2553,超声波倒车雷达PCB,单片机,超声波SR04,键盘,oled,

题目 硬件&#xff1a;MSP430G2553、 SR04超声波传感器 、3*4键盘、 无源蜂鸣器、oled显示屏 软件 1 、实时显示测量得到的距离 2、按键设置一个报警门限数值&#xff0c;直接输入数值后确认 3、低于报警门限数值就开始报警&#xff0c;而且距离越近蜂鸣器的鸣叫频率越高 程序…

20240321-1-AB测试面试题

AB测试面试题 1. 介绍一下ABTest的步骤 ABtest就是为了测试和验证模型/项目的效果&#xff0c;在app/pc端设计出多个版本&#xff0c;在同一时间维度下&#xff0c;分别用组成相同/相似的群组去随机访问这些版本&#xff0c;记录下群组的用户体验数据和业务数据&#xff0c;最…

Xcode 15 Sandbox: rsync(xxxx) deny(1) file-write-create

设置里面搜索user 把User Script Sanboxing 改为NO 新版本的Xcode 15 编译报该错误 右侧工具栏 项目的workspace 和 pod的 space 都选择为15.0 即可

泛微E9 担当只能查看与自己相关的明细表数据,无关数据隐藏不显示

功能背景 我们在完成一些大型的任务时&#xff0c;会涉及到多个担当来分工&#xff0c;每个担当都有自己的工作范围&#xff0c;但是在担当确认自己的工作时&#xff0c;其他担当的工作内容需要保密。 实例 申请人在填报时&#xff0c;需要填写类型、项目名、担当&#xff0…

TOP100-回溯(二)

4.39. 组合总和 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 &#xff0c;并以列表形式返回。你可以按 任意顺序 返回这些组合。 candidates 中的 同一个 数字可以 无限制…

windows安装jdk8

我们会在windows中通过Java代码去操作hadoop集群&#xff0c;因此我们需要在windows系统中配置java相关的环境&#xff0c;今天带着大家安装以下jdk8. 1.找到jdk8的安装文件 2.双击该文件进行安装 稍微等待一会儿&#xff08;30秒左右&#xff0c;有时时间会长些&#xff09; 安…

代码随想录第23天| 669. 修剪二叉搜索树 108.将有序数组转换为二叉搜索树 538.把二叉搜索树转换为累加树

669. 修剪二叉搜索树 669. 修剪二叉搜索树 - 力扣&#xff08;LeetCode&#xff09; 代码随想录 (programmercarl.com) 你修剪的方式不对&#xff0c;我来给你纠正一下&#xff01;| LeetCode&#xff1a;669. 修剪二叉搜索树_哔哩哔哩_bilibili 给你二叉搜索树的根节点 root …