数据降维方法-主成分分析(PCA)

目录

一、前言

二、向量的表示及基变换

三、基变换

四、协方差矩阵

五、协方差 

六、优化目标 


一、前言

        主成分分析(Principal Component Analysis)

        用途:降维中的常用手段

        目标:提取最有价值的信息(基于方差)

        问题:降维后的数据的意义??

二、向量的表示及基变换

        内积:(a_1,a_2,...,a_n)^{T}\cdot (b_1,b_2,...,b_n)^{T}=a_1b_1+a_2b_2+...+a_nb_n

        解释:A\cdot B=|A||B|cos(\theta)

        设向量B的模为1,则A与B的内积值就等于A向B所在直线投影的矢量长度

        向量可以表示为(3,2),实际上就表示线性组合:x(1,0)^T+y(0,1)^T

        基:(1,0) \;\;and \:\:(0,1)叫做二维空间的一组基

三、基变换

         基是正交的(即内积为0,或者直观的说是相互垂直)

        要求:线性无关

        变换:一个新的基,它的各个维度的值,均是在原来基上的坐标来表达的,换言之一个新的基有原本的基生成。数据与一个基做内积运算,结果作为第一个新的坐标分量,然后与第二个基做内积运算,结果作为第二个坐标分量。

         例如:

        数据(3,2)映射到基中坐标:

            

        

        两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中的每一行行向量中为基的空间中去。

四、协方差矩阵

        方向:如何选择方向(或者说是基)才能尽量保留最多的原始信息呢??一种直观的看法是:希望投影后的投影值尽可能分散。

        方差:var(a)=\frac{1}{m}\sum_{i=1}^m(a_i-\mu )^2

        寻找一个一维基,使得所有数据变换为这个基上的坐标之后,方法值最大

        协方差:(假设均值为0时,先去中心化,使每一维上的数据减去其均值即可):                                        ​​​​​​​        ​​​​​​​        cov(a,b)=\frac{1}{m}\sum_{i=1}^ma_ib_i

        a,b表示两个特征,协方差表示特征a,b的关系。

        例如:

五、协方差 

        如果单纯只选择方差最大的方向,后续方向应该会和方差最大的方向接近重合。

         

        解决方案:为了让两个字段尽可能表示更多的信息,我们不希望它们之间存在(线性)相关性,即垂直的。

        协方差:可以用两个字段的协方差表示其相关性cov(a,b)=\frac{1}{m}\sum_{i=1}^m a_ib_i,当协方差为0时,表示其两个字段完全独立。为了让协方差为0,选择第二个基时,只能在与第一个基的正交方向上选择。因此,最终选择两个方向方向一定时正交的。

六、优化目标 

        将一组N维向量降为K维向量(K大于0,小于N),目标是选择K个单位正交基,使原始数据交换到这组基上后,各字段两两协方差为0,字段方差则尽可能大。

        如何得到各个字段的协方差:

      

         矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是a,b的协方差。

        那么我们要使协方差为0,即除对角线上的元素外,其他都为0。

        操作:协方差矩阵对角化:即除对角线上的元素外,其他都为0,且在对角线上的元素按大小从上到小排列。

        

        实对称矩阵:一个n行n列的是对称矩阵一定可以找到n个单位正交向量。

                                       E=(e_1,e_2,...,e_n) 

        例如上面的:

                

                就是实对称矩阵。

        实对称矩阵可以进行对角化:

                

                

         

        

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/531726.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【项目精讲】RESTful简洁描述

RESTful是什么 是一种架构风格/API设计规范将一切数据视为资源利用HTTP请求方式 POST、GET、PUT、DELETE,描述对资源的操作 GET 获取资源POST 新建资源PUT 更新资源DELETE 删除资源 通过HTTP响应状态码,描述对资源的操作结果请求数据和英大数据均为JSO…

YOLOv8模型剪枝实战:DepGraph(依赖图)方法

课程链接:YOLOv8模型剪枝实战:DepGraph(依赖图)方法_在线视频教程-CSDN程序员研修院 YOLOv8是一个当前非常流行的目标检测器,本课程使用DepGraph(依赖图)剪枝方法对YOLOv8进行网络剪枝,使其更加轻量和实用…

SL4010 低压升压恒压芯片 2.7-24V输入 输出30V/10A 300W功率

SL4010是一款高效能、宽电压范围的低压升压恒压芯片,其卓越的性能和广泛的应用领域使其在市场上备受瞩目。该芯片支持2.7-24V的宽输入电压范围,能够提供稳定的30V/10A输出,最大输出功率高达300W,为各种电子设备提供稳定可靠的电源…

【动态规划-线性dp】【蓝桥杯备考训练】:乌龟棋、最长上升子序列、最长公共子序列、松散子序列、最大上升子序列和【已更新完成】

目录 1、乌龟棋 2、最长上升子序列 3、最长公共子序列 4、松散子序列 5、最大上升子序列和 1、乌龟棋 小明过生日的时候,爸爸送给他一副乌龟棋当作礼物。 乌龟棋的棋盘只有一行,该行有 N 个格子,每个格子上一个分数(非负整…

【科研入门】搭建与配置云服务器的论文环境

如何搭建云服务器并且配置基础论文代码环境? 目录 如何搭建云服务器并且配置基础论文代码环境?前言一、租用服务器并选定基础配置具体建议 二、容器初始化三、项目的具体配置四、克隆五、常见问题 前言 此次环境配置以AutoDL为例(可以选用其他服务器租用…

PS入门|学PS一定要先知道图层这玩意儿

前言 开始学习PS的小伙伴肯定是会遇到很多问题,最常见的莫过于为啥我调整了某些参数之后,并没有任何作用。 这个就涉及到图层的问题了。 学PS一定要知道,图层面板怎么看。 正文开始 首先咱们讲的图层面板基本上是在PS里100%会用到的功能。…

jfinal项目操作数据库DB.find()空指针异常问题解决

排查ActiveRecordPlugin是否配置启动成功 查看项目的配置 里面这个别注释了 这样就能和数据库交互了

acwing总结-线性质数筛

质数筛 题目链接:质数筛线性筛法 ac代码&#xff1a; #include<iostream> #include<algorithm> //https://www.bilibili.com/video/BV1LR4y1Z7pm/?spm_id_from333.337.search-card.all.click&vd_source436ccbb3a8f50110aa75654f38e35672 //链接到b站视频 us…

c++ stringstream(老好用了)

前言&#xff1a; 以前没有接触过stringstream这个类的时候&#xff0c;常用的字符串和数字转换函数就是sscanf和sprintf函数。开始的时候就觉得这两个函数应经很叼了&#xff0c;但是毕竟是属于c的。c中引入了流的概念&#xff0c;通过流来实现字符串和数字的转换方便多了。在…

【数据结构】-- 单链表 vs 双向链表

&#x1f308; 个人主页&#xff1a;白子寰 &#x1f525; 分类专栏&#xff1a;python从入门到精通&#xff0c;魔法指针&#xff0c;进阶C&#xff0c;C语言&#xff0c;C语言题集&#xff0c;C语言实现游戏&#x1f448; 希望得到您的订阅和支持~ &#x1f4a1; 坚持创作博文…

基于SSM+Jsp+Mysql的二手车交易网站

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

浏览器工作原理与实践--虚拟DOM:虚拟DOM和实际的DOM有何不同

虚拟DOM是最近非常火的技术&#xff0c;两大著名前端框架React和Vue都使用了虚拟DOM&#xff0c;所以我觉得非常有必要结合浏览器的工作机制对虚拟DOM进行一次分析。当然了&#xff0c;React和Vue框架本身所蕴含的知识点非常多&#xff0c;而且也不是我们专栏的重点&#xff0c…

WPS 365开启企业一站式AI办公;联发科推出生成式AI服务平台;马斯克:AI 明年或超越人类智力

WPS 365 升级一站式 AI 办公 昨日&#xff0c;金山办公生产力大会举行&#xff0c;现场发布了面向组织和企业的办公新质生产力平台 WPS 365&#xff0c;其包含升级的 WPS Office、最新发布的 WPS AI 企业版和 WPS 协作。 WPS 365 将能覆盖一个组织日常办公基本需求&#xff0c…

加密软件如何给文件加密

加密软件如何给文件加密 市面上有很多给文件加密的软件&#xff0c;它是如何给文件加密的呢&#xff1f;加密过程是否安全&#xff0c;效果是否理想呢&#xff1f;下面以安企神软件为例给大家介绍 给文件加密的关键步骤和技术。 1、选择加密算法 安企神软件可能会采用国际公…

设计模式之迭代器模式(上)

迭代器模式 1&#xff09;概述 1.概念 存储多个成员对象&#xff08;元素&#xff09;的类叫聚合类(Aggregate Classes)&#xff0c;对应的对象称为聚合对象。 聚合对象有两个职责&#xff0c;一是存储数据&#xff0c;二是遍历数据。 2.概述 迭代器模式(Iterator Patter…

Linux系统之——Elasticsearch企业级日志分析系统

目录 前言 一、ELK概述 1.ELK简介 2.ELK特点 3.为什么要使用ELK 4.完整日志系统基本特征 5.ELK工作原理 6.Elasticsearch介绍 6.1Elasticsearch概述 6.2Elasticsearch核心概念 7.Logstash介绍 7.1Logstash简介 7.2Logstash主要组件 8.Kibana介绍 8.1Kibana简介 …

生成随机图片验证码

随着互联网的不断发展&#xff0c;安全性问题日益突出。为了保障用户账号的安全性&#xff0c;很多网站都引入了验证码机制。验证码是一种区分用户是计算机还是人的公共全自动程序&#xff0c;可以有效防止恶意攻击和自动化脚本的滥用。本文将介绍如何使用Python生成随机图片验…

技术小课堂:100%CC防护是怎么实现的?

大家好&#xff0c;今天我们深入探讨的是如何有效地实现CC攻击的100%防护&#xff0c;以及传统防护手段存在的局限性和我们的定制化解决方案的优势。 传统的CC防护措施通常依赖于全局性的访问频率控制或在防火墙级别设置固定的访问次数限制。这种方式看似简单直接&#xff0c;…

数据挖掘实战-基于机器学习的垃圾邮件检测模型(文末送书)

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…

day13-实战:商城首页(上)

个人主页&#xff1a;学习前端的小z 个人专栏&#xff1a;HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结&#xff0c;欢迎大家在评论区交流讨论&#xff01; 文章目录 作业 作业 .bg-backward {width: 60px; height: 60px;background: url(../ima…