【机器学习】主成分分析(PCA):数据降维的艺术


鑫宝Code

🌈个人主页: 鑫宝Code
🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础
💫个人格言: "如无必要,勿增实体"


文章目录

  • 主成分分析(PCA):数据降维的艺术
    • 引言
    • PCA的基本概念
    • PCA的步骤
      • 数据预处理
      • 协方差矩阵
      • 特征值分解
      • 主成分的选择
      • 数据投影
    • PCA的应用场景
      • 1. 数据可视化
      • 2. 数据压缩
      • 3. 异常检测
      • 4. 特征提取
    • PCA的优缺点
      • 优点
      • 缺点
    • 结论

主成分分析(PCA):数据降维的艺术

在这里插入图片描述

引言

在数据科学和机器学习领域,处理高维数据是一项挑战。随着维度的增加,数据的复杂性和计算成本也随之上升,这便是所谓的“维度灾难”。主成分分析(Principal Component Analysis,PCA)作为一种经典的数据降维技术,通过寻找数据中的主要变化方向,将高维数据投影到低维空间,从而在保留数据主要信息的同时,简化数据结构,提升算法效率。本文将深入探讨PCA的工作原理、步骤、应用场景以及优缺点,旨在为读者提供一份全面的PCA指南。

PCA的基本概念

PCA的核心思想是通过变换坐标轴,将数据投影到一个新的坐标系上,使得第一轴(称为第一主成分)上的数据方差最大,第二轴(第二主成分)上的数据方差次之,且与第一轴正交,以此类推。这个新的坐标系是由原数据集的协方差矩阵的特征向量构成的,特征向量的方向对应着数据变化最大的方向。

PCA的步骤

数据预处理

假设我们有数据集 X \mathbf{X} X, n n n m m m列,每一行代表一个样本,每一列代表一个特征。PCA的第一步是对数据进行预处理,主要是中心化数据,即减去每一列(特征)的平均值,使数据集的每一列均值为0。

X c = X − μ \mathbf{X_c} = \mathbf{X} - \mu Xc=Xμ

其中, μ \mu μ X \mathbf{X} X的列均值向量。

协方差矩阵

在这里插入图片描述

接下来,计算数据集的协方差矩阵 C \mathbf{C} C,它描述了数据中各特征之间的线性关系。

C = 1 n − 1 X c T X c \mathbf{C} = \frac{1}{n-1}\mathbf{X_c}^T\mathbf{X_c} C=n11XcTXc

协方差矩阵是 m × m m \times m m×m的对称矩阵,其中 C i j \mathbf{C}_{ij} Cij表示第 i i i个特征和第 j j j个特征之间的协方差。

特征值分解

协方差矩阵 C \mathbf{C} C的特征值和特征向量非常重要,因为特征向量指向数据的主要变化方向,而特征值表示在该方向上的方差大小。

v \mathbf{v} v C \mathbf{C} C的一个特征向量, λ \lambda λ为其对应的特征值,满足:

C v = λ v \mathbf{Cv} = \lambda\mathbf{v} Cv=λv

主成分的选择

PCA通过选择协方差矩阵的前(k)个最大特征值对应的特征向量作为主成分。这些特征向量构成矩阵 P \mathbf{P} P,其中每一列都是一个特征向量。

P = [ v 1 , v 2 , . . . , v k ] \mathbf{P} = [\mathbf{v}_1, \mathbf{v}_2, ..., \mathbf{v}_k] P=[v1,v2,...,vk]

其中, v i \mathbf{v}_i vi C \mathbf{C} C的第 ( i ) (i) (i)个最大特征值对应的特征向量。

数据投影

最后,将原始数据集 X c \mathbf{X_c} Xc投影到由前 k k k个主成分构成的新空间中,得到降维后的数据集 Y \mathbf{Y} Y

Y = X c P \mathbf{Y} = \mathbf{X_c}\mathbf{P} Y=XcP

这样, Y \mathbf{Y} Y就是一个 n × k n \times k n×k的矩阵,每一行代表一个样本在降维后空间中的表示。

PCA的应用场景

1. 数据可视化

PCA常用于高维数据的可视化,通过将数据降至二维或三维,便于直观地观察数据的分布和结构。
在这里插入图片描述

2. 数据压缩

在图像和信号处理中,PCA可用于数据压缩,去除冗余信息,减少存储和传输成本。

3. 异常检测

通过PCA降维后,异常值往往在低维空间中更为突出,因此PCA也被用于异常检测。

4. 特征提取

PCA可以用于提取数据中的关键特征,为后续的机器学习模型提供更有意义的输入。

PCA的优缺点

优点

  1. 简单易懂:PCA的概念直观,易于理解和实现。
  2. 降维效果好:能够有效减少数据维度,同时保留大部分数据信息。
  3. 去噪:PCA在降维的过程中,可以去除数据中的噪声。

缺点

  1. 信息损失:尽管PCA能够保留数据的主要变化方向,但在降维过程中不可避免地会丢失一些信息。
  2. 非线性数据:PCA基于线性变换,对于非线性数据结构可能无法很好地捕捉。
  3. 解释性:降维后的主成分可能难以直接与原始特征对应,降低了模型的解释性。

结论

PCA作为一项基础而强大的数据降维技术,在数据科学和机器学习中扮演着重要角色。通过PCA,我们不仅可以有效处理高维数据,还能够在数据可视化、压缩、异常检测等多个方面发挥重要作用。然而,PCA并非万能,其在处理非线性数据和解释性方面存在局限性,因此在实际应用中,应根据数据特性和具体需求,合理选择和应用PCA。随着数据科学的不断发展,PCA也将与其他降维技术一起,持续为数据科学家们提供有力的分析工具。

End

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789441.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【TypeScript 学习】TypeScript 枚举类型发散:基于位运算的权限管理 CRUD 操作

文章目录 TypeScript 枚举类型发散:基于位运算的权限管理 CRUD 操作1 问题由来2 具体实现2.1 新增权限2.2 删除权限2.3 查询权限(即判定存在与否)2.4 修改权限2.5 完整测试 3 小结 TypeScript 枚举类型发散:基于位运算的权限管理 …

鸿蒙开发:Universal Keystore Kit(密钥管理服务)【加解密(C/C++)】

加解密(C/C) 以AES 256密钥为例,完成加解密。具体的场景介绍及支持的算法规格。 在CMake脚本中链接相关动态库 target_link_libraries(entry PUBLIC libhuks_ndk.z.so)开发步骤 生成密钥 指定密钥别名。初始化密钥属性集。调用OH_Huks_GenerateKeyItem生成密钥)…

[Linux安全运维] Linux用户以及权限管理

Linux用户以及权限管理 Linux用户和组 用户信息文件pasawd /etc/passwd文件用于存储用户的信息 :用于分割不同的字段信息 字段示例(第一行)含义说明1root用户名2x密码占位符x代表用户有密码存储在shadow文件中无内容代表用户登录系统不需要密码30UID…

一款24小时实时检测的六氟化硫气体泄漏报警系统

尽管当前工业生产模式越来越趋于自动化、智能化,但安全生产仍然是时下屡被提及的话题。在配电室等使用六氟化硫气体的众多领域中,由于气体泄漏而引发的中毒、火灾、爆炸、窒息事故仍高发频发。因此,安装六氟化硫气体泄漏报警监测系统仍是企业…

C语言 | Leetcode C语言题解之第226题翻转二叉树

题目: 题解: struct TreeNode* invertTree(struct TreeNode* root) {if (root NULL) {return NULL;}struct TreeNode* left invertTree(root->left);struct TreeNode* right invertTree(root->right);root->left right;root->right le…

如何探索高效知识管理:FlowUs知识库体验很好

在当今信息爆炸的时代,有效的知识管理对于个人和团队的发展至关重要。FlowUs 知识库作为一款创新的知识管理工具,正逐渐成为众多用户的首选,为他们带来了高效、便捷和有条理的知识管理体验。 FlowUs 知识库的一大特色在于其简洁直观的界面设计…

基于单片机的温控光控智能窗帘设计探讨

摘 要: 文章使用的核心原件是 AT89C52 单片机,以此为基础进行模块化的设计,在整个设计中通过加入光检测模块和温度检测模块,从而对室内的温度和光照强度进行检测,然后将检测得到的数据传输给单片机,单片机…

【自用】【高昆轮概率论与数理统计笔记】2.1 分布函数的概念与性质

不定期更新,前面的章节会在学完后补回来,重新学学概率,当年考研考的数学二,没有概率基础,想自己补补,视频课是高昆轮老师讲的浙大四版概率论教材的视频课,地址: 第一章:h…

印尼“支付宝” DANA 如何借力 OceanBase 实现3个“关键零”

当前,移动支付在东南亚正迅猛发展,据谷歌、淡马锡与贝恩公司发布的报告预测,东盟地区蓬勃兴起的移动支付市场有望在2030年突破至2万亿美元的交易规模。 在此背景下,DANA作为印尼——东南亚最大经济体中的一员,秉持着推…

基于vue的引入登录界面

以下是一些常见的登录页面布局: 1. 中心布局 - 登录表单位于页面的中心位置,通常包括用户名输入框、密码输入框、登录按钮等元素。页面背景简洁,以突出登录表单。 - 这种布局常见于大多数网站和应用,简洁明了,用户注意…

Android 性能优化之内存优化

文章目录 Android 性能优化之内存优化内存问题内存抖动内存泄露内存溢出 检测工具Memory ProfilerMemory AnalyzerLeakCanary 内存管理机制JavaAndroid 解决内存抖动问题模拟问题代码使用Memory Profiler工具检测优化技巧 内存泄露问题模拟问题代码使用LeakCanary工具检测优化技…

深入了解Rokid UXR2.0 SDK内置的Unity AR Glass开发组件

本文将了解到Rokid AR开发组件 一、RKCameraRig组件1.脚本属性说明2.如何使用 二、PointableUI组件1.脚本属性说明2.如何使用 三、PointableUICurve组件1.脚本属性说明2.如何使用 四、RKInput组件1.脚本属性说明2.如何使用 五、RKHand组件1.脚本属性说明2.如何使用3.如何禁用手…

数据结构与算法-动态规划-三角形最小路径和

三角形最小路径和 给定一个三角形 triangle ,找出自顶向下的最小路径和。 每一步只能移动到下一行中相邻的结点上。相邻的结点 在这里指的是 下标 与 上一层结点下标 相同或者等于 上一层结点下标 1 的两个结点。也就是说,如果正位于当前行的下标 i &…

web 网络安全

Web网络安全是网络安全的一个重要分支,专注于保护Web应用程序、服务和网站免受各种网络威胁。学习Web网络安全涉及多个层面的知识和技能,以下是一些主要的学习领域: 一、XSS攻击 全称::Cross Site Script (跨站脚本&a…

交叉熵损失函数的使用目的(很肤浅的理解)

第一种使用方法 import torch from torch import nn # Example of target with class indices loss nn.CrossEntropyLoss() input torch.randn(3, 5, requires_gradTrue) target torch.empty(3, dtypetorch.long).random_(5) output loss(input, target) output.backward(…

今天,纷享AI正式发布,开启智能CRM新纪元

纷享销客作为国产CRM中连续四年保持近40%增长的领先品牌,一直在探索AICRM领域的数字化变革。 7月10日,纷享AI产品正式上线。与通用大模型不同,纷享AI是在合规之下,开放性的接入各种大模型平台,并结合纷享销客在营销服…

百度搜索框制作HTML+CSS

样品图 自制效果图&#xff08;附注释&#xff09; <!DOCTYPE html> <html lang"en"><head><!-- 定义文档的字符编码为UTF-8&#xff0c;以支持中文等多语言字符 --><meta charset"UTF-8" /><!-- 设置页面在不同设备上的…

人形机器人头部结构设计

我又回来啦&#xff01;电机部分的教程会继续更新咯~ 前几天做了成图增材赛道&#xff0c;也算4个月以来本人做过最复杂的结构项目。 不知结果会怎么样&#xff0c;但我也尽全力啦&#xff01; 把说明书发在这里&#xff0c;STL已发GitHub&#xff0c;链接&#xff1a; zysampo…

探索东芝 TCD1304DG 线性图像传感器的功能

主要特性 高灵敏度和低暗电流 TCD1304DG 具有高灵敏度和低暗电流&#xff0c;非常适合需要精确和可靠图像捕捉的应用。传感器包含 3648 个光敏元件&#xff0c;每个元件尺寸为 8 m x 200 m&#xff0c;确保了出色的光灵敏度和分辨率。 电子快门功能 内置的电子快门功能是 T…

Java 期末速成

其他题 import java.util.*; public class Test {public static void main(String[] args) {Scanner scanner new Scanner(System.in);int arr[] new int[100];int value scanner.nextInt();int s scanner.nextLine(); // 键盘输入多个字符int result 0;System.out.print…