机器学习之PCA降维

主成分分析(PCA,Principal Component Analysis)

主成分分析(PCA)是一种常见的无监督学习技术,广泛应用于数据降维、数据可视化以及特征提取等任务。PCA的目标是通过线性变换将数据从高维空间映射到低维空间,同时尽可能保留数据的变异性(即数据的主要特征)。

1. PCA的基本思想

PCA的核心思想是找出数据中方差最大的方向,并用这些方向来描述数据。通过这些方向(称为“主成分”),我们可以在保持数据的主要信息的同时,减少数据的维度。

具体来说,PCA的过程可以分为以下几个步骤:

  1. 标准化数据:通常情况下,在进行PCA之前,我们会对数据进行标准化(零均值单位方差处理)。这一步骤非常重要,因为PCA的结果受数据尺度的影响。如果数据的不同特征量纲不同,PCA可能会偏向那些尺度较大的特征。

  2. 计算协方差矩阵:通过计算数据的协方差矩阵,我们可以了解不同特征之间的相关性。协方差矩阵的每个元素表示两个特征之间的协方差。如果两个特征之间的协方差较大,说明它们之间存在较强的线性关系。

  3. 计算特征值和特征向量:对协方差矩阵进行特征值分解(或奇异值分解)。特征值代表每个主成分方向的重要性,而特征向量则代表这些方向本身。

  4. 排序和选择主成分:将特征值按降序排列,选择最大的几个特征值对应的特征向量作为主成分。每个主成分都代表数据中的一个方向,这些方向是原始特征空间中最能表示数据方差的方向。

  5. 将数据投影到新空间:使用选定的主成分将数据从高维空间映射到低维空间,这样我们就可以得到降维后的数据。

2. PCA的数学过程

假设我们有一个 n×m 的数据矩阵 X,其中 n 是样本数,m 是特征数。PCA的数学步骤如下:

  1. 数据标准化: 对每个特征减去均值,得到零均值数据:

    X′=X−μ

    其中,μ 是特征的均值。

  2. 计算协方差矩阵: 协方差矩阵 C 计算公式为:

  3. 特征值分解: 对协方差矩阵 C 进行特征值分解,得到特征值和特征向量:

    其中,λi是特征值,vi是对应的特征向量。

  4. 选择主成分: 按照特征值的大小对特征向量进行排序,选择前 k个特征值对应的特征向量,组成一个新的矩阵 Vk。

  5. 数据映射: 使用选定的特征向量将原数据映射到新的低维空间:

    Xnew=X′Vk

    其中,Xnew是降维后的数据,Vk是由前 k 个主成分组成的矩阵。

3. PCA的应用
  • 数据降维:PCA最常见的应用之一是降维。当数据具有很多特征时,可能存在冗余信息,PCA可以通过减少特征数量来简化模型,减少计算开销,同时尽量保留数据的原始信息。

  • 数据可视化:PCA常用于将高维数据投影到2D或3D空间,帮助我们对数据进行可视化。通过观察降维后的数据,我们可以识别数据的分布、模式或异常。

  • 去噪声:通过去除一些较小的主成分,可以消除数据中的噪声,增强信号。

  • 特征提取:PCA可以用来提取数据中的重要特征,尤其是在图像处理、语音识别等领域。它能够帮助我们识别最具代表性的特征,从而简化后续的处理和建模。

4. PCA的优缺点
  • 优点

    1. 降维效率高:PCA是一种线性降维方法,计算过程相对简单且高效,适用于大规模数据。
    2. 数据压缩:PCA能够有效地减少数据的维度,去除冗余特征。
    3. 去噪效果:去除低方差成分,可以减少噪声的影响,提高数据质量。
  • 缺点

    1. 线性假设:PCA只能捕捉数据中的线性关系,对于非线性数据的表现不佳。
    2. 信息丢失:虽然PCA可以减少数据维度,但如果选择的主成分较少,可能会丢失重要信息。
    3. 特征不可解释性:PCA的主成分是原始特征的线性组合,通常难以直观解释。
5. PCA的Python实现

在Python中,可以使用scikit-learn库中的PCA类来实现主成分分析。以下是一个简单的示例:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 假设X是我们的原始数据矩阵
X = np.random.randn(100, 5)  # 100个样本,5个特征

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 初始化PCA对象
pca = PCA(n_components=2)  # 降到2维

# 拟合PCA并转换数据
X_pca = pca.fit_transform(X_scaled)

print("降维后的数据形状:", X_pca.shape)
以使用 Python 中的 matplotlibsklearn 来生成一个展示PCA过程的图。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 创建一个简单的二维数据集
np.random.seed(0)
X = np.random.randn(100, 2)

# 标准化数据
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 执行PCA,降到1维
pca = PCA(n_components=1)
X_pca = pca.fit_transform(X_scaled)

# 可视化原始数据和PCA后的投影
plt.figure(figsize=(8, 6))

# 绘制原始数据
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], alpha=0.7, label='Original Data')

# 绘制主成分方向
origin = np.mean(X_scaled, axis=0)
plt.quiver(origin[0], origin[1], pca.components_[0, 0], pca.components_[0, 1],
           angles='xy', scale_units='xy', scale=1, color='r', label='Principal Component')

# 绘制PCA后的投影
plt.scatter(X_pca, np.zeros_like(X_pca), alpha=0.7, color='g', label='PCA Projection')

plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.title('PCA: Projection of Data onto Principal Component')
plt.grid(True)
plt.show()

图解说明:

  1. 原始数据(蓝色点):这表示原始的二维数据。
  2. 主成分(红色箭头):这表示通过PCA找到的主要方向(最大方差的方向),用箭头表示。
  3. PCA后的投影(绿色点):数据点被投影到主成分方向后,降维到一维。
6. 总结

PCA是一种强大的线性降维工具,广泛应用于数据处理和机器学习任务中。它能够通过找到数据中的主要成分来简化问题,降低计算复杂度,但其线性假设限制了它在一些复杂数据结构上的表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/942532.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

x86_64 Ubuntu 编译安装英伟达GPU版本的OpenCV

手把手带你在Linux上安装带GPU加速的opencv库(C版本)_opencv linux-CSDN博客 cmake \-D CMAKE_BUILD_TYPERELEASE \-D OPENCV_GENERATE_PKGCONFIGON \-D CMAKE_INSTALL_PREFIX/usr/local \-D OPENCV_EXTRA_MODULES_PATH/home/hwj/opencv/opencv_contrib…

Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa 会重复一个语句10次,然后每次都mask不同的15%token。丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。使用了BPE ALBERT 1. 跨层参数共享 可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。 实验结果…

ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

基本信息 📝 原文链接: https://arxiv.org/abs/2412.14711👥 作者: Ziteng Wang, Jianfei Chen, Jun Zhu🏷️ 关键词: Mixture-of-Experts, ReLU routing📚 分类: 机器学习 摘要 中文摘要 稀疏激活的专家混合模型(…

【C语言程序设计——选择结构程序设计】预测你的身高(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 1、输入数值 2、选择结构语句 3、计算结果并输出 编程要求 测试说明 通关代码 测试结果 任务描述 本关任务:编写一个程序,该程序需输入个人数据,进而预测其成年后的身高。 相关知识 为了完成本…

(Arxiv-2024)SwiftEdit:通过一步扩散实现闪电般快速的文本引导图像编辑

SwiftEdit:通过一步扩散实现闪电般快速的文本引导图像编辑 Paper是VinAI Research发表在Arxiv2024的工作 Paper Title:SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion Code地址 Abstract 文本引导的图像编辑方面的最新进展利用了基于…

python langid识别一段字符串是哪国语言

分析: 在利用爬虫抓取亚马逊网站的数据时,有时会出现所抓页面的语言类型发生错误的情况(如抓取沙特站数据时想要英文页面,抓到的确是阿拉伯语页面)。在数据量大的时候人工排查这类异常情况是非常麻烦的,这时…

英特尔的创新困局与未来的转机:重塑还是消亡?

英特尔,这家曾引领全球半导体行业的巨头,如今正面临前所未有的挑战。从技术创新的停滞,到错失人工智能领域的制高点,再到被AMD和英伟达等竞争对手赶超,英特尔的创新之路似乎正走向尽头。但这是否意味着它的未来注定黯淡…

软考:系统架构设计师教材笔记(持续更新中)

教材中的知识点都会在。其实就是将教材中的废话删除,语言精练一下,内容比较多,没有标注重点 系统架构概述 定义 系统是指完成某一特定功能或一组功能所需要的组件集,而系统架构则是对所有组件的高层次结构表示,包括各…

No.1免费开源ERP:Odoo自定义字段添加到配置页中的技术分享

文 / 开源智造(OSCG) Odoo亚太金牌服务 在Odoo18之中,配置设定于管控各类系统配置层面发挥着关键之效用,使您能够对软件予以定制,以契合您特定的业务需求。尽管 Odoo 提供了一组强劲的默认配置选项,然而有…

YOLO11全解析:从原理到实战,全流程体验下一代目标检测

前言 一、模型介绍 二、网络结构 1.主干网络(Backbone) 2.颈部网络(Neck) 3.头部网络(Head) 三、算法改进 1.增强的特征提取 2.优化的效率和速度 3.更高的准确性与更少的参数 4.环境适应性强 5.…

虚幻引擎结构之ULevel

在虚幻引擎中,场景的组织和管理是通过子关卡(Sublevel)来实现的。这种设计不仅提高了资源管理的灵活性,还优化了游戏性能,特别是在处理大型复杂场景时。 1. 场景划分模式 虚幻引擎采用基于子关卡的场景划分模式。每个…

自动驾驶---Parking端到端架构

​​​​​​1 背景 自动泊车也是智能驾驶低速功能中比较重要的一部分,低速功能其中还包括记忆泊车,代客泊车等。传统的泊车算法通常使用基于规则或者搜索优化的方案来实现。然而,由于算法的复杂设计,这些方法在复杂的泊车场景中效…

[ffmpeg]编译 libx264

步骤 下载 libx264 git clone https://code.videolan.org/videolan/x264.git cd x264环境搭建 然后在开始菜单中找到并打开 x64 Native Tools Command Prompt for VS 2019 : 打开 msys2_shell.cmd -use-full-path 这时会打开 MSYS 的新窗口,先把一些汇…

华为管理变革之道:管理制度创新

目录 华为崛起两大因素:管理制度创新和组织文化。 管理是科学,150年来管理史上最伟大的创新是流程 为什么要变革? 向世界标杆学习,是变革第一方法论 体系之一:华为的DSTE战略管理体系(解决&#xff1a…

【自留】Unity VR入门

帮老师写的,自留,不保证是很好的教程。 1.PICO开发指南(官方) 在该页面,能找到大部分能实现的功能,以及实现方式。非常推荐!PICO Unity Integration SDK | PICO 开发者平台 2.如何快速入门&…

uniapp 项目基础搭建(vue2)

一 .创建项目 创建项目可以通过工具创建,也可以通过脚手架下载 1.通过工具创建 2.通过脚手架下载 安装脚手架 ​​npm install -g vue/cli 下载项目模板 vue create -p dcloudio/uni-preset-vue 项目名称 二. 下载相关依赖 1. 项目默认是没有package.json文件的&…

使用vcpkg安装opencv>=4.9后#include<opencv2/opencv.hpp>#include<opencv2/core.hpp>无效

使用vcpkg安装opencv>4.9后#include<opencv2/opencv.hpp>#include<opencv2/core.hpp>无效\无法查找或打开 至少从2024年开始&#xff0c;发布的vcpkg默认安装的opencv版本都是4.x版。4.8版本及以前&#xff0c;vcpkg编译后的opencv头文件目录是*/vcpkg/x64-win…

Kubernetes PV及PVC的使用

前提条件 拥有Kubernetes集群环境&#xff0c;可参考&#xff1a;Kubernetes集群搭建理解Kubernetes部署知识&#xff0c;可参考&#xff1a;使用Kubernetes部署第一个应用 、Deloyment控制器拥有NFS服务&#xff0c;可参考&#xff1a;Linux环境搭建NFS服务 概述 Persistent…

flink sink kafka

接上文&#xff1a;一文说清flink从编码到部署上线 之前写了kafka source&#xff0c;现在补充kafka sink。完善kafka相关操作。 环境说明&#xff1a;MySQL&#xff1a;5.7&#xff1b;flink&#xff1a;1.14.0&#xff1b;hadoop&#xff1a;3.0.0&#xff1b;操作系统&#…

【安全编码】Web平台如何设计防止重放攻击

我们先来做一道关于防重放的题&#xff0c;答案在文末 防止重放攻击最有效的方法是&#xff08; &#xff09;。 A.对用户密码进行加密存储使用 B.使用一次一密的加密方式 C.强制用户经常修改用户密码 D.强制用户设置复杂度高的密码 如果这道题目自己拿不准&#xff0c;或者…