【人工智能】—_维度灾难、降维、主成分分析PCA、获取旧数据、非线性主成分分析

文章目录

  • 高维数据与维度灾难
  • 维度灾难
  • 降维
  • 为什么需要降维?
  • PRINCIPLE COMPONENT ANALYSIS
  • 主成分的几何图像
  • 最小化到直线距离的平方和
  • 举例
  • 主成分的代数推导
  • 优化问题
  • 计算主成分(Principal Components, PCs)的主要步骤
  • 获取旧数据的方法?
  • 主成分分析的最优性性质
  • 主要的理论结果
  • PCA图像压缩
  • 使用核的非线性主成分分析
  • 评价

高维数据与维度灾难

大多数机器学习和数据挖掘技术对于高维数据可能不太有效。这是由于维度灾难(Curse of Dimensionality)导致的。

随着维度的增加,查询的准确性和效率会迅速下降。因此,在高维数据中,许多机器学习和数据挖掘技术可能无法处理。

然而,高维数据的内在维度可能很小。例如,在某种类型的疾病中负责的基因数量可能很少。因此,对于高维数据,需要使用专门针对高维数据的技术,如降维和特征选择,以提高机器学习和数据挖掘的效率和准确性。

维度灾难

在高维数据中,维度灾难(Curse of Dimensionality)会导致以下问题:

  • 随着维度的增加,数据在所占用的空间中变得越来越稀疏。
  • 密度和点之间的距离的定义对于聚类和异常检测变得越来越无意义。
  • 如果 N 1 = 100 N_1=100 N1=100 表示单个输入问题的密集样本,则在维度为 10 10 10 的情况下,需要样本量为 N 10 = 10 0 10 N_{10}=100^{10} N10=10010 才能获得相同的采样密度。
  • 半径为 r r r、维度为 d d d 的超球体与边长为 2 r 2r 2r、维度为 d d d 的超立方体之间的比例在 d d d 趋近于无穷时收敛于 0 0 0,即几乎所有的高维空间都“远离”中心。
    在这里插入图片描述

因此,对于高维数据,需要特别注意选择适当的特征和降维技术,以便提高数据的密度和距离的意义,同时减少维度灾难的影响。

降维

降维(Dimensionality Reduction)是指将原始高维数据映射到低维空间的过程。

在不同的问题设置下,降维的标准可能会有所不同:

  • 无监督学习:最小化信息损失;
  • 监督学习:最大化类别差异。

给定由 d d d 个变量组成的数据点集合,可以计算将数据映射到低维空间的线性变换(投影)。设 f ( x 1 , x 2 , … , x n ) f(x_1, x_2, \ldots, x_n) f(x1,x2,,xn) 是在 R d R^d Rd 上的原始数据点, P P P 是一个 R d × m R^{d \times m} Rd×m 的矩阵,表示投影。则,变换后的数据点 y y y y = P T f ( x 1 , x 2 , … , x n ) y = P^T f(x_1, x_2, \ldots, x_n) y=PTf(x1,x2,,xn) 得到,其中 m ≪ d m \ll d md

因此,可以通过找到最优投影矩阵 P P P,在保留重要特征和最小化信息损失的同时降低数据维度,从而实现降维的目的。常用的降维技术包括主成分分析(PCA)和线性判别分析(LDA)等。
在这里插入图片描述

为什么需要降维?

降维(Dimensionality Reduction)有以下应用:

  • 可视化:将高维数据投影到二维或三维平面上,以便可视化和理解数据的结构和特征。
  • 数据压缩:降维可以减少数据的维度,从而提高数据的存储和检索效率。
  • 噪声去除:降维可以去除冗余和不相关的特征,从而对查询准确性产生积极影响。

因此,降维是在处理高维数据时非常重要的技术,可以帮助我们更好地理解和利用数据。

PRINCIPLE COMPONENT ANALYSIS

主成分分析(Principal Component Analysis,PCA)是一种常用的无监督学习算法,用于降低数据的维度并发现数据中的主要成分。

维度降低(Dimensionality reduction)是指通过减少数据的特征维度,将高维数据映射到低维空间中。维度降低的目的有以下几个方面:

  1. 数据压缩:高维数据可能包含冗余信息,通过降维可以减少存储空间和计算开销。
  2. 特征选择:降维可以帮助选择最相关的特征,去除噪音或不重要的特征,提高模型的效果和泛化能力。
  3. 可视化:降维可以将高维数据可视化在二维或三维空间中,更直观地理解数据之间的关系。

主成分分析(PCA)是一种经典的降维技术。它通过线性变换将原始数据映射到一组新的正交特征上,这些特征被称为主成分。PCA的目标是找到能够最大化数据方差的投影方向,从而保留尽可能多的数据信息。通过PCA,可以对数据进行降维,将其表示为较少数量的主成分,其中每个主成分都是原始特征的线性组合。

非线性PCA使用核函数(Kernels)扩展了传统的PCA方法,使其能够处理非线性数据。通过应用核函数,可以将原始数据映射到高维特征空间,然后在该空间中进行线性PCA。这样可以处理非线性关系,发现更复杂的数据结构和模式。

主成分的几何图像

在主成分分析中,主成分可以通过几何图像来理解。对于在 d d d 维空间中的 n n n 个数据点,主成分分析可以将数据投影到一维空间中。

具体地,可以选择一条直线,使得数据点在该直线上分布得很好。这条直线被称为主成分。主成分是在保留数据大部分信息的前提 下,将数据投影到一维空间中的最佳方式。

在这里插入图片描述

主成分的选择可以通过计算数据的协方差矩阵和对该矩阵进行特征值分解来实现。每个特征向量都代表了在数据中的一个主要方向,并且与该方向上的方差成比例。因此,可以选择特征值最大的几个特征向量来作为主成分,并将数据投影到这些方向上。

最小化到直线距离的平方和

在主成分分析中,为了找到最佳的主成分,需要最小化数据点到该主成分投影的距离的平方和。这是因为,最小化这个距离的平方和可以最大化数据点在主成分上的投影的平方和。

具体地,可以将每个数据点表示为向量 x \mathbf{x} x,然后将其投影到主成分上得到向量 p \mathbf{p} p。这个投影可以通过将向量 x \mathbf{x} x 投影到主成分的单位向量 u \mathbf{u} u 上来实现,即 p = x ⋅ u u \mathbf{p} = \mathbf{x} \cdot \mathbf{u} \mathbf{u} p=xuu

然后,最小化每个数据点到主成分的距离的平方和,可以表示为以下式子:

∑ i = 1 n ∥ x i − p i ∥ 2 \sum_{i=1}^n \|\mathbf{x}_i - \mathbf{p}_i\|^2 i=1nxipi2

其中, ∥ ⋅ ∥ \|\cdot\| 表示向量的范数。将向量 p i \mathbf{p}_i pi 替换为 x i ⋅ u u \mathbf{x}_i \cdot \mathbf{u} \mathbf{u} xiuu,可以得到以下式子:

∑ i = 1 n ∥ x i − ( x i ⋅ u ) u ∥ 2 \sum_{i=1}^n \|\mathbf{x}_i - (\mathbf{x}_i \cdot \mathbf{u}) \mathbf{u}\|^2 i=1nxi(xiu)u2

为了最小化这个式子,需要最大化每个数据点在主成分上的投影的平方和。这是由于,根据勾股定理,数据点到主成分的距离的平方和等于每个数据点在主成分上的投影与该数据点之间的距离的平方和。因此,最小化数据点到主成分的距离的平方和等价于最大化每个数据点在主成分上的投影的平方和。
在这里插入图片描述

综上所述,为了找到最佳的主成分,需要最大化每个数据点在主成分上的投影的平方和,即最小化数据点到主成分的距离的平方和。

举例

在这里插入图片描述

具体来说,第一个主成分是对原始数据的最小距离拟合,以得到一条直线,使得数据点在该直线上分布得很好。该直线是在保留了数据大部分信息的情况下,将数据投影到一维空间中的最佳方式。

第二个主成分是在与第一个主成分正交的平面上进行的最小距离拟合。该平面是由第一个主成分所定义的直线所张成的平面的垂直平面。通过这个过程,可以找到另一条直线,使得数据点在该直线上分布得很好,并且与第一个主成分正交。

主成分的代数推导

在主成分分析中,主成分可以通过代数推导来获得。设有一个 d d d 维的数据集,其中包含 n n n 个数据点,可以将其表示为一个 d × n d \times n d×n 的矩阵 X X X。我们的目标是找到一个 d d d 维的向量 u \mathbf{u} u,使得将数据投影到该向量上时,投影数据的方差最大。在这里插入图片描述

具体来说,我们首先将数据投影到一个 d d d 维的向量 u \mathbf{u} u 上,得到一个一维的数据集 Y = u ⊤ X Y=\mathbf{u}^\top X Y=uX
在这里插入图片描述

然后,我们要找到一个 u 1 u_1 u1最大化这个数据集的方差,即:

在这里插入图片描述 在这里插入图片描述

优化问题

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

我们可以使用拉格朗日乘数法来求解主成分。具体来说,我们要求解以下问题:

max ⁡ u u ⊤ S u  subject to u ⊤ u = 1 \max_{\mathbf{u}} \mathbf{u}^\top S \mathbf{u } \text{ subject to} \quad \mathbf{u}^\top \mathbf{u} = 1 umaxuSu subject touu=1

其中, S S S 是数据的协方差矩阵。我们可以使用拉格朗日乘数法将约束条件加入目标函数中,得到:

L ( u , λ ) = u ⊤ S u − λ ( u ⊤ u − 1 ) L(\mathbf{u}, \lambda) = \mathbf{u}^\top S \mathbf{u} - \lambda(\mathbf{u}^\top \mathbf{u} - 1) L(u,λ)=uSuλ(uu1)

其中, λ \lambda λ 是拉格朗日乘数。对 u \mathbf{u} u λ \lambda λ 分别求导并令其等于零,可以得到:

∂ L ∂ u = 2 S u − 2 λ u = 0 ∂ L ∂ λ = u ⊤ u − 1 = 0 \begin{aligned} \frac{\partial L}{\partial \mathbf{u}} &= 2S\mathbf{u} - 2\lambda \mathbf{u} = 0 \\ \\ \frac{\partial L}{\partial \lambda} &= \mathbf{u}^\top \mathbf{u} - 1 = 0 \end{aligned} uLλL=2Su2λu=0=uu1=0

将第一个式子中的 u \mathbf{u} u 提出来,可以得到:

S u = λ u S\mathbf{u} = \lambda \mathbf{u} Su=λu

这个式子说明,投影向量 u \mathbf{u} u 是数据集的协方差矩阵 S S S 的特征向量,对应的特征值为 λ \lambda λ。因此,可以通过计算协方差矩阵 S S S 的特征向量和特征值,来确定投影向量 u \mathbf{u} u,以及数据在该投影向量上的投影。通过类似的方式,可以确定更多的主成分。每个主成分都是在前面主成分所定义的子空间上进行的最小距离拟合,并且与前面的主成分正交。

计算主成分(Principal Components, PCs)的主要步骤

计算数据的协方差矩阵 S S S
在这里插入图片描述
如果数据没有被中心化,则需要先将每个变量的均值减去每个观测值:在这里插入图片描述,然后再计算 S S S

在这里插入图片描述

找到前 m m m 个特征向量在这里插入图片描述

通过解特征向量问题得到 S u = λ u S\mathbf{u}=\lambda\mathbf{u} Su=λu 的特征向量 u \mathbf{u} u,并按照对应的特征值 λ \lambda λ 从大到小排序,选取前 m m m 个特征向量。
形成投影矩阵 P P P在这里插入图片描述

将前 m m m 个特征向量按列组成矩阵 P P P,这个矩阵可以将数据投影到前 m m m 个主成分所张成的子空间中。
对一个新的测试点进行投影在这里插入图片描述在这里插入图片描述

获取旧数据的方法?

如果P是一个方阵,我们可以通过下式来恢复x。
在这里插入图片描述

在这种情况下,P并不是满秩的,但我们仍然可以通过在这里插入图片描述来恢复x,并且会丢失一些信息。

  • 目标:损失最少的信息

主成分分析的最优性性质

在这里插入图片描述

主要的理论结果

由协方差矩阵S的前m个特征向量组成的矩阵P解决了以下最小问题:
在这里插入图片描述

其中,P 是由协方差矩阵 S 的前 m 个特征向量组成的矩阵。

PCA投影使大小为m的所有线性投影中的重建误差最小化。

PCA图像压缩

在这里插入图片描述

使用核的非线性主成分分析

根据点积重写PCA

  • 假设数据已经中心化在这里插入图片描述

  • 协方差矩阵S可以写成在这里插入图片描述

  • 如果 u u u是对应于非零特征值的S的特征向量在这里插入图片描述

  • S的特征向量位于由所有数据点跨越的空间中在这里插入图片描述

  • 协方差矩阵可以写成矩阵形式:
    在这里插入图片描述

评价

PCA(主成分分析)的评论:

• PCA是一种线性降维方法。

• PCA可以进行核化处理,从而可以处理非线性问题。

• 许多非线性降维方法(如Isomap、图拉普拉斯特征映射和局部线性嵌入/LLE)可以看作是使用特殊核的核PCA。

• PCA是一个非凸优化问题,但是相对容易求解。

• PCA是一种在统计学和机器学习中广泛应用的方法,它可以用于数据降维、特征提取、数据可视化等领域。PCA能够提取数据中最重要的特征,并将数据投影到低维空间中,以便更好地理解数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/102629.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT插件的优缺点

虽然西弗吉尼亚大学的研究人员看到了最新的官方ChatGPT插件——名为“代码解释器”( Code Interpreter)的教育应用潜力,但他们也发现,对于使用计算方法处理针对癌症和遗传疾病的定向治疗的生物数据的科学家来说,这款插…

Python钢筋混凝土结构计算.pdf-T001-混凝土强度设计值

以下是使用Python求解上述问题的完整代码: # 输入参数 f_ck 35 # 混凝土的特征抗压强度(单位:MPa) f_cd 25 # 混凝土的强度设计值(单位:MPa) # 求解安全系数 gamma_c f_ck / f_cd # …

MySQL分页查询详解:优化大数据集的LIMIT和OFFSET

最近在工作中,我们遇到了一个需求,甲方要求直接从数据库导出一个业务模块中所有使用中的工单信息。为了实现这一目标,我编写了一条SQL查询语句,并请求DBA协助导出数据。尽管工单数量并不多,只有3000多条,但…

[CISCN 2019初赛]Love Math

文章目录 前言考点解题过程 前言 感慨自己实力不够,心浮气躁根本做不来难题。难得这题对我还很有吸引力,也涉及很多知识。只能说我是受益匪浅,总的来说加油吧ctfer。 考点 利用php动态函数的特性利用php中的数学函数实现命令执行利用php7的特…

两个pdf文件合并为一个怎么操作?分享pdf合并操作步骤

不管是初入职场的小白,还是久经职场的高手,都必须深入了解pdf,特别是关于pdf的各种操作,如编辑、合并、压缩等操作,其中合并是这么多操作里面必需懂的技能之一,但是很多人还是不知道两个pdf文件合并为一个怎…

C++------vector【STL】

文章目录 vector的介绍及使用vector的介绍vector的使用 vector的模拟实现 vector的介绍及使用 vector的介绍 1、vector是表示可变大小数组的序列容器。 2、就像数组一样,vector也采用的连续存储空间来存储元素。也就是意味着可以采用下标对vector的元素进行访问和数…

阻塞/非阻塞、同步/异步(网络IO)

1.阻塞/非阻塞、同步/异步(网络IO) 【思考】典型的一次 IO 的两个阶段是什么? 数据就绪 和 数据读写 数据就绪 :根据系统 IO 操作的就绪状态 阻塞 非阻塞 数据读写 :根据应用程序和内核的交互方式 同步 异步 陈硕:在处理 IO …

Docker 常用服务 安装使用 教程

Docker安装常用服务 1、 安装mysql # 1.拉取mysql镜像到本地 docker pull mysql:tag (tag不加默认最新版本) # 2.运行mysql服务 docker run --name mysql -e MYSQL_ROOT_PASSWORDroot -d mysql:tag --没有暴露外部端口外部不能连接 docker run --name mysql -e MYSQL_ROOT_PAS…

RabbitMQ快速上手及讲解

前言:在介绍RabbitMQ之前,我们先来看下面一个场景: 1.1.1.1 异步处理 场景说明: 用户注册后,需要发注册邮件和注册短信,传统的做法有两种 1.串行的方式 (1)串行方式:将注册信息写入数据库后&a…

ChatGPT⼊门到精通(2):ChatGPT 能为我们做什么

⼀、雇佣免费的⼲活⼩弟 有了ChatGPT后,就好⽐你有了好⼏个帮你免费打⼯的「⼩弟」,他们可以帮你做很多 ⼯作。我简单总结⼀些我⽬前使⽤过的⽐较好的基于ChatGPT的服务和应⽤。 1、总结、分析 当我们在阅读⼀些⽂章和新闻的时候,有的⽂章写…

如何在Spring Boot应用中使用Nacos实现动态更新数据源

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

(第六天)初识Spring框架-SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录

SSM框架的学习与应用(Spring Spring MVC MyBatis)-Java EE企业级应用开发学习记录(第六天)初识Spring框架 ​ 昨天我们已经把Mybatis框架的基本知识全部学完,内容有Mybatis是一个半自动化的持久层ORM框架,深入学习编写动态SQL&a…

漏洞修复:在应用程序中发现不必要的 Http 响应头

描述 blablabla描述,一般是在返回的响应表头中出现了Server键值对,那我们要做的就是移除它,解决方案中提供了nginx的解决方案 解决方案 第一种解决方案 当前解决方案会隐藏nginx的版本号,但还是会返回nginx字样,如…

重要变更 | Hugging Face Hub 的 Git 操作不再支持使用密码验证

在 Hugging Face,我们一直致力于提升服务安全性,因此,我们将修改 Hugging Face Hub 的 Git 交互认证方式。 从 2023 年 10 月 1 日 开始,我们将不再接受密码作为命令行 Git 操作的认证方式。我们推荐使用更安全的认证方法&#xf…

仿京东 项目笔记2(注册登录)

这里写目录标题 1. 注册页面1.1 注册/登录页面——接口请求1.2 Vue开发中Element UI的样式穿透1.2.1 ::v-deep的使用1.2.2 elementUI Dialog内容区域显示滚动条 1.3 注册页面——步骤条和表单联动 stepsform1.4 注册页面——滑动拼图验证1.5 注册页面——element-ui组件Popover…

【数据库】通过实例讲清楚,Mongodb的增删查改,分组查询,聚合查询aggregate

目录 一.基础概念 二.数据库的管理 1.创建数据库 2.删除数据库 二.集合的管理 1.显示所有集合 2.创建集合 3.删除当前集合 4.向集合中插入元素 三.文档的管理 1.文档插入 2.文档的更新 3.文档的删除 4.文档查询 (1)查询基本语法&#xff1…

多机单目标跟踪Cross-Drone Transformer Network for Robust Single Object Tracking

1. 摘要 无人机已被广泛用于各种应用,如空中摄影和军事安全,因为与固定摄像机相比,无人机具有高机动性和广阔的视野。多架无人机跟踪系统可以通过收集不同视角的互补视频片段来提供丰富的目标信息,特别是当目标在某些视角下被遮挡…

SPSS统计作图教程:百分条图堆积条图

1、问题与数据 某研究者想看不同年龄分组人群(Age_cat)中不同程度的维生素D缺乏(VD)的百分构成比,部分数据如图1。研究者想以条图形式来展现,该如何操作呢? 图1 部分数据 2. 具体操作&#xf…

【小沐学Python】UML类图的箭头连线关系总结(python+graphviz)

文章目录 1、简介1.1 类图1.2 Graphviz 2、Graphviz2.1 安装2.2 命令行测试2.3 python测试 3、关系3.1 实现3.2 泛化3.3 关联3.4 依赖3.5 聚合3.6 组合 结语 1、简介 UML(unified modeling language,统一建模语言)是一种常用的面向对象设计的…

逻辑回归Logistic

回归 概念 假设现在有一些数据点,我们用一条直线对这些点进行拟合(这条直线称为最佳拟合直线),这个拟合的过程就叫做回归。进而可以得到对这些点的拟合直线方程。 最后结果用sigmoid函数输出 因此,为了实现 Logisti…