超越数据的确定性:通过概率主成分分析拥抱不确定性

原文地址:beyond-determinism-in-data-embracing-uncertainty-with-probabilistic-principal-component-analysis

2024 年 4 月 24 日

主成分分析法(Principal Component Analysis,PCA)是一种统计方法,它可以通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这组变量称为主成分。主成分分析的目标是在数据中找到方差最大的方向,并将这些方向作为新的坐标轴,以最大的保留数据的方差信息。具体来说,PCA通过以下步骤实现:
1. 数据标准化:为了消除不同变量间的量纲影响,首先需要对数据进行标准化处理。
2. 计算协方差矩阵:协方差矩阵描述了数据中各变量间的相关性。
3. 计算特征值和特征向量:通过对协方差矩阵进行特征分解,找到其特征值和对应的特征向量。
4. 选择主成分:根据特征值的大小,选择最大的几个特征值对应的特征向量作为主成分。
5. 形成新的数据集:将原始数据投影到选取的主成分上,形成新的数据集。
主成分分析法在数据降维、信号处理、图像处理等领域有广泛的应用。通过PCA,可以去除数据中的噪声和冗余信息,简化数据的复杂性,同时尽可能保留原始数据的信息量。

介绍

在现代工业数据驱动的环境中,在承认固有数据不确定性的同时有效降低维度的能力可能会产生重大影响。这就是概率主成分分析 (PPCA) 作为强大的统计工具的闪光点,它通过结合概率框架来增强传统主成分分析 (PCA) 的功能。

1

背景

概率主成分分析(PPCA)是一种统计技术,它扩展了经典的主成分分析(PCA)方法。PCA 试图找到一组能解释数据中最大方差的正交方向(主成分),而 PPCA 则整合了一个概率框架,允许对观测数据和相关不确定性进行建模。

PPCA 将数据 X 建模为由低维潜在变量 Z 加上一些噪声生成。数据生成过程可描述为

xi=Wzi+μ+ϵ

这里,ϵW 是载荷或权重矩阵,? 是数据的平均值,zi 是与第 i 个数据点相关的潜变量,ϵ 代表高斯噪声。

PCA 对数据进行确定性分解,而 PPCA 则不同,它为潜变量 Z 和噪声ϵ 建立了一个概率模型。通常,噪声被假定为各向同性的高斯噪声:

ϵ∼N(0,σ2I)

潜变量也假设为高斯分布:

zi∼N(0,I)

W、σ2 和 ?μ 通常通过最大似然法估算。由于期望最大化(EM)算法能有效处理模型的潜在变量结构,因此经常被用于此目的。

与 PCA 相比的优势

  • 不确定性建模: PPCA 可量化数据表示中的不确定性,更清晰地显示主成分的稳健性。
  • 处理缺失数据: PPCA 可以自然地处理数据中的缺失值,这对标准 PCA 来说是一个挑战。
  • 灵活性: 概率框架可以通过各种方式进行扩展,例如为噪声或潜在变量整合不同的分布。

了解 PPCA

PPCA 的核心是通过引入一个用于降维的概率模型来扩展 PCA。这种方法将观察到的数据建模为来自低维度潜空间的数据,再加上一些附加的高斯噪声。它假定每个观测数据点 xi 都是通过线性变换 W 从潜在变量 zi 生成的,并经过平均值 μ 的调整和噪声 ϵ 的扰动。这种噪声被假定为各向同性的高斯噪声,从而使该方法对现实世界中的数据异常具有鲁棒性,而现实世界中的数据异常往往是有噪声和不完整的。

实践中的优势

  1. 处理缺失数据: PPCA 最实用的优势之一是其处理缺失数据的能力。传统的 PCA 只有在面对缺失数据点时才会使用估算法,这可能会带来偏差。相比之下,PPCA 可以使用 EM(期望最大化)算法估计缺失值,作为算法执行的一部分。这一功能在生物信息学和社会科学等领域尤为有用,因为在这些领域中,缺失数据是共享的,如果处理不当,可能会使结果出现偏差。
  2. 量化不确定性: PPCA 可对其提供的数据表示的不确定性进行估计。这对于数据分析师和科学家来说至关重要,因为他们需要了解预测和分析得出的主成分的可靠性。在金融和天气预报等领域,决策在很大程度上取决于对预测的信心,而 PPCA 能提供更细致入微、更有信心意识的见解。
  3. 灵活性和扩展性: PPCA 的概率框架允许各种扩展。例如,它可以根据应用的具体要求进行调整,以纳入不同的噪声分布或对潜变量进行不同的建模。这种灵活性使 PPCA 成为一种通用工具,可适应各种数据集和分析要求。

PPCA 的实际应用

  1. 生物信息学: 在生物信息学中,PPCA 可用于分析遗传数据,因为测量过程会引入噪声,而且数据往往不完整。通过比传统方法更有效地处理不完整数据,PPCA 可帮助识别导致疾病的潜在遗传因素。
  2. 金融: 金融数据分析是 PPCA 极其有用的另一个领域。股票市场数据通常不完整且噪声较大,使用 PPCA 可以更好地分析这些数据,从而找出影响市场走势的潜在因素。这有助于制定更稳健的风险管理和投资策略。
  3. 图像处理: 在图像处理中,特别是在人脸识别和图像压缩等任务中,PPCA 可以更有效地处理不同的光照条件、遮挡和损坏的数据元素。这种适应性提高了图像重建的质量和分析的准确性。

代码

下面,我将提供一个在合成数据集上使用概率主成分分析(PPCA)的完整 Python 代码块。代码将包括数据生成、特征工程、超参数调整、交叉验证、评估指标和结果可视化。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import explained_variance_score
from sklearn.pipeline import Pipeline
# Generating synthetic data
np.random.seed(42)
true_latent_dim = 2
n_samples = 300
noise_level = 0.1
# True latent variables
Z = np.random.normal(size=(n_samples, true_latent_dim))
W = np.random.uniform(low=-2, high=2, size=(true_latent_dim, 10))  # Weight matrix
mu = np.random.uniform(low=-1, high=1, size=10)  # Mean of the data
X = Z.dot(W) + mu + np.random.normal(scale=noise_level, size=(n_samples, 10))
# Feature scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# Splitting the dataset into training and testing sets
X_train, X_test = train_test_split(X_scaled, test_size=0.2, random_state=42)
# PCA Pipeline and hyperparameter tuning
pipeline = Pipeline([
    ('pca', PCA())
])
param_grid = {
    'pca__n_components': range(1, 6)  # Testing different numbers of components
}
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='explained_variance')
grid_search.fit(X_train)
# Best model
best_model = grid_search.best_estimator_
# Prediction and metrics
X_train_pca = best_model.transform(X_train)
X_test_pca = best_model.transform(X_test)
explained_variance = explained_variance_score(X_test, best_model.inverse_transform(X_test_pca))
print(f"Best number of components: {grid_search.best_params_['pca__n_components']}")
print(f"Explained Variance on Test Set: {explained_variance}")
# Plotting the results
plt.figure(figsize=(12, 6))
if X_train_pca.shape[1] > 1:
    plt.subplot(1, 2, 1)
    plt.scatter(X_train_pca[:, 0], X_train_pca[:, 1], c='blue', alpha=0.5, label='Train')
    plt.scatter(X_test_pca[:, 0], X_test_pca[:, 1], c='red', alpha=0.5, label='Test')
    plt.xlabel('Principal Component 1')
    plt.ylabel('Principal Component 2')
else:
    plt.subplot(1, 2, 1)
    plt.scatter(X_train_pca[:, 0], np.zeros_like(X_train_pca[:, 0]), c='blue', alpha=0.5, label='Train')
    plt.scatter(X_test_pca[:, 0], np.zeros_like(X_test_pca[:, 0]), c='red', alpha=0.5, label='Test')
    plt.xlabel('Principal Component 1')
    plt.yticks([])
plt.title('PCA Projection')
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(np.cumsum(best_model.named_steps['pca'].explained_variance_ratio_))
plt.xlabel('Number of Components')
plt.ylabel('Cumulative Explained Variance')
plt.title('Explained Variance Ratio')
plt.tight_layout()
plt.show()

说明

  1. 数据生成: 我们使用真实潜在空间创建合成数据集,并添加高斯噪声。
  2. 特征工程: 对数据集进行标准缩放,对特征进行归一化处理。
  3. 建立模型: 建立 PCA 管道。GridSearchCV 用于根据解释的方差找到主成分的最佳数量。
  4. 交叉验证: 使用 5 倍交叉验证来评估 PCA 模型的性能。
  5. 指标: 使用解释方差得分对模型进行评估,解释方差得分可量化主成分在测试数据中所占的方差比例。
  6. 曲线图:结果包括 PCA 投影的散点图和显示累积解释方差比的折线图,以解释附加成分对解释方差的贡献。

该代码提供了全面的分析,使 PCA 在保留信息的同时降低维度的有效性得到评估和可视化。

2

在 PCA 分析中,确定的最佳分量数为一个,该图是投影到第一个主分量上的数据的可视化图。这表明,PCA 发现单个分量足以捕捉数据中的大部分方差。

3

测试集的解释方差约为 0.549,这意味着测试数据中约 54.9% 的方差可以用这个单一的主成分来解释。这是一个适中的解释方差,意味着虽然主成分捕捉到了一半以上的方差,但数据中仍有很大一部分方差是主成分无法解释的。

Best number of components: 1
Explained Variance on Test Set: 0.5490705019396915

根据具体情况和领域,0.549 的解释方差可能是可以接受的。对于某些应用,捕捉到一半以上的方差可能就足以实现分析目标。而对于其他应用,尤其是信息缺失成本较高的应用,这可能并不令人满意,因此可能需要考虑其他方法或更复杂的模型。

值得注意的是,PCA 是一种线性技术,如果数据具有非线性关系,PCA 可能无法捕捉到所有相关结构。在这种情况下,我们可以探索非线性降维技术,如 t-SNE、UMAP 或自动编码器,可能会捕捉到更多的数据方差。

结论

概率主成分分析是数据分析领域的一大进步,它提供了一种复杂的工具,承认并纳入了真实世界数据固有的不确定性。随着各行各业继续朝着更加以数据为中心的方向发展,概率主成分分析的实际应用可能会不断扩大,为各个领域提供更强大、可靠和细致入微的洞察力。因此,采用概率主成分分析法可以增强数据科学家和分析师的工具包,使各行业能够在深入了解数据的基础上做出更明智的决策。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/589541.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

笔试狂刷--Day9(模拟 + dp + 规律)

大家好,我是LvZi,今天带来笔试狂刷--Day9 一.添加逗号 题目链接:添加逗号 分析: 模拟 代码: import java.util.*;// 注意类名必须为 Main, 不要有任何 package xxx 信息 public class Main {public static void main(String[] args) {Scanner in new Scanner(System.in);i…

Linux工具

本期我们来学习Linux的相关工具,这是我们未来经常使用的一些工具,是必须掌握的技能 目录 Linux 软件包管理器 yum rzsz Linux编辑器-vim使用 三种模式的切换 命令模式命令集 底行模式命令集 vim的配置 解决sudo的白名单问题 Linux编辑器—gcc/…

MacBook Pro 原生安装 Ubuntu 24.04 ARM 版

趁着休假整理家里闲置的设备,看到了一台许久不用的 M2 芯片的 MacBook Pro,想着或许应该把它改造成 ARMv64 的 CI/CD 构建机,于是就有了这篇文章。 本篇文章适用于 M1、M2 全系列的设备,包括:MacBook Air、MacBook Pr…

基于Java的智慧社团综合管理系统的设计与实现(论文+源码)_kaic

摘 要 随着校园文化的不断丰富,大学里各种社团越来越多,社团活动也越来越频繁,社员也越来越多,而且大学生退社、入社比较频繁,社团管理就显得非常繁琐而又复杂,如果采用人工管理,对管理员来说将是一件很头疼的事情。设…

加州大学欧文分校英语中级语法专项课程02:Adjectives and Adjective Clauses 学习笔记

Adjectives and Adjective Clauses course certificate 本文是 https://www.coursera.org/learn/adjective-clauses 这门课的学习笔记。 文章目录 Adjectives and Adjective ClausesWeek 01: Adjectives and Adjective PhrasesLearning Objectives Adjectives Introduction Le…

解码Starknet Verifier:深入逆向工程之旅

1. 引言 Sandstorm为: 能提交独立proof给StarkWare的Ethereum Verifier,的首个开源的STARK prover。 开源代码见: https://github.com/andrewmilson/sandstorm(Rust) L2Beat 提供了以太坊上Starknet的合约架构图&…

单链表经典算法

一,移除链表元素 思路一 遍历数组,如果遇到链表中的元素等于val的节点就执行删除操作 typedef struct ListNode ListNode;struct ListNode* removeElements(struct ListNode* head, int val) {if(headNULL){return NULL;} ListNode*pnewhead(ListNode*)m…

14.集合、常见的数据结构

集合 概念 Java中的集合就是一个容器,用来存放Java对象。 集合在存放对象的时候,不同的容器,存放的方法实现是不一样的, Java中将这些不同实现的容器,往上抽取就形成了Java的集合体系。 Java集合中的根接口&#x…

MVC和DDD的贫血和充血模型对比

文章目录 架构区别MVC三层架构DDD四层架构 贫血模型代码示例 充血模型代码示例 架构区别 MVC三层架构 MVC三层架构是软件工程中的一种设计模式,它将软件系统分为 模型(Model)、视图(View)和控制器(Contro…

前端工程化03-贝壳找房项目案例JavaScript常用的js库

4、项目实战(贝壳找房) 这个项目包含,基本的ajax请求调用,内容的渲染,防抖节流的基本使用,ajax请求工具类的封装 4.1、项目的接口文档 下述接口文档: 简述内容baseURL:http://123.207.32.32…

SQL——高级教程【菜鸟教程】

SQL连接 左连接:SQL LEFT JOIN 关键字 左表相当于主表,不管与右表匹不匹配都会显示所有数据 右表就只会显示和左表匹配的内容。 //例显示:左表的name,有表的总数,时间 SELECT Websites.name, access_log.count, acc…

【机器学习-15】决策树(Decision Tree,DT)算法介绍:原理与案例实现

前言 决策树算法是机器学习领域中的一种重要分类方法,它通过树状结构来进行决策分析。决策树凭借其直观易懂、易于解释的特点,在分类问题中得到了广泛的应用。本文将介绍决策树的基本原理,包括熵和信息熵的相关概念,以及几种经典的…

上位机开发PyQt5(二)【单行输入框、多行输入框、按钮的信号和槽】

目录 一、单行输入框QLineEdit QLineEdit的方法: 二、多行输入框QTextEdit QTextEdit的方法 三、按钮QPushButton 四、按钮的信号与槽 信号与槽简介: 信号和槽绑定: 使用PyQt的槽函数 一、单行输入框QLineEdit QLineEdit控件可以输入…

双向链表专题

文章目录 目录1. 双向链表的结构2. 双向链表的实现3. 顺序表和双向链表的优缺点分析 目录 双向链表的结构双向链表的实现顺序表和双向链表的优缺点分析 1. 双向链表的结构 注意: 这⾥的“带头”跟前面我们说的“头节点”是两个概念,带头链表里的头节点…

Redis 实战1

SDS Redis 只会使用 C 字符串作为字面量, 在大多数情况下, Redis 使用 SDS (Simple Dynamic String,简单动态字符串)作为字符串表示。 比起 C 字符串, SDS 具有以下优点: 常数复杂度获取字符串…

JavaEE >> Spring MVC(2)

接上文 本文介绍如何使用 Spring Boot/MVC 项目将程序执行业务逻辑之后的结果返回给用户,以及一些相关内容进行分析解释。 返回静态页面 要返回一个静态页面,首先需要在 resource 中的 static 目录下面创建一个静态页面,下面将创建一个静态…

[嵌入式系统-53]:嵌入式系统集成开发环境大全 ( IAR Embedded Workbench(通用)、MDK(ARM)比较 )

目录 一、嵌入式系统集成开发环境分类 二、由MCU芯片厂家提供的集成开发工具 三、由嵌入式操作提供的集成开发工具 四、由第三方工具厂家提供的集成开发工具 五、开发工具的整合 5.1 Keil MDK for ARM 5.2 IAR Embedded Workbench(通用)、MDK&…

01.本地工作目录、暂存区、本地仓库三者的工作关系

1.持续集成 1.持续集成CI 让产品可以快速迭代,同时还能保持高质量。 简化工作 2.持续交付 交付 3.持续部署 部署 4.持续集成实现的思路 gitjenkins 5.版本控制系统 1.版本控制系统概述2.Git基本概述3.Git基本命令 2.本地工作目录、暂存区、本地仓库三者的工作关系…

抖音评论区精准获客自动化获客释放双手

挺好用的,评论区自动化快速获客,如果手动点引流涨,那就很耗费时间了,不是吗? 网盘自动获取 链接:https://pan.baidu.com/s/1lpzKPim76qettahxvxtjaQ?pwd0b8x 提取码:0b8x

leetcode84柱状图中最大的矩形

题解&#xff1a; - 力扣&#xff08;LeetCode&#xff09; class Solution {public int largestRectangleArea(int[] heights) {Stack<Integer> stack new Stack<>();int maxArea Integer.MIN_VALUE;for(int i 0;i < heights.length;i){int curHeight hei…