【深度学习:t-SNE 】T 分布随机邻域嵌入

【深度学习:t-SNE 】T 分布随机邻域嵌入

    • 降低数据维度的目标
    • 什么是PCA和t-SNE,两者有什么区别或相似之处?
      • 主成分分析(PCA)
      • t-分布式随机邻域嵌入(t-SNE)
    • 在 MNIST 数据集上实现 PCA 和 t-SNE
    • 结论

了解 t-SNE 的基本原理、与 PCA 的区别以及如何在 MNIST 数据集上应用 t-SNE

在本文中,您将了解到

  • t-SNE 与 PCA(主成分分析)的区别
  • 简单易懂地解释 t-SNE 的工作原理
  • 了解 t-SNE 可用的不同参数
  • 在 MNIST 上应用 t-SNE 和 PCA

在这里插入图片描述
如果数据集中有数百个特征或数据点,而您想在二维或三维空间中表示它们,该怎么办?

在保留数据集中最多信息的同时降低数据集维度的两种常用技术是

  • 主成分分析(PCA)
  • 分布式随机邻域嵌入(t-SNE)

降低数据维度的目标

  • 在低维表示中尽可能多地保留高维数据中存在的数据的重要结构或信息。
  • 在较低维度上提高数据的可解释性
  • 最大限度地减少由于降维而导致的数据信息丢失

什么是PCA和t-SNE,两者有什么区别或相似之处?

PCA 和 t-SNE 都是无监督降维技术。这两种技术都用于将高维数据可视化到低维空间。

主成分分析(PCA)

  • 一种用于特征提取和可视化的无监督确定性算法
  • 应用线性降维技术,其重点是在低维空间中保持不同点之间的距离。
  • 通过使用特征值保留数据中的方差,将原始数据转换为新数据。
  • PCA 影响异常值。

t-分布式随机邻域嵌入(t-SNE)

  • 一种无监督的随机算法,仅用于可视化
  • 应用非线性降维技术,其重点是在低维空间中保持非常相似的数据点靠近。
  • 使用学生 t 分布来计算低维空间中两点之间的相似度,从而保留数据的局部结构。t-SNE 使用重尾 Student-t 分布而不是高斯分布来计算低维空间中两点之间的相似度,这有助于解决拥挤和优化问题。
  • 异常值不会影响 t-SNE

T 分布式随机邻域嵌入 (t-SNE) 是一种用于可视化的无监督机器学习算法,由 Laurens van der Maaten 和 Geoffrey Hinton 开发。

t-SNE 如何运作?

步骤 1:查找高维空间中邻近点之间的成对相似度。

t-SNE 将数据点 xᵢ 和 xⱼ 之间的高维欧氏距离转换为条件概率 P(j|i)。

在这里插入图片描述

高维空间中的数据(作者提供的图片)

xᵢ 会根据以点 xᵢ 为中心的高斯分布下的概率密度比例选择 xⱼ 作为其邻居。

σi 是以数据点习为中心的高斯方差

一对点的概率密度与其相似度成正比。对于附近的数据点,p(j|i) 将相对较高,而对于相距较远的点,p(j|i) 将很小。

对高维空间中的条件概率进行对称化,得到高维空间中最终的相似度。

条件概率通过对两个概率求平均值来实现对称,如下所示。

在这里插入图片描述

对称条件概率

步骤2:根据高维空间中点的成对相似度,将高维空间中的每个点映射到低维映射。

低维地图将是 2 维或 3 维地图

在这里插入图片描述
yᵢ 和 yⱼ 是高维数据点 xᵢ 和 xⱼ 的低维对应项。

我们计算类似于以点 yᵢ 为中心的高斯分布下的 P(j]i) 的条件概率 q(j|i),然后对概率进行对称化。

步骤 3:使用基于 Kullback-Leibler 散度(KL 散度)的梯度下降找到一个低维数据表示,以最小化 Pᵢⱼ 和 qᵢⱼ 之间的不匹配

在这里插入图片描述

Pᵢ 表示点 xᵢ 在所有其他数据点上的条件概率分布。 Qᵢ 表示给定地图点 yᵢ 的所有其他地图点的条件概率分布

t-SNE 使用梯度下降优化低维空间中的点。

为什么使用 KL 散度?

当我们最小化 KL 散度时,它使得 qᵢⱼ 在物理上与 Pᵢⱼ 相同,因此高维空间中的数据结构将与低维空间中的数据结构相似。

基于KL散度方程,

  • 如果 Pᵢⱼ 很大,那么我们需要很大的 qᵢⱼ 值来表示具有更高相似度的局部点。
  • 如果 Pᵢⱼ 很小,那么我们需要较小的 qᵢⱼ 值来表示相距较远的局部点。

步骤 4:使用 Student-t 分布计算低维空间中两点之间的相似度。

t-SNE 使用具有一个自由度的重尾 Student-t 分布来计算低维空间中两点之间的相似度,而不是高斯分布。

T-分布创建了低维空间中点的概率分布,这有助于减少拥挤问题。

如何在数据集上应用 t-SNE?

在用 python 编写代码之前,我们先了解一下可以使用的 TSNE 的一些关键参数

n_components:嵌入空间的维度,这是我们希望将高维数据转换为的较低维度。对于二维空间,默认值为 2。

Perplexity:困惑度与 t-SNE 算法中使用的最近邻居的数量有关。更大的数据集通常需要更大的困惑度。困惑度的值可以在 5 到 50 之间。默认值为 30。

n_iter:优化的最大迭代次数。应至少为 250,默认值为 1000

Learning_rate:t-SNE 的学习率通常在 [10.0, 1000.0] 范围内,默认值为 200.0。

在 MNIST 数据集上实现 PCA 和 t-SNE

我们将使用 sklearn.decomposition.PCA 应用 PCA,并在 MNIST 数据集上使用 sklearn.manifold.TSNE 实现 t-SNE。

加载 MNIST 数据

导入所需的库

import time
import numpy as np
import pandas as pd

获取 MNIST 训练和测试数据并检查训练数据的形状

(X_train, y_train) , (X_test, y_test) = mnist.load_data()
X_train.shape

在这里插入图片描述

创建一个包含多个图像和图像中的像素数的数组,并将 X_train 数据复制到 X

X = np.zeros((X_train.shape[0], 784))
for i in range(X_train.shape[0]):
    X[i] = X_train[i].flatten()

打乱数据集,取出 10% 的 MNIST 训练数据并将其存储在数据框中。

X = pd.DataFrame(X)
Y = pd.DataFrame(y_train)
X = X.sample(frac=0.1, random_state=10).reset_index(drop=True)
Y = Y.sample(frac=0.1, random_state=10).reset_index(drop=True)
df = X

数据准备好后,我们可以应用PCA和t-SNE。

在 MNIST 数据集上应用 PCA

使用 sklearn.decomposition 中的 PCA 库应用 PCA。

from sklearn.decomposition import PCA
time_start = time.time()
pca = PCA(n_components=2)
pca_results = pca.fit_transform(df.values)
print ('PCA done! Time elapsed: {} seconds'.format(time.time()-time_start))

在这里插入图片描述
PCA 生成两个维度,主成分 1 和主成分 2。将两个 PCA 成分与标签一起添加到数据框中。

pca_df = pd.DataFrame(data = pca_results
             , columns = ['pca_1', 'pca_2'])
pca_df['label'] = Y

仅在可视化时才需要该标签。

绘制 PCA 结果

fig = plt.figure(figsize = (8,8))
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = [0,1,2,3,4,5,6,7,8,9]
colors=['yellow', 'black', 'cyan', 'green', 'blue', 'red', 'brown','crimson', 'gold', 'indigo']
for target, color in zip(targets,colors):
    indicesToKeep = pca_df['label'] == target
    ax.scatter(pca_df.loc[indicesToKeep, 'pca_1']
               , pca_df.loc[indicesToKeep, 'pca_2']
               , c = color
               , s = 50)
ax.legend(targets)
ax.grid()

在这里插入图片描述

在 MNIST 数据集上应用 t-SNE

导入 t-SNE 和可视化所需的库

import time
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns
import matplotlib.patheffects as PathEffects
%matplotlib inline

首先使用默认参数创建 TSNE 实例,然后将高维图像输入数据拟合到嵌入空间中,并使用 fit_transform 返回转换后的输出。

图像数据的维度应为 (n_samples, n_features) 形状

time_start = time.time()
tsne = TSNE(random=0)
tsne_results = tsne.fit_transform(df.values)
print ('t-SNE done! Time elapsed: {} seconds'.format(time.time()-time_start))

将标签添加到数据框中,并且仅在绘图期间使用它来标记集群以进行可视化。

df['label'] = Y

数据可视化功能

def plot_scatter(x, colors):
    # choose a color palette with seaborn.
    num_classes = len(np.unique(colors))
    palette = np.array(sns.color_palette("hls", num_classes))
    print(palette)
    
    # create a scatter plot.
    f = plt.figure(figsize=(8, 8))
    ax = plt.subplot(aspect='equal')
    sc = ax.scatter(x[:,0], x[:,1],  c=palette[colors.astype(np.int)], cmap=plt.cm.get_cmap('Paired'))
    plt.xlim(-25, 25)
    plt.ylim(-25, 25)
    ax.axis('off')
    ax.axis('tight')
# add the labels for each digit corresponding to the label
    txts = []
for i in range(num_classes):
# Position of each label at median of data points.
xtext, ytext = np.median(x[colors == i, :], axis=0)
        txt = ax.text(xtext, ytext, str(i), fontsize=24)
        txt.set_path_effects([
            PathEffects.Stroke(linewidth=5, foreground="w"),
            PathEffects.Normal()])
        txts.append(txt)
return f, ax, sc, txts

可视化 MNIST 数据集的 -SNE 结果

plot_scatter( tsne_results, df['label'])

在这里插入图片描述

尝试使用不同的参数值并观察不同的绘图

不同困惑值的可视化

在这里插入图片描述
n_iter 不同值的可视化

在这里插入图片描述
我们可以看到,从 t-SNE 图生成的聚类比使用 PCA 生成的聚类更加明确。

  • PCA 是确定性的,而 t-SNE 不是确定性的并且是随机的。
  • t-SNE 尝试仅映射局部邻居,而 PCA 只是我们初始协方差矩阵的对角旋转,特征向量表示并保留全局属性

结论

PCA和t-SNE是两种常见的降维方法,它们使用不同的技术将高维数据降维为可以可视化的低维数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/353038.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Sentinel:微服务守护神的崛起

欢迎来到我的博客,代码的世界里,每一行都是一个故事 Sentinel:微服务守护神的崛起 前言Sentinel简介:微服务流控的新宠Sentinel工作原理 前言 想象一下你正在主持一场盛大的马拉松比赛,参赛者如潮水般汇聚&#xff0c…

换个思维方式快速上手UML和 plantUML——类图

和大多数朋友一样,Jeffrey 在一开始的时候也十分的厌烦软件工程的一系列东西,对工程化工具十分厌恶,觉得它繁琐,需要记忆很多没有意思的东西。 但是之所以,肯定有是因为。对工程化工具的不理解和不认可主要是基于两个逻…

JVM篇----第九篇

系列文章目录 文章目录 系列文章目录前言一、分代收集算法二、新生代与复制算法三、老年代与标记复制算法前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 一、分代…

数据结构(1)--> 顺序表

定义: 顺序表存储定义: 把逻辑上相邻的数据元素存储在物理上相邻的存储单元中的存储结构,顺序表功能的实现借助于数组,通过对数组进行封装,从而实现增删查改的功能,严格意义上来说(数组无法实现…

centos8源码安装python

前置条件,删除原来系统自带的python,如果系统自带的版本符合你的预期,就不用重新安装了。 yum remove python yum autoremove一、下载python 官网下载 这里是3.12.1版本 我的网盘下载 提取码:d8g1 文件名为Python-3.12.1.tgz 二…

Nginx进阶篇【五】

Nginx进阶篇【五】 八、Nginx实现服务器端集群搭建8.1.Nginx与Tomcat部署8.1.1.环境准备(Tomcat)8.1.1.1.浏览器访问:8.1.1.2.获取动态资源的链接地址:8.1.1.3.在Centos上准备一个Tomcat作为后台web服务器8.1.1.4.准备一个web项目,将其打包为war8.1.1.5.启动tomcat进…

MySQL:数据库索引详解

1、什么是索引: 索引是一种用于快速查询和检索数据的数据结构。常见的索引结构有: B 树, B树和 Hash。 索引的作用就相当于目录的作用。打个比方: 我们在查字典的时候,如果没有目录,那我们就只能一页一页的去找我们需要查的那个字…

深入理解TCP网络协议,三次握手

目录 1.TCP协议的段格式 2.TCP原理 2.1确认应答 2.2超时重传 3.三次握手(重点) 1.TCP协议的段格式 我们先来观察一下TCP协议的段格式图解: 源/目的端口号:标识数据从哪个进程来,到哪个进程去 32位序号/32位确认号:TCP会话的每一端都包含一个32位(bit&#xf…

【论文笔记】GPT,GPT-2,GPT-3

参考:GPT,GPT-2,GPT-3【论文精读】 GPT Transformer的解码器,仅已知"过去",推导"未来" 论文地址:Improving Language Understanding by Generative Pre-Training 半监督学习&#xff1…

Go 命令行解析 flag 包之通过子命令实现看 go 命令源码

上篇文章 介绍了 flag 中如何扩展一个新的类型支持。本篇介绍如何使用 flag 实现子命令,总的来说,这篇才是这个系列的核心,前两篇只是铺垫。 前两篇文章链接如下: Go 命令行解析 flag 包之快速上手 Go 命令行解析 flag 包之扩展…

网络原理——传输层1

1. 端口号 端口号标识了一个主机上运行的不同程序。在TCP/IP协议中,使用"源IP地址"、"源端口号"、"目的IP地址"、"目的端口号"和"协议号"这样一个五元组来标识一个通信。 端口号划分: 0 - 1023&am…

pytest教程-7-用例前后置方法

上一小节,我们学习了pytest跳过测试用例的方法,本小节我们讲解一下pytest用例的前后置方法。 在unittest中就有前置setup和后置teardown来处理测试用例执行前的准备工作(浏览器驱动实例化,数据库连接等)以及执行后的处…

常见の算法5

位图 一个int类型32字节,可以表示0-31这32个数出没出现过,出现过1没出现0,再扩大一点搞个数组,就可以表示0-1023出没出现过,一个long类型可储存64位 如何把10位组成的数,第四位由1改成零 package class05…

mcu短时间内发生多次中断,如何解决中断丢失问题?

问题 嵌入式开发中,如果中断A的处理函数执行时间长,某段时间内,快速来了2个中断A(例如:外部管脚输入信号变化),则会导致第2个中断丢失。 我有几个疑问: 1.目前市面上的芯片,是否支持缓存中断标志…

【docker】linux系统docker的安装及使用

一、docker应用的安装 1.1 安装方式 Docker的自动化安装,即使用提供的一键安装的脚本,进行安装。 官方的一键安装方式:curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun 国内 daocloud一键安装命令:curl -s…

JavaWeb:商品管理系统(Vue版)

文章目录 1、功能介绍2、技术栈3、环境准备3.1、数据库准备3.2、在新建web项目中导入依赖3.3、编写Mybatis文件3.4、编写pojo类3.5、编写Mybatis工具类3.6、导入前端素材(element-ui & vue.js & axios.js)3.7、前端页面 4、功能实现4.1、查询所有…

机器学习---无偏估计

1. 如何理解无偏估计 无偏估计:就是我认为所有样本出现的概率⼀样。 假如有N种样本我们认为所有样本出现概率都是 1/N。然后根据这个来计算数学期望。此时的数学期望就是我们平常讲 的平均值。数学期望本质就 是平均值。 2. 无偏估计为何叫做“无偏”&#xff1…

Deeplearning

Numpy Deep Learning Basic 神经网络: #mermaid-svg-2N27H7C0XPrmd8HP {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-2N27H7C0XPrmd8HP .error-icon{fill:#552222;}#mermaid-svg-2N27H7C0XPrmd8HP .…

GPIO的8种工作模式

一、8种工作模式 二、IO端口的基本结构 下面是一张F1的IO的结构图。 圆圈 2是芯片内部的上下拉电阻, 输入数据寄存器简称IDR ,cpu读IDR就可以知道外面的是高电平还是低电平,单片机IO口输出的高低电平主要依靠P-MOS和N-MOS,输出数据…

CHS_01.2.3.1+同步与互斥的基本概念

CHS_01.2.3.1同步与互斥的基本概念 知识总览什么是进程同步什么是进程互斥知识回顾 在这个小节中 我们会介绍进程同步和进程互斥相关的概念 知识总览 我们会结合一些具体的例子 让大家能够更形象的理解这两个概念 首先来看一下什么是进程同步 其实在聊进程同步之前 咱们已经接…