白话机器3:PCA与SVM详细数学原理

一、PCA数学原理

1.数据标准化

        首先,需要对原始数据进行标准化处理,使得每个特征的均值为0,方差为1。假设有一个的数据矩阵X,其中每一列是一个样本,每一行是一个特征。

标准化公式如下:

x_{ij}^{'} = \frac{x_{ij} - \mu_j}{\sigma_j}

其中,x_{ij}是原始数据矩阵X中的元素,\mu_j是第j个特征的均值,\sigma_j 是第j个特征的标准差,x_{ij}^{'}是标准化后的数据。

2.计算协方差矩阵

        接下来,我们需要计算标准化后数据矩阵的协方差矩阵。协方差矩阵是一个对称矩阵,它描述了数据中不同特征之间的线性关系。

协方差矩阵的计算公式如下:

复制

C = \frac{1}{n-1} X^{'} X^{'T}

        其中,n 是样本数量,X^{'} 是标准化后的数据矩阵,X^{'T}X^{'}的转置。

3.计算特征值和特征向量

        协方差矩阵的特征值和特征向量可以通过求解特征方程得到:

|C - \lambda I| = 0

其中,\lambda 是特征值,I是单位矩阵。

对于每个特征值\lambda_i,我们可以找到对应的特征向量v_i,满足:

(C - \lambda_i I) v_i = 0

4.选择主成分

特征值的大小代表了对应特征向量方向上的方差大小。我们通常选择最大的几个特征值对应的特征向量作为主成分,因为它们包含了数据中的大部分信息。

在这个例子中,我们想要将数据降维到3x1,所以我们只需要选择一个主成分,即选择最大的特征值对应的特征向量。

5.数据投影

最后,我们将原始数据矩阵X投影到选定的主成分上,得到降维后的数据矩阵。

投影公式如下:

Y = X^{'} v_1

其中,Y 是降维后的数据矩阵,v_1 是最大的特征值对应的特征向量。

二、SVM数学原理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/603487.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Observability:监控与可观察性不同的 3 个原因

作者:来自 Elastic Elastic Observability Team 监控和可观察性通常可以互换使用,但它们并不完全相同。 监控是可观察性的重要组成部分,但可观察性远远超出了传统监控实践的范围。 主要区别:监控从各个组件收集数据 —— 时间和内…

【北京迅为】《iTOP-3588开发板快速烧写手册》-第8章 TF启动

RK3588是一款低功耗、高性能的处理器,适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用,RK3588支持8K视频编解码,内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

PyQt:进度条实现(下载、复制)实时进度显示

一、实现思路 源文件:①被复制的文件(一般在客户端自身PC上);②被下载的文件;(一般在服务器上)。 缓存文件:正在粘贴/下载获取中的文件,粘贴/下载完成前,一般是不完整的…

什么是CE认证?

目录 一、什么是CE认证? 二、CE认证对于企业来说有什么重要性? 三、企业在申请CE认证时,需要满足哪些条件和要求? 一、什么是CE认证? CE认证,即只限于产品不危及人类、动物和货品的安全方面的基本安全要…

鸿蒙内核源码分析(信号消费篇) | 谁让CPU连续四次换栈运行

本篇有相当的难度,涉及用户栈和内核栈的两轮切换,CPU四次换栈,寄存器改值,将围绕下图来说明. 解读 为本篇理解方便,把图做简化标签说明: user:用户空间kernel:内核空间source(…):源函数sighandle(…):信号处理函数&a…

炫酷Chrome:插件大礼包

Chrome浏览器以其强大的功能和丰富的扩展插件库而闻名。 其中,有些插件专为提升用户的浏览体验而设计,例如更换Chrome网页背景图、自定义鼠标点击样式,以及提供便捷的页面跳转工具等。 最近,有一款被称为“宝藏插件包”的工具引…

【软考】模拟考卷错题本2024-05-07

1 项目路径 这里的图没有加载出来,没u哦i关系了。其实主要是的算出最长的路径中包含那些元素即可。这里是蒙圈了,没有考虑到还有更长的。要顾头也顾尾。 2 算法分析-贪心 该问题主要考核的是算法设计策略来达到目标的方式。主要的设计策略有:…

文件加密软件排行榜前四名|好用的四款文件加密软件分享

在数据泄露事件频发的今天,文件加密软件成为了保护个人隐私与企业信息安全的必备工具。 选择一款高效、可靠且易用的加密软件至关重要。 本文精选了当前市场上备受好评的十款文件加密软件,旨在为您在数据保护之旅中提供方向。 1.域智盾 域智盾软件是一…

智慧养老解决方案

PART 1 行业背景及发展趋势 数字看中国人口老龄化 第七次全国人口普查数据显示,我国老年人口总量高达2.64亿人,其中60岁以上人群占比提高至18.7%,65岁以上人群占比提高至13.5%。 据统计,到2050年&#…

为 Flutter 应用设置主题:ThemeData 和 ColorScheme 指南

在媒体和其他来源中有许多关于这个主题的文章,那么这篇文章的必要性是什么? 在本文中,我计划仅关注 ThemeData 小部件的关键点以及我的开发经验中最常用的参数,并且您将获得有关每个参数如何对您的应用程序执行操作的简要说明。 …

2023年谷歌拒了228万应用,禁了33.3万账号,开发者们应如何应对2024的挑战?

谷歌在上周一公布了去年如何应对恶意应用和恶意行为。 报告指出,去年谷歌在Google Play平台上,通过不断升级安全系统、更新政策规定、运用先进的机器学习技术,以及严格把关应用审核流程,成功阻止了高达228万个不合规的应用程序上架…

人工智能|推荐系统——工业界的推荐系统之重排

一、相似性的度量 基于物品属性标签 基于物品向量表征 ⽤召回的双塔模型学到的物品向量(不好) 基于内容的向量表征(好) 二、Maximal Marginal Relevance (MMR) 三、重排的规则 最多连续出现𝑘 篇某种笔记 每&#x…

js如何控制一次只加载一张图片,加载完成后再加载下一张

公众号:程序员白特,欢迎一起交流学习~ 原文:https://juejin.cn/post/7340167256267391012 今天看到一个面试题,是关于img图片加载方面的,有必要记录一下。其实关于这个问题,只要知道图片什么时候加载完成就…

(自适应手机端)物流运输快递仓储网站模板 - 带三级栏目

(自适应手机端)物流运输快递仓储网站模板 - 带三级栏目PbootCMS内核开发的网站模板,该模板适用于物流运输网站、仓储货运网站等企业,当然其他行业也可以做,只需要把文字图片换成其他行业的即可;自适应手机端,同一个后台…

3D模型实时变形算法

最近,在尝试渲染一些奇怪的形状后,我陷入了计算机图形学的困境。事实证明,对于我试图解决的具体问题,没有现有的选项完全适合我想要做的事情。几周后,我终于带着一些答案再次浮出水面,写了很多行代码&#…

3.yolov5训练前的图片处理详解(python)

其实,yolov5模型可以分为深度网络、数据处理(图片处理)、损失函数、优化器选择、训练和预测及部分构成,相信大家对训练和预测的代码比较熟悉。前面两章我们根据代码和结构图了解了yolov5的深度网络,接下来看数据处理的…

Spring中FactoryBean的作用和实现原理

Spring中FactoryBean的作用和实现原理 BeanFactory与FactoryBean,相信很多刚翻看Spring源码的同学跟我一样很好奇这俩货怎么长得这么像,分别都是干啥用的。 BeanFactory是Spring中Bean工厂的顶层接口,也是我们常说的SpringIOC容器&#xff…

Android广播机制简介

文章目录 Android广播机制简介广播的基本概念广播的类型广播的使用场景Android广播的优缺点优点缺点 使用Android广播的一些最佳实践: Android广播机制简介 Android广播是一种轻量级的消息传递机制,用于应用程序之间或系统与应用程序之间进行通信。它类似于订阅-发…

ENG-2 AM,129423-53-6主要用于检测生物体系中的Na+浓度

引言:在化学研究的海洋中,优质的化学试剂是实验成功的关键。今天,我要为大家分享一款备受好评的化学试剂——ENG-2。这款试剂以其独特的性能和广泛的应用领域,赢得了众多科研人员的青睐。 中文名称:钠离子荧光探针ENG-…

[leetcode] 68. 文本左右对齐

文章目录 题目描述解题方法贪心java代码复杂度分析 题目描述 给定一个单词数组 words 和一个长度 maxWidth ,重新排版单词,使其成为每行恰好有 maxWidth 个字符,且左右两端对齐的文本。 你应该使用 “贪心算法” 来放置给定的单词&#xff…