聚类算法的先验基础知识

聚类算法的先验基础知识

  • 1. 瑞利商
  • 2. 谱定理
  • 3. 联合概率
  • 4. 条件概率分布
  • 5. 边缘分布
  • 6. 贝叶斯定理
  • 7. 有向图
  • 8. 拉格朗日乘子定理

下一篇将介绍整理各种聚类算法,包括k-means,GMM(Guassian Mixture Models, 高斯混合),EM(Expectation Maximization,期望最大法),Spectral Clustering(谱聚类),Mean Shift(均值偏移)和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

在介绍这些聚类算法之前,需要熟悉一些基础的数学知识,比如说: SVD(奇异值分解),Rayleigh Quotient(瑞利商),Joint Probability(联合概率),Conditional Probabliity(条件概率分布),Marginalization(边缘分布),Bayes rule(贝叶斯定理),Directed Graphical Model(有向图),Undirected Graphical Model(无向图)和Lagrange multiplier(拉格朗日乘子定理)。

1. 瑞利商

见文章PCA算法中2的瑞利商原理介绍。

2. 谱定理

见文章PCA算法中1的谱定理介绍。

3. 联合概率

  • 分布函数,联合分布函数
    ( X , Y ) (X,Y) (X,Y)是二维随机变量,对于任意实数 x , y x,y x,y,二元函数:
    F ( x , y ) = P ( ( X ≤ x ) ∩ ( Y ≤ y ) ) = P ( X ≤ x , Y ≤ y ) F(x,y) = P((X \le x) \cap (Y \le y) )= P(X \le x,Y \le y) F(x,y)=P((Xx)(Yy))=P(Xx,Yy)
    称为二维随机变量 ( X , Y ) (X,Y) (X,Y)的分布函数,或称为随机变量X和Y的联合分布函数

  • 二维随机变量的联合分布率
    在这里插入图片描述

    • 二维离散型随机变量的联合分布率
      如果二维随机变量 ( X , Y ) (X,Y) (X,Y)全部可能取到的值是有限对,则称 ( X , Y ) (X,Y) (X,Y)是离散型的随机变量。设所有的可能取值为 ( x i , y i ) , i , j = 1 , 2 , . . . , n (x_i,y_i),i,j=1,2,...,n (xi,yi),i,j=1,2,...,n,则记 P ( X = x i , Y = y j ) = p i j P(X=x_i,Y=y_j)=p_{ij} P(X=xi,Y=yj)=pij为二维离散性随机变量 ( X , Y ) (X,Y) (X,Y)的分布律,也可以叫做随机变量X和Y的联合分布律。

    • 二维连续型随机变量的联合分布
      如果随机变量X和Y的取值是连续的,记二维随机变量(X,Y)的分布函数为F(X,Y),如果存在非负可积函数f(x,y)使对任意x,y有:
      F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x,y) = \displaystyle \int _{-\infty}^y \displaystyle \int _{-\infty}^xf(u,v)dudv F(x,y)=yxf(u,v)dudv
      则称 ( X , Y ) (X,Y) (X,Y)是连续型的二维随机变量,函数 f ( x , y ) f(x,y) f(x,y)为二维连续型随机变量的概率密度,或称为随机变量X和Y的联合概率。

    • 二维离散-连续型随机变量的联合分布
      如果 X X X是离散型随机变量,而 Y Y Y 是连续型随机变量,则它们的联合分布可以用条件概率质量函数和条件概率密度函数来描述。
      假设 X X X是离散型随机变量,取值集合为{ x 1 . x 2 , . . . , x n x_1.x_2,...,x_n x1.x2,...,xn}。而 Y Y Y是连续型随机变量,其概率密度函数为 f y ( Y ) f_y(Y) fy(Y)(也叫做变量(X,Y)关于Y的边缘概率密度)。则二者的联合分布可以表示为:
      离散型 X X X和连续型 Y Y Y的联合概率函数 P ( X = x i , Y = y ) P\left(X=x_{i}, Y=y\right) P(X=xi,Y=y)表示了在 X X X取值为 x i x_{i} xi 的条件下, Y Y Y取值在为 Y ≤ y Y \le y Yy的概率质量。这可以用条件概率函数来描述:
      P ( X = x i , Y = y ) = P ( Y = y ∣ X = x i ) ⋅ P ( X = x i ) P\left(X=x_{i}, Y=y\right)=P\left(Y=y \mid X=x_{i}\right) \cdot P\left(X=x_{i}\right) P(X=xi,Y=y)=P(Y=yX=xi)P(X=xi)
      其中, P ( Y = y ∣ X = x i ) P\left(Y=y \mid X=x_{i}\right) P(Y=yX=xi)是在 X = x i X=x_{i} X=xi的条件下 Y Y Y取值为 y j y_j yj的条件概率, P ( X = x i ) P\left(X=x_{i}\right) P(X=xi) X X X取值为 x i x_{i} xi的概率。
      这里的连续变量Y的概率密度函数,可以是不同的x对应不同的密度函数,也可以是把x作为了变量Y的概率密度函数的一个权重。
      连续型 Y Y Y的条件概率密度函数 f Y ∣ X ( y ∣ x i ) f_{Y \mid X}\left(y \mid x_{i}\right) fYX(yxi)给出了在给定 X = x i X=x_{i} X=xi的条件下, Y Y Y的概率密度函数。这可以用条件概率密度函数来描述:
      f Y ∣ X ( y ∣ x i ) = f X Y ( x i , y ) P ( X = x i ) f_{Y \mid X}\left(y \mid x_{i}\right)=\frac{f_{X Y}\left(x_{i}, y\right)}{P\left(X=x_{i}\right)} fYX(yxi)=P(X=xi)fXY(xi,y)
      其中, f X Y ( x i , y ) f_{X Y}\left(x_{i}, y\right) fXY(xi,y) X X X Y Y Y的联合概率密度函数, P ( X = x i ) P\left(X=x_{i}\right) P(X=xi) X X X取值为 x i x_{i} xi的概率。可以结合上图理解,

4. 条件概率分布

可以结合上文0.3联合概率中的二维离散-连续型随机变量的联合分布来理解。只不过除此之外,还有二维离散型和二维连续性的条件概率分布,这都可以二维离散型的联合分布和二维连续型的联合分布对应起来。因为所有条件概率,无非就是两个变量已经确定下来一个。通用的公式描述如下:
条件概率是概率论中的一个重要概念,用于描述在给定某些条件下某个事件发生的概率。它的形式通常表示为 P ( A ∣ B ) P(A∣B) P(AB),读作“在事件 B 发生的条件下事件 A 发生的概率”。

具体来说,条件概率指的是在已知某个事件 B 发生的情况下,事件 A 发生的概率。这种概率考虑了事件 B 的发生对事件 A 的影响,因此与简单的事件 A 的概率 P ( A ) P(A) P(A)有所区别。

条件概率的计算公式为:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A \mid B)=\frac{P(A \cap B)}{P(B)} P(AB)=P(B)P(AB)

其中,

  • P ( A ∣ B ) P(A∣B) P(AB)表示在事件 B 发生的条件下事件 A 发生的概率,也称为后验概率(posterior probability)。
  • P ( A ∩ B ) P(A \cap B) P(AB)表示同时发生事件 A 和事件 B 的概率,称为事件 A 与事件 B 的交集概率。
  • P(B) 表示事件 B 发生的概率,称为事件 B 的概率。
    条件概率的意义在于考虑了某个事件发生的背景信息或条件,从而更准确地评估事件发生的可能性。它在贝叶斯统计、机器学习、工程等领域中都有广泛的应用,例如在模式识别、信号处理、风险评估等方面都可以用到条件概率的概念和计算方法。

5. 边缘分布

边缘分布 (Marginal Distribution) 是概率论和统计学中的重要概念, 用于描述多维随机变量中单个变量的分布情况。边缘分布是从联合分布中抽取出某个或某些随机变量的概率分布, 而忽略其他随机变量的分布。

考虑一个多维随机变量 ( X 1 , X 2 , … , X n ) \left(X_{1}, X_{2}, \ldots, X_{n}\right) (X1,X2,,Xn)的联合分布, 称为联合概率分布。如果我们只关心其中的一部分变量, 比如 X 1 , X 2 X_{1}, X_{2} X1,X2 , 那么从联合分布中抽取出 X 1 X_{1} X1 的概率分布(忽略 X 2 X_{2} X2 以及其他变量), 就得到了 X 1 X_{1} X1的边缘分布。类似地, 我们也可以得到 X 2 X_{2} X2的边缘分布。

边缘分布的计算可以通过对联合分布进行边际化 (Marginalization) 来实现。边际化是通过对联合分布中不感兴趣的变量进行积分或求和, 来获得感兴趣变量的边缘分布。

对于离散型随机变量 X 和 Y 的联合分布, 边缘化可以表示为:

P ( X = x i ) = ∑ j P ( X = x i , Y = y j ) P\left(X=x_{i}\right)=\sum_{j} P\left(X=x_{i}, Y=y_{j}\right) P(X=xi)=jP(X=xi,Y=yj)

对于连续型随机变量 X 和 Y 的联合概率密度函数 f(x, y) , 边缘化可以表示为:
f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y f_{X}(x)=\int_{-\infty}^{\infty} f(x, y) d y fX(x)=f(x,y)dy
其中, f X ( x ) f_{X}(x) fX(x) X X X 的边缘概率密度函数。

边缘分布的概念在概率统计中非常重要, 它可以帮助我们理解单个变量的分布特征, 从而进行更精确的推断和分析

6. 贝叶斯定理

在这里插入图片描述

什么是似然度?
在这里插入图片描述

7. 有向图

有向图(Directed graph)是图论中的一种重要概念,在图形建模(Graphical Modeling)中起着关键作用。以下是有向图的中文介绍:

有向图是由一组顶点(节点)和一组有方向的边(箭头)组成的图形结构。每条边从一个顶点指向另一个顶点,表示了一个有向关系或者流向。有向图中的每个节点表示一个变量或者事件,而有向边则表示这些变量或事件之间的直接影响或关系。

有向图可以用来表示因果关系、依赖关系、流程控制等各种情况。在图形建模中,有向图常用于表示贝叶斯网络(Bayesian networks)或者因果图(Causal graphs)。贝叶斯网络是一种基于概率的图模型,用于表示变量之间的依赖关系和概率分布;因果图则用于表示因果关系,帮助理解事件或变量之间的因果链条。

有向图中的一些重要概念包括:

  1. 父节点和子节点: 一个节点的父节点是指向它的节点,而子节点是由它指向的节点。
  2. 入度和出度: 节点的入度是指向它的边的数量,而出度是由它指向的边的数量。
  3. 路径和环路: 路径是顺序连接的边和节点序列,环路是形成闭合回路的路径。
  4. 拓扑排序: 有向图中节点的线性排序,使得所有的有向边从左到右都是指向右边的。
    总之,有向图是图形建模中非常重要的一种图形结构,用于表示变量之间的因果关系、依赖关系和流程控制,具有广泛的应用领域和实际意义。

重点
有向图节点之间的连接代表了条件关系,如下图:

事件A
事件B
事件C
事件D
事件E
事件F

事件B发生的提前是事件A已经发生。比如事件A表示该这个人是个男孩子,事件B就是这个男孩子的头发是黑色还是红色。这与这个人的头发是黑色还是红色的概率是不同的。如果两者之间相互独立,没有联系,就不存在有向图之间的联系(边)。

8. 拉格朗日乘子定理

现在有个基础的数学问题: f ( x , y ) f(x,y) f(x,y)表示自变量为 x , y x,y x,y的函数,求 f ( x , y ) f(x,y) f(x,y)在限定条件为 g ( x , y ) = 0 g(x,y)=0 g(x,y)=0下的最大值。也就是说自变量的取值区域被限制了。公式描述为:
m a x f ( x , y ) , s . t . g ( x , y ) = 0 max f(x,y), s.t. g(x,y)=0 maxf(x,y),s.t.g(x,y)=0

问题转义: 试想 f ( x , y ) 和 g ( x , y ) f(x,y)和g(x,y) f(x,y)g(x,y)都是一个曲面,现在设定了自变量只能取曲面 g ( x , y ) g(x,y) g(x,y) g ( x , y ) = 0 g(x,y)=0 g(x,y)=0的值,见下图:
在这里插入图片描述
绘制出曲面的等高线,虚线代表等高线, f ( x . y ) f(x.y) f(x.y)的变量可行域是这个条红线。可见 当 当 f(x,y)$取的最最值的时候,两者的梯度刚好相反,所以对于这种有约束的最值问题,拉格朗日的统一解法为:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/528703.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Docker速成:新手变专家!

Docker介绍 容器历史 1、Chroot Jail 就是常见的chroot命令的用法。它在1979年的时候就出现了,被认为是最早的容器化技术之一。它可以把一个进程的文件系统隔离起来。 2、The FreeBSD Jail (监狱)实现了操作系统级别的虚拟化,他…

java中使用雪花算法(Snowflake)为分布式系统生成全局唯一ID

(全局唯一ID的解决方案有很多种,这里主要是介绍和学习Snowflake算法) 什么是雪花算法(Snowflake) 雪花算法(Snowflake Algorithm)是由Twitter公司在2010年左右提出的一种分布式ID生成算法&…

一起学习python——基础篇(10)

前言,Python 是一种面向对象的编程语言。以前大学读书的时候经常开玩笑说的一句话“如果没有对象,就new一个”。起因就是编程老师上课时经常说一句“首先,我们new一个对象”。 今天讲一下python的类和对象。 类是什么?它是一种用…

应用商店备案登记流程解析

引言: 随着智能手机的普及和移动互联网的发展,移动应用程序(App)已成为人们日常生活中不可或缺的一部分。在开发一个App之后,开发者需要将其上传到应用商店进行审核和上架。然而,在上架之前,开…

项目管理-Jiar Software

文章目录 前言Jira 中的关键词或术语功能应用场景优势 总结 前言 Jira Software 是由澳大利亚公司 Atlassian 开发的一款领先的敏捷项目管理工具,广泛应用于软件开发团队,以支持复杂的项目管理需求。以下是关于 Jira Software 的详细介绍,包…

银行内部控制管理系统应用架构最全介绍

内部控制管理系统 实物资产管理系统 依据《企业内部控制应用指引第 8 号——资产管理》,金融企业应当建立实物资产管理的岗位责任制度,对实物资产的验收入库、领用、发出、盘点、保管及处置等关键环节进行控制,防止各种实物资产被盗、毁损和…

mac中创建的证书提示是无效或者是证书不受信任的解决办法

mac中创建的证书提示是无效或者是证书不受信任的解决办法 原因: (1)可能是由于自己的误删除将Apple worldwide Developer Relatioans Certification Authority删除掉了 (2) 由于签发的认证的证书到期了 (3)其它未知原…

【趣味学算法】14_梅森素数

注: 本系列仅为个人学习笔记,学习内容为《算法小讲堂》(视频传送门),通俗易懂适合编程入门小白,需要具备python语言基础,本人小白,如内容有误感谢您的批评指正 梅森数(Me…

ML Kit:通过Mendix 集成人脸识别算法

预训练模型是一种已经使用训练数据集进行训练并包含执行模型所需所有参数的机器学习模型。这类模型常用于计算机视觉领域,比如可以在Mendix Studio Pro中导入ONNX模型后,可以在微流程中执行该模型。 本文讲述如何在Mendix应用程序中集成特定的人脸检测模…

短视频培训要多少钱?

在互联网时代,短视频已经成为一种流行的传播方式,不仅可以记录生活的美好瞬间,还可以作为一种职业技能,帮助个人或企业实现品牌推广和商业变现。因此,越来越多的人开始关注短视频制作培训,希望通过专业的学…

SQL语言自用(持续更新)(带例子)

目录 基础知识数据定义数据查询单表查询连接查询嵌套查询集合运算 实验例子数据定义数据查询单表查询查询的目标表达式为所有列、指定的列或指定的列的运算三种不同。使用DISTINCT保留字消除重复行。对查询结果排序和分组。集合分组使用集函数进行各项统计。 连接查询笛卡儿连接…

【QT入门】 Qt自定义控件与样式设计之QComboBox样式表介绍

往期回顾 【QT入门】 Qt自定义控件与样式设计之QLineEdit的qss使用-CSDN博客 【QT入门】Qt自定义控件与样式设计之QPushButton常用qss-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QPushButton实现鼠标悬浮按钮弹出对话框-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QComb…

LabVIEW和2D激光扫描的受电弓滑板磨耗精确测量

LabVIEW和2D激光扫描的受电弓滑板磨耗精确测量 在电气化铁路运输中,受电弓滑板的健康状况对于保障列车安全行驶至关重要。受电弓滑板作为连接电网与列车的直接介质,其磨损情况直接影响到电能的有效传输及列车的稳定运行。精确、快速测量受电弓滑板磨损情…

天池医疗AI大赛[第一季] Rank5解决方案

一、赛题说明 数据格式 本次大赛数据集包含数千份高危患者的低剂量肺部CT影像(mhd格式)数据,每个影像包含一系列胸腔的多个轴向切片。每个影像包含的切片数量会随着扫描机器、扫描层厚和患者的不同而有差异。原始图像为三维图像。这个三维图…

力扣经典150题(1)

文章目录 6.Z字形变换82.删除排序链表中的重复元素||61.旋转链表100.相同的树 6.Z字形变换 将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 “PAYPALISHIRING” 行数为 3 时,排列如下&#xff1…

【讲解如何OpenCV入门】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

数据库之DQL操作(数据查询语言)

DQL英文全称是Data Query Language(数据查询语言),数据查询语言,用来查询数据库中表的记录。查询关键字: SELECT。 本节介绍以下表为例: create table emp(id int comment 编号,workno varchar(10) comment 工号,nam…

基于SpringBoot+MyBatis-Plus的代码生成器

一、功能说明 数据源管理:实现多个数据库的表代码生成表管理:从数据源导入表,配置表和字段默认配置:配置项目默认信息,配置字段数据类型映射操作日志 功能截图 二、代码实现 基于velocity-engine模板代码生成 pack…

工单管理系统设计方案,工单系统的流程

工单管理系统是一种用于管理和跟踪工作流程的软件系统。它可以帮助企业和组织更好地分配任务、优化工作流程、提高生产效率和客户满意度。下面是一个基本的工单管理系统设计方案:需求分析  在设计工单管理系统之前,需要进行需求分析,确定系…

三极管原理特性介绍,课堂上可不这么讲!

原文来自微信公众号:工程师看海,与我联系:chunhou0820 看海原创视频教程:《运放秘籍》 大家好,我是工程师看海,原创文章欢迎点赞分享! 今天介绍下三极管的特性,清晰易懂&#xff0c…