机器学习——聚类问题

📕参考:西瓜书+ysu老师课件+博客(3)聚类算法之DBSCAN算法 - 知乎 (zhihu.com)


目录

1.聚类任务

 2.聚类算法的实现

2.1 划分式聚类方法

2.1.1 k均值算法

k均值算法基本原理:

k均值算法算法流程:

2.2 基于密度聚类方法

2.2.1 DBSCAN

 DBSCAN的基本概念

 DBSCAN算法定义

2.3 基于层次聚类方法

2.3.1 AGNES

AGNES算法流程


【涉及到的英文单词】

无监督学习  unsupervised learning

聚类  clustering

簇  cluster

簇标记 cluster  label

有效性指标  validity index

簇内相似度  intra-cluster similarity

簇间相似度  inter-cluster similarity

外部指标  external index

内部指标  internal index

基于原型的聚类  prototype-based clustering

基于密度的聚类  density-based clustering

噪声  noise

异常  anomaly

DBSCAN Density-Based Spatial Clustering of Applications with Noise

AGNES  Agglomerative Nesting


1.聚类任务

【聚类任务的引入】

  • 在“无监督学习” (unsupervised learning) 中,训练样本的标记信息是未知的。
  • 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
  • 此类任务中研究最多、应用最广的是“聚类”。

【什么是聚类】

 聚类,试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。

通过这样的划分,每个簇可能对应一些潜在的概念(类别),如“浅色瓜”、“深色瓜”、“有籽瓜”、“无籽瓜”......

【注】这些概念对聚类算法而言,是未知的。聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。

接下来谈一下聚类算法的聚类指标——性能度量

聚类性能度量,亦称为聚类“有效性指标”(validity index)。

与监督学习中的性能度量作用类似,对聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标。

聚类是将样本集D划分为若干互不相交的子集,即样本簇。那么什么样的聚类结果比较好呢?

直观上,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。

也就是,聚类结果的“簇内相似度”(intra-cluster similarity)高,且“簇间相似度”(inter-cluster similarity)低,这样的聚类效果较好。

【聚类性能度量】:

外部指标(external index):将聚类结果与某个“参考模型” 进行比较

内部指标(internal index):直接考察聚类结果而不使用任何参考模型

【外部指标】:

 【内部指标】

补充,距离计算

 2.聚类算法的实现

【原型聚类】

“原型”是指样本空间中具有代表性的点。

 原型聚类,此类算法假设聚类结构能通过一组原型刻画,在现实聚类任务中极为常用。

2.1 划分式聚类方法

基于划分的聚类方法 :

给定一个数据集 D,其包含有 n 个数据对象,用一个划分方法来构建数据的 k 个划分,每一个划分表示一个类,且 k≤n。

2.1.1 k均值算法

k均值算法基本原理:

随机选取k个点作为初始的聚类中心点,根据每个样本到聚类中心点之间的距离,把样本归类到相距它距离最近的聚类中心代表的类中,再计算样本均值。

若相邻的两个聚类中心无变化,结束迭代;如若不然,不断重复进行该过程。

k均值算法算法流程:

1.选取质心

随机选择 k 个初始质心,其中 k 是用户指定的参数,即所期望的簇的个数。

2.分配数据点

对于样本中的数据对象,根据它们与聚类中心的距离,按距离最近的准则将它们划分到距离它们最近的聚类中心,形成一个簇。

3.更新聚类中心

根据指派到簇的点,将每个簇的质心更新为该簇所有点的平均值。

4.判断是否结束 

判断聚类中心的值是否发生变化,若改变,则重复执行上述步骤;若不变,则输出结果。

2.2 基于密度聚类方法

密度聚类,亦称“基于密度的聚类”(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。

通常情况下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇,以获得最终的聚类结果。

基于密度聚类方法的代表算法是DBSCAN。

2.2.1 DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法):基于一组“邻域”参数 (ϵ,MinPts) 来刻画样本分布的紧密程度。

 DBSCAN的基本概念

邻域:就是以x_j为圆心,\varepsilon为半径,画一个圆,在圆内的样本点,构成这个邻域

核心对象:如果x_j的邻域内的样本点的个数超过了MinPts(这是一个数值),那么这个x_j就是一个核b

密度直达:如果x_ix_j的邻域内,且x_j是核心对象,那么就称x_ix_j密度直达。但是反过来不一定成立,因为前提条件是x_j是核心对象,所以密度直达不满足对称性

密度可达:就是一系列密度直达的样本点传递,使x_i密度可达x_j(密度可达的前提是这些点密度直达,密度直达的前提是这些点是核心对象,所以密度可达的点都是核心对象,并且具不满足对称性)。

看图理解:

画图理解,,,,我的建议是直接看大佬的文

(3)聚类算法之DBSCAN算法 - 知乎 (zhihu.com)

MinPts=5的意思是,如果x_j的邻域内有≥5个样本点,那么x_j就是一个核心对象。

 DBSCAN算法定义

D中不属于任何簇的样本被认为是噪声 (noise)或异常(anomaly) 样本。

 那么,如何从数据集D 中找出满足以上性质的聚类簇呢?

DBSCAN算法先任选数据集中的一个核心对象为“种子”,再由此出发确定相应的聚类簇。

1.找核心对象

根据 (ϵ,MinPts) 对 n 个对象进行搜索,寻找所有的核心对象,构成核心对象集合。

2.成簇 

根据上述的核心对象寻找 D 中所有密度相连的样本,构成簇,若上述核心对象已被访问,则剔除出去。

3.重复 

重复上述过程,直至核心对象集合为空。

其它问题 

  • 异常点问题:一些异常样本点或者说少量游离于簇外的样本点,这些点不在任何一个核心对象在周围,在DBSCAN中,我们一般将这些样本点标记为噪音点。
  • 距离度量问题:即如何计算某样本和核心对象样本的距离。在DBSCAN中,一般采用最近邻思想,采用某一种距离度量来衡量样本距离,比如欧式距离、曼哈顿距离等。
  • 数据点优先级分配问题:例如某些样本可能到两个核心对象的距离都小于 ϵ ,但是这两个核心对象由于不是密度直达,又不属于同一个聚类簇,那么如果界定这个样本的类别呢?一般来说,此时 DBSCAN采用先来后到,先进行聚类的类别簇会标记这个样本为它的类别。也就是说DBSCAN的算法不是完全稳定的算法。

 这个是大佬的博客里的:(3)聚类算法之DBSCAN算法 - 知乎 (zhihu.com)

2.3 基于层次聚类方法

层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。

数据集的划分可以采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。因此可分为聚合层次聚类与划分层次聚类。

  • 聚合层次聚类:采用自底向上的策略。开始时 , 每个样本对象自己就是一个类 , 称为原子聚类 , 然后根据这些样本之间的相似性 , 将这些样本对象 ( 原子聚类 ) 进行合并。
  • 划分层次聚类:采用自顶向下的策略,它首先将所有对象置于同一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件。该种方法一般较少使用。

2.3.1 AGNES

AGNES是一种采用自底向上聚合策略的层次聚类算法。

它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。

这里的关键是如何计算聚类簇之间的距离。

实际上,每个簇是一个样本集合,因此只需采用关于集合的某种距离即可。

AGNES算法流程

给定包含 n 个对象的数据集 D ,聚类簇距离度量函数 d,聚类簇数为 k。

1.计算所有样本间的距离

使用度量函数 d 计算所有样本间的距离。

2.更新聚类簇及样本间距离

将距离最近的两个聚类簇进行合并,计算合并后的聚类簇间的距离。

3.重复

重复上述过程,直至聚类簇数为设定的参数 k。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/390276.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第31天|● 理论基础 ● 455.分发饼干 ● 376. 摆动序列 ● 53. 最大子序和

文章目录 理论基础分发饼干思路:代码: 摆动序列思路一 贪心算法:代码: 思路二:动态规划(想不清楚)代码: 最大子序和思路:代码: 理论基础 贪心算法其实就是没…

Android Jetpack Compose 沉浸式状态栏的实现

目录 概述效果展示代码实现总结 概述 说到沉浸式状态栏,很多小伙伴可能不太熟悉,其实让Android的状态栏的颜色和APP的主题颜色相同,给人感觉状态栏和APP就是一体的。沉浸式的状态栏让页面看起来更舒服,实现沉浸式状态栏也很简单&…

精品jsp+ssm基于Java的疫苗接种管理系统

《[含文档PPT源码等]精品jspssm基于Java的疫苗接种管理系统[包运行成功]》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功! 使用技术: 开发语言:Java 框架:ssm 技术:JSP JDK版…

2024年!PyCharm快捷键大全

收藏!PyCharm快捷键大全 工欲善其事必先利其器,PyCharm 是最popular的Python开发工具,它提供的功能非常强大,是构建大型项目的理想工具之一,如果能挖掘出里面实用技巧,能带来事半功倍的效果。 本文主要向大…

PLC_博图系列☞FBD

PLC_博图系列☞FBD 文章目录 PLC_博图系列☞FBD背景介绍FBD优势局限性 FBD 元素 关键字: PLC、 西门子、 博图、 Siemens 、 FBD 背景介绍 这是一篇关于PLC编程的文章,特别是关于西门子的博图软件。我并不是专业的PLC编程人员,也不懂电路…

Linux程序地址空间

引言 以下为示意草图 下面以代码验证一下&#xff1a; 1 #include<stdio.h> 2 #include<stdlib.h>3 …

C++数据结构与算法——双指针法

C第二阶段——数据结构和算法&#xff0c;之前学过一点点数据结构&#xff0c;当时是基于Python来学习的&#xff0c;现在基于C查漏补缺&#xff0c;尤其是树的部分。这一部分计划一个月&#xff0c;主要利用代码随想录来学习&#xff0c;刷题使用力扣网站&#xff0c;不定时更…

Flutter 动画(显式动画、隐式动画、Hero动画、页面转场动画、交错动画)

前言 当前案例 Flutter SDK版本&#xff1a;3.13.2 显式动画 Tween({this.begin,this.end}) 两个构造参数&#xff0c;分别是 开始值 和 结束值&#xff0c;根据这两个值&#xff0c;提供了控制动画的方法&#xff0c;以下是常用的&#xff1b; controller.forward() : 向前…

【开源】在线办公系统 JAVA+Vue.js+SpringBoot+MySQL

目录 1 功能模块1.1 员工管理模块1.2 邮件管理模块1.3 人事档案模块1.4 公告管理模块 2 系统展示3 核心代码3.1 查询用户3.2 导入用户3.3 新增公告 4 免责声明 本文项目编号&#xff1a; T 001 。 \color{red}{本文项目编号&#xff1a;T001。} 本文项目编号&#xff1a;T001。…

前端vue3实现本地及在线文件预览(含pdf/txt/mp3/mp4/docx/xlsx/pptx)

一、仅需实现在线预览&#xff0c;且文件地址公网可访问 &#xff08;一&#xff09;微软office免费预览&#xff08;推荐&#xff09; 支持doc/docx/xls/xlsx/ppt/pptx等多种office文件格式的免费预览 //示例代码//​在https://view.officeapps.live.com/op/view.aspx?src…

骨传导耳机是什么?如何选择骨传导耳机不会踩雷?

骨传导耳机是利用骨传导技术研发而成一种新型蓝牙耳机&#xff0c;其传声方式很独特&#xff0c;不通过空气传导&#xff0c;而是通过人体骨骼来传递声音。 详细传声原理请看下图&#xff1a; 随着骨传导耳机逐渐热门&#xff0c;如何选购耳机成为了问题&#xff0c;下面跟大家…

计算机设计大赛 深度学习YOLO图像视频足球和人体检测 - python opencv

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络4 Yolov5算法5 数据集6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习YOLO图像视频足球和人体检测 该项目较为新颖&#xff0c;适合作为竞赛课题方向&#xff0c;学长非…

1_opencv3环境搭建与测试

之前2020年5月写过一次&#xff0c;时隔3年多&#xff0c;有机会再重新写一次。相比之前&#xff0c;应该是有一点儿进步的。之前是使用默认安装路径&#xff0c;所以无需配置共享库的搜索路径。这次是自定义安装路径&#xff0c;略有区别。随着写程序的时间增长&#xff0c;编…

Dockerfile 常用指令

1、FROM 指定base镜像。 2、Docker history 显示镜像的构建历史&#xff0c;也就是Dockerfile的执行过程。 Missing 表示无法获取IMAGE ID&#xff0c;通常从Docker Hub下载的镜像会有这个问题。 3、调试Dockerfile&#xff0c;使用sudo docker run -it XXXX&#xff0c;XXXX…

036-安全开发-JavaEE应用第三方组件Log4j日志FastJson序列化JNDI注入

036-安全开发-JavaEE应用&第三方组件&Log4j日志&FastJson序列化&JNDI注入 #知识点&#xff1a; 1、JavaEE-组件安全-Log4j 2、JavaEE-组件安全-Fastjson 3、JavaEE-基本了解-JNDI-API 演示案例&#xff1a; ➢Java-三方组件-Log4J&JNDI ➢Java-三方组件-Fa…

【开源】SpringBoot框架开发大学生相亲网站

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 查询会员4.2 查询相亲大会4.3 新增留言4.4 查询新闻4.5 新增新闻 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpringBootMySQL的大学生相亲网站&#xff0c;包含了会员管理模块、新闻管…

炬芯ATS2819 soundbar音响系统开发完全手册

加我微信hezkz17,可申请加入数字音频系统研究开发交流答疑群,赠送音频项目核心开发资料 ATS2819音响系统开发完全手册 1 硬件原理实现 图1 硬件原理框图 2 SOC ATS2819介绍 3 E800 板子项目实物…

黑群晖一键修复:root、AME、DTS、转码、CPU型号等

食用方法&#xff1a;SSH连接群晖使用临时root权限执行 AME3.x激活补丁 只适用于x86_64的&#xff1a;DSM7.x Advanced Media Extensions (AME)版本3.0.1-2004、3.1.0-3005 激活过程需要下载官方的解码包&#xff0c;过程较慢&#xff0c;耐心等待。。。 DSM7.1和7.2的AME版…

【前端设计】炫酷导航栏

欢迎来到前端设计专栏&#xff0c;本专栏收藏了一些好看且实用的前端作品&#xff0c;使用简单的html、css语法打造创意有趣的作品&#xff0c;为网站加入更多高级创意的元素。 html <!DOCTYPE html> <html lang"en"> <head><meta charset&quo…

Java 和 JavaScript 的奇妙协同:语法结构的对比与探索(中)

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…