【机器学习】无监督学习算法之:层次聚类

层次聚类

  • 1、引言
  • 2、层次聚类
    • 2.1 定义
    • 2.2 原理
    • 2.3 实现方式
    • 2.4 算法公式
    • 2.5 代码示例
  • 3、总结

1、引言

小屌丝:鱼哥, 这周末过的滋润啊。
小鱼:… 每个周末都挺滋润的啊。
小屌丝:啊~ ~ 你这…
小鱼:周末加班,岂不滋润?
小屌丝:加班…
小鱼:对啊,加班哦。
小屌丝:你这加班…是在哪里,加什么班? ?
小鱼:你这…
小屌丝:难道 ??
在这里插入图片描述

小鱼:你是不是想学习 层次聚类算法? ?
小屌丝: 啊…这 …
小鱼:学不学?
小屌丝:这个,是学,还是不学??
小鱼:你说学不学?
小屌丝:这个… 学吧。
小鱼: 那咱就开始 ~

2、层次聚类

2.1 定义

层次聚类(Hierarchical Clustering)是一种无监督学习算法,用于对数据进行分组或聚类。
不同于K-means等聚类算法,层次聚类可以输出一个层次结构的分组结果,可以从粗到细地描述数据的聚类关系。

2.2 原理

层次聚类的原理是不断合并最相似的样本或子聚类,直到所有样本或子聚类都被合并成一个大的聚类。这个过程可以形象地表示为一个树状结构,称为聚类树(dendrogram)。

在层次聚类中,有两种常见的方法:凝聚式聚类和分裂式聚类

  • 凝聚式聚类(Agglomerative Clustering)从每个样本开始,将最相似的样本或聚类合并在一起,直到所有样本都被合并成一个大的聚类。这个过程中,通过计算样本或聚类之间的相似度来确定最相似的样本或聚类。

  • 分裂式聚类(Divisive Clustering)从一个整体开始,将整个样本或聚类分成若干个子聚类,然后逐步细分子聚类,直到每个样本都成为一个独立的聚类。这个过程中,通过计算样本或聚类内部的差异来确定划分方式。

2.3 实现方式

实现层次聚类算法通常包括以下步骤:

  • 初始化:每个样本点都被视为一个独立的簇。

  • 计算距离矩阵:计算所有样本点之间的距离,形成一个距离矩阵。这个矩阵将用于确定哪些簇应该合并。

  • 合并簇:基于某种链接准则(如单链接、全链接或平均链接),选择距离最近的两个簇进行合并。

  • 更新距离矩阵:随着簇的合并,更新距离矩阵以反映新簇之间的距离。

  • 重复步骤:重复步骤3和4,直到达到预设的簇数量或满足其他停止条件。

在合并簇的过程中,可以选择不同的链接准则,如单链接(Single-linkage)、全链接(Complete-linkage)或平均链接(Average-linkage)等。这些链接准则决定了如何计算簇之间的距离或相似度。

2.4 算法公式

凝聚层次聚类的核心步骤是计算簇之间的距离或相似度。以欧氏距离为例,假设有两个簇(C_i)和(C_j),它们分别包含样本点集合({x_1, x_2, …, x_m})和({y_1, y_2, …, y_n}),则簇间距离(d(C_i, C_j))可以使用以下公式计算:

单链接(Single-linkage) ( d ( C i , C j ) = min ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \min_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=xCi,yCjmind(x,y))
全链接(Complete-linkage) ( d ( C i , C j ) = max ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \max_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=xCi,yCjmaxd(x,y))
平均链接(Average-linkage) ( d ( C i , C j ) = 1 m n ∑ x ∈ C i ∑ y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \frac{1}{mn} \sum_{x \in C_i} \sum_{y \in C_j} d(x, y)) (d(Ci,Cj)=mn1xCiyCjd(x,y))
其中, ( d ( x , y ) ) (d(x, y)) (d(x,y))表示样本点(x)和(y)之间的距离。

2.5 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-03-01
# @Author : Carl_DJ

'''
实现功能:
	使用sklearn库中的AgglomerativeClustering实现层次聚类:

'''

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 创建示例数据
X, _ = make_blobs(n_samples=100, n_features=2, centers=3, random_state=42)

# 应用层次聚类
cluster = AgglomerativeClustering(n_clusters=None, linkage='ward')  # 不预设聚类数量,采用 ward 方法
prediction = cluster.fit_predict(X)

# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=prediction)
plt.title('Hierarchical Clustering')
plt.show()

在这里插入图片描述

3、总结

层次聚类是一种简单而直观的无监督学习方法,它通过构建层次结构来组织数据。
不同的链接准则和距离度量方法会影响聚类的结果,因此在实际应用中需要根据数据的特性和需求选择合适的参数。
层次聚类的一个主要优点是能够生成簇的层次结构,这有助于理解数据的内在结构和关系。
然而,它也有一些局限性,例如对于大规模数据集的计算效率可能较低,且一旦做出合并决策就无法撤销。
因此,在选择层次聚类时,需要综合考虑其优缺点以及具体应用场景的需求。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 多个名企认证讲师等
  • 认证金牌面试官
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)测评一、二等奖获得者

关注小鱼,学习机器学习领域的知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/449583.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Skywalking(9.7.0) 告警配置

图片被吞,来这里看吧:https://juejin.cn/post/7344567669893021736 过年前一天发版,大家高高兴兴准备回家过年去了。这时候老板说了一句,记得带上电脑,关注用户反馈。有紧急问题在高速上都得给我找个服务区改好。 但是…

矩阵乘法--Strassen算法

一、矩阵乘法 从中可以看出&#xff0c;计算两个矩阵的乘积&#xff0c;需要三个 for 循环&#xff0c;可以简单写出代码&#xff1a; for(int i1;i<m;i)for(int j1;j<p;j)for(int k1;k<n;k)c[i][j]a[i][k]*b[k][j]; 时间复杂度的分析&#xff1a;很明显&#xff0c;…

JDK环境变量配置-jre\bin、rt.jar、dt.jar、tools.jar

我们主要看下rt.jar、dt.jar、tools.jar的作用&#xff0c;rt.jar在​%JAVA_HOME%\jre\lib&#xff0c;dt.jar和tools.jar在%JAVA_HOME%\lib下。 rt.jar&#xff1a;Java基础类库&#xff0c;也就是Java doc里面看到的所有的类的class文件。 tools.jar&#xff1a;是系统用来编…

网络通信(一)

网络编程概述 可以让设备中的程序与网络上其他设备中的程序进行数据交互&#xff08;实现网络通信的&#xff09;。 Java提供了哪些网络编程的解决方案 java.net.*包下提供了网络编程的解决方案 基本的通信架构 基本的通信架构有2种形式&#xff1a;CS架构&#xff08;Clie…

webgl instance 绘制

webgl instance 绘制 效果: key1: 创建实例缓存 function createMesh() {for (let i 0; i < NUM_CUBE; i) {const angle i * 2 * Math.PI / NUM_CUBE;const x Math.sin(angle) * RADIUS;const y 0;const z Math.cos(angle) * RADIUS;cubes[i] {scale: new THREE.V…

redis穿透、雪崩、击穿及其解决方案

redis穿透、雪崩、击穿及其解决方案 redis三个问题及解决方案缓存穿透缓存雪崩缓存击穿 redis三个问题及解决方案 缓存穿透 缓存穿透是指客户端请求的数据在缓存中和数据库中都不存在&#xff0c;这样缓存永远不会生效&#xff0c;这些请求都会打到数据库。也就是说key对应的…

黑马程序员-瑞吉外卖Day10

1.菜品分页查询 而在我们的实体类 Dish 中&#xff0c;仅仅包含 categoryId&#xff0c; 不包含 categoryName&#xff0c;那么我们应该如何封装查询的数据呢&#xff1f; 其实&#xff0c;这里我们可以返回DishDto对象&#xff0c;在该对象中我们可以拓展一个属性 categoryN…

高精度10m/30米NPP净初级生产力分布数据

引言 第一性生产力是绿色植物呼吸后所剩下的单位面积单位时间内所固定的能量或所生产的有机物质&#xff0c;即是总第一性生产量减去植物呼吸作用所剩下的能量或有机物质。多种卫星遥感数据反演净初级生产力&#xff08;NPP&#xff09;产品是地理遥感生态网平台推出的生态环境…

java-ssm-jsp的问卷调查系统的设计与实现

java-ssm-jsp的问卷调查系统的设计与实现

使用Python查询和下载Sentinel卫星数据

欢迎学习本教程,了解如何使用 Python 访问和下载 Sentinel 卫星数据。在深入探讨技术方面之前,让我们先了解一下哨兵卫星是什么以及它们为何如此重要。 哨兵家族。资料来源:欧空局。 Sentinel 卫星是欧洲航天局 (ESA) 开发的一组地球观测任务,是哥白尼计划的一部分,该计划…

论文阅读 Stepwise Feature Fusion: Local Guides Global

1&#xff0c;另一个ssfomer 我在找论文时发现&#xff0c;把自己的分割模型命名为ssformer的有两个&#xff1a;&#xff0c;一个论文SSformer: A Lightweight Transformer for Semantic Segmentation中提出的一种轻量级Transformer模型&#xff0c;结构如下 这个结构很简单&…

安装配置HBase

HBase集群需要整个集群所有节点安装的HBase版本保持一致&#xff0c;并且拥有相同的配置&#xff0c;具体配置步骤如下&#xff1a; 1. 解压缩HBase的压缩包 2. 配置HBase的环境变量 3. 修改HBase的配置文件&#xff0c;HBase的配置文件存放在HBase安装目录下的conf中 4. 首…

Docker Desktop将镜像存储位置从C盘迁移到其它盘

一、简述 Docker Desktop默认安装在C盘,默认镜像存储位置在 C:\用户\Administrator\AppData\Local\Docker\wsl Docker Desktop 通过WSL2启动,会自动创建2个子系统,分别对应2个 vhdx 硬盘映像文件。 可以命令行执行wsl --list -v 看到 二、迁移步骤 1、在Docker Desktop…

加载spacy中文语言模型 zh_core_web_sm错误解决办法

如果你代码在运行时找不到该模型且报错 并且安装该模块也报错 那么可以试一下手动安装 Chinese spaCy Models Documentationhttps://spacy.io/models/zh#zh_core_web_sm 点击安装到C盘&#xff0c;就是你平时pip install的标准路径 最后进入终端 即可安装成功&#xff01;

【编程语言】C#语言相关知识

前言&#xff1a;我们在游戏开发的过程中&#xff0c;往往会通过游戏引擎结合编程语言的方式&#xff0c;来作为项目开发的手段。因此&#xff0c;了解相关语言的特性、发展和前沿知识&#xff0c;就显得相当必要。笔者这里结合自身的工作经验和学习心得&#xff0c;用简洁通俗…

Jmeter入参问题小记

表单入参的时候&#xff0c;这个地方需要勾选&#xff0c;如果不☑️选的话&#xff0c;会提示errorMsg":"Required String parameter code is not present",

MYSQL Unknown column ‘appreciation.latitude‘ in ‘where clause‘

问题 笔者编写mysql语句&#xff0c;执行报错 详细问题 笔者sql代码 SELECT ap.*, su.username, wh.wheat_name FROM appreciation ap LEFT JOIN sys_user su ON su.id ap.user_id LEFT JOIN wheat wh ON wh.id ap.crop_id WHERE appreciation.latitude 1报错信息 >…

100. Go单测系列0---单元测试基础

文章目录 一、Go语言测试1. go test工具2. 单元测试函数3. 单元测试示例4. 子测试5. 表格驱动测试6. 并行测试 二、使用工具生成测试代码三、测试覆盖率四、testify/assert五、总结 本文主要讲解在Go语言中如何编写单元测试以及介绍表格驱动测试、回归测试和单元测试中常用的断…

【SpringBoot3】快速启动框架 快速入门 配置文件

文章目录 SpringBoot3介绍一、快速入门二、入门总结1. 为什么依赖不需要写版本&#xff1f;2. 启动器(Starter)是什么3. SpringBootApplication注解包括的效果&#xff1f; 三、SpringBoot3配置文件3.1 统一配置管理概述3.2 属性配置文件使用3.3 YAML配置文件使用3.4 批量配置文…

【开源】SpringBoot框架开发新能源电池回收系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 用户档案模块2.2 电池品类模块2.3 回收机构模块2.4 电池订单模块2.5 客服咨询模块 三、系统设计3.1 用例设计3.2 业务流程设计3.3 E-R 图设计 四、系统展示五、核心代码5.1 增改电池类型5.2 查询电池品类5.3 查询电池回…