【机器学习】在Python中进行K-Means聚类和层次聚类

Python中聚类算法API的使用指南

聚类分析是数据分析中一种常见的无监督学习方法,通过将相似的对象分组在一起,我们能够识别出数据集中的自然分群。本文将介绍如何使用Python中的聚类算法接口,KMeans层次聚类方法。

K-Means 聚类

K-Means是一种广泛使用的聚类算法,它的目标是将数据点分成K个组,使得组内的点彼此相似,而组间的点不相似。下面是如何使用K-Means聚类分析的步骤:

步骤一:导入必要的库

首先,需要导入KMeans类,它在sklearn.cluster模块中。

from sklearn.cluster import KMeans

步骤二:加载数据

我们使用pandas库来加载数据。确保数据文件的路径是正确的。

import pandas as pd

df = pd.read_excel(CLUS_FILE_PATH, index_col=0)

步骤三:应用K-Means聚类

创建一个KMeans实例,并通过.fit()方法应用于数据。

kmeans = KMeans(n_clusters=3, random_state=0).fit(df)

步骤四:保存聚类结果

将聚类标签添加到原始数据框中,并保存到Excel文件。

df['Cluster'] = kmeans.labels_
df.to_excel('kmeans聚类分析结果.xlsx')

层次聚类

层次聚类是另一种常见的聚类方法,它通过构建一个多层次的嵌套分群树来组织数据,这个树被称为树状图(Dendrogram)。相对于K-Means,层次聚类不需要指定k值就可以完成聚类,但是要分类出标签的话,我们需要指定一个距离,如果两个样本超出这个距离则不属于同一类。

步骤一:导入库

导入进行层次聚类和绘制树状图所需的库。

from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from scipy.spatial.distance import pdist

步骤二:加载数据并计算距离矩阵

同样地,我们先加载数据,然后计算距离矩阵,使用欧式距离。

df = pd.read_excel(CLUS_FILE_PATH, index_col=0)
distance_matrix = pdist(df, metric='euclidean')

步骤三:执行层次聚类

使用linkage函数进行层次聚类,这里采用了’ward’方法。

Z = linkage(distance_matrix, method='ward')

步骤四:确定聚类数并保存结果

通过选择一个最大距离阈值来确定聚类数,并把聚类结果保存到Excel。

clusters = fcluster(Z, max_d=50, criterion='distance')
df['Cluster'] = clusters
df.to_excel('层次聚类分析结果.xlsx')

步骤五:绘制树状图并保存

最后,利用dendrogram函数绘制树状图,并保存为图片。

plt.figure(figsize=(10, 50))
dendrogram(Z, orientation='left', labels=df.index, leaf_rotation=0, leaf_font_size=10)
plt.title('层次聚类的树状图')
plt.ylabel('中药名称')
plt.xlabel('距离')
plt.tight_layout()
plt.savefig('层次聚类树状图.png')
plt.show()
层次聚类的树状图

我们可以看到,各个中药被层次聚类组织成了一颗一颗嵌套的树,这些树描述了不同中药之间的距离关系。
在这里插入图片描述

上面的步骤展示了如何使用Python进行K-Means聚类和层次聚类分析。聚类是一个强大的工具,可以帮助我们发现数据中的模式和结构。通过实践这些步骤,你会对聚类分析有更深的了解。

利用PCA降维以可视化聚类结果

绘图函数(可直接复制,然后按下文调用)

def plot_clus_2D(clustered_data, class_col, method):
    n_clusters = clustered_data[class_col].nunique()

    # 执行PCA降维,降至2维
    pca = PCA(n_components=2)
    data_reduced = pca.fit_transform(clustered_data.drop(columns=[class_col]))
    # 创建一个新的DataFrame来保存降维后的数据和聚类标签
    data_2D = pd.DataFrame(data_reduced, columns=['PC1', 'PC2'])
    data_2D[class_col] = clustered_data[class_col].values

    # 设置绘图参数
    fig, ax = plt.subplots(figsize=(10, 8))

    # 为每个聚类设置不同的颜色
    colors = ['red', 'green', 'blue']  # 你可以根据需要的聚类数修改颜色

    if n_clusters > 3:  # 如果聚类数超过3,扩展颜色列表
        import matplotlib.colors as mcolors
        colors = list(mcolors.TABLEAU_COLORS.values())[:n_clusters]

    # 绘制每个聚类的散点图
    for i in range(n_clusters):
        # 从聚类数据中提取当前聚类的数据
        cluster_data = data_2D[data_2D[class_col] == i]

        # 绘制散点图
        ax.scatter(cluster_data['PC1'], cluster_data['PC2'],
                   color=colors[i], label=f'Cluster {i}', alpha=0.5)

    # 添加图例和标题
    ax.legend()
    ax.set_title(f'{method} 聚类结果 - PCA降维可视化(2D)')
    ax.set_xlabel('Principal Component 1')
    ax.set_ylabel('Principal Component 2')

    # 显示图表
    save_path = os.path.join(IMAGE_FOLDER, f'{method} 聚类结果 - PCA降维可视化(2D).png')
    plt.savefig(save_path)

    plt.show()


def plot_clus_3D(clustered_data, class_col, method):
    """

    :param clustered_data: 带有聚类结果标签的数据集
    :param class_col: 代表聚类结果的列名
    :param n_clusters: 有多少个
    :param method:
    :return:
    """

    n_clusters = clustered_data[class_col].nunique()

    # 执行PCA降维,降至3维
    pca = PCA(n_components=3)
    data_reduced = pca.fit_transform(clustered_data.drop(columns=[class_col]))
    # 创建一个新的DataFrame来保存降维后的数据和聚类标签
    data_3D = pd.DataFrame(data_reduced, columns=['PC1', 'PC2', 'PC3'])
    data_3D[class_col] = clustered_data[class_col].values

    # 设置绘图参数
    fig = plt.figure(figsize=(10, 8))
    ax = fig.add_subplot(111, projection='3d')

    # 为每个聚类设置不同的颜色
    colors = ['red', 'green', 'blue']  # 根据需要的聚类数修改颜色
    if n_clusters > 3:  # 如果聚类数超过3,扩展颜色列表
        import matplotlib.colors as mcolors
        colors = list(mcolors.TABLEAU_COLORS.values())[:n_clusters]

    # 绘制每个聚类的散点图
    for i in range(n_clusters):
        # 从聚类数据中提取当前聚类的数据
        cluster_data = data_3D[data_3D[class_col] == i]

        # 绘制散点图
        ax.scatter(cluster_data['PC1'], cluster_data['PC2'], cluster_data['PC3'],
                   color=colors[i], label=f'Cluster {i}', alpha=0.5)

    # 添加图例和标题
    ax.legend()
    ax.set_title(f'{method} 聚类结果 - PCA降维可视化(3D)')
    ax.set_xlabel('Principal Component 1')
    ax.set_ylabel('Principal Component 2')
    ax.set_zlabel('Principal Component 3')

    # 显示图表
    save_path = os.path.join(IMAGE_FOLDER, f'{method}_聚类结果_PCA降维可视化(3D).png')
    plt.savefig(save_path)
    plt.show()

示例调用

clus_data = pd.read_excel('kmeans聚类分析结果.xlsx', index_col=0)
plot_clus_2D(clustered_data=clus_data, class_col='Cluster', method='K-means')
plot_clus_3D(clustered_data=clus_data, class_col='Cluster', method='K-means')

clus_data = pd.read_excel('层次聚类分析结果.xlsx', index_col=0)
plot_clus_2D(clustered_data=clus_data, class_col='Cluster', method='层次聚类')
plot_clus_3D(clustered_data=clus_data, class_col='Cluster', method='层次聚类')

2D可视化

K-Means聚类结果

在这里插入图片描述

层次聚类结果

在这里插入图片描述

3D可视化

K-Means聚类结果

在这里插入图片描述

层次聚类结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/443684.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

利用 Redis 和 Lua 实现高效的限流功能

简介 在现代系统中,限流是一种重要的机制,用于控制服务端的流量并保护系统免受恶意攻击或请求泛滥的影响。本文将介绍如何利用 Redis 和 Lua 结合实现高效的限流功能。 一、什么是限流 限流指的是对系统中的请求进行控制和调节,确保系统在…

动手学深度学习PyTorch版

基本的数据操作 import torch # 创建一个行向量,默认为从0开始的12个整数 # n维数组也称为张量 x torch.arange(12) x # 张量的形状 x.shape# 张量的大小,张量所有元素的个数 x.numel()#修改张量的形状 x x.reshape(3,4)#生成形状为3*4的两个向量,向…

离散数学——(4)

目录 1.主析取范式 2.大项 3.主合区范式 4.范式的求法 真值表法 5.推理理论 直接证法 1.主析取范式 2.大项 3.主合区范式 4.范式的求法 真值表法 5.推理理论 直接证法

验证码安全

目录 验证码识别&复用&调用&找回密码重定向&状态值 res 修改-找回密码修改返回状态值判定验证通过 验证码爆破-知道验证码规矩进行无次数限制爆破 短信轰炸原理 验证码识别&复用&调用&找回密码重定向&状态值 res 修改-找回密码修改返回状态…

GraalVM 虚拟机-概述

GraalVM 虚拟机 Graal 编译器以及由此诞生的GraalVM,虽然目前还处在实验阶段,但是也是 Java 程序员们必须要了解的,因为他未来极有可能替代 HotSpot,成为 Java生态的下一代技术基础。 1 、关于 Graal Graal编译器最早是作为 Ho…

kamailio转发电话到目的地,目的返回失败时再转给其他IP

按图中这样测试: A---->kamailio------->B B返回480等失败错误码(非200 OK),能进入failure_route[TOVOICEMAIL],但是t_relay_to_udp执行失败。 好吧,说是:在 failure_route 中处理的是…

【嵌入式高级C语言】11:C语言Makefile

文章目录 1 makefile的概述【只针对Linux有效】1.1 make1.2 makefile1.3 采用makefile的好处 2 Makefile的语法规则3 makefile变量3.1 自定义变量3.2 系统环境变量3.3 预定义变量 4 伪目标5 最终版本Makefile 1 makefile的概述【只针对Linux有效】 1.1 make make是个命令&…

这是谁的女儿?其母亲早已红过头了,现在小小年纪的她也爆红网络,没想到吧?

这是谁的女儿?其母亲早已红过头了,现在小小年纪的她也爆红网络,没想到吧? 原来,作母亲的她在红极一时后似乎沉寂了下来,没想到她11岁的女儿近年来也在社交媒体上走红,她为何也成了小网红呢&…

【蓝牙协议栈】【经典蓝牙】【BLE蓝牙】蓝牙协议规范(HCI、L2CAP、SDP、RFOCMM)

目录 1. 蓝牙协议规范(HCI、L2CAP、SDP、RFOCMM) 1.1 主机控制接口协议 HCI 1.2 逻辑链路控制与适配协议 L2CAP 1.3 服务发现协议SDP 1.4 串口仿真协议 RFCOMM 1. 蓝牙协议规范(HCI、L2CAP、SDP、RFOCMM) 1.1 主机控制接口协…

寒假作业Day 08

寒假作业Day 08 一、选择题 1、下列关于 const 和 #define 定义常量的区别,说法不正确的有( ) A: define宏是在预处理阶段展开。const常量是编译运行阶段使用 B: 宏没有类型,不做任何类型检查,仅仅是展开。const常量…

计算机找不到api-ms-win-core-path-l1-1-0的5种解决方法

在计算机使用过程中,我们可能会遇到各种问题,其中之一就是找不到某些系统文件。最近,许多用户反映他们在使用电脑时遇到了“找不到api-ms-win-core-path-l1-1-0文件”的问题。这个问题通常出现在Windows操作系统中,可能会影响到一…

【Linux】编译器-gcc/g++使用

个人主页 : zxctscl 文章封面来自:艺术家–贤海林 如有转载请先通知 文章目录 1. 前言2. 初见gcc和g3. 程序的翻译过程3.1 预处理3.1.1 宏替换 去注释 头文件展开3.1.2 条件编译 3.2 编译3.3 汇编3.4 链接 4. 链接4.1 动态链接4.2 静态链接 1. 前言 在之…

DRC:扩散模型的推荐系统应用

1 Title Diffusion Recommender Model(Wenjie Wang、Yiyan Xu、Fuli Feng、Xinyu Lin、Xiangnan He、Tat-Seng Chua)【SIGIR 23】 2 Conclusion . In light of the impressive advantages of Diffusion Models (DMs) over traditional generative model…

万字完整版【C语言】指针详解~

一、前言 初始指针(0):着重于讲解指针的概念、基本用法、注意事项、以及最后如何规范使用指针深入指针(1):讲解指针变量常见的类型,如何去理解这些类型、最后就是如何正确的使用深入指针&#…

【语法基础练习】1.变量、输入输出、表达式与顺序语句

🌸博主主页:釉色清风🌸文章专栏:算法练习🌸今日语录:You don’t know until you try. 文章简介:下面的题目是AcWing网站语法基础练习篇的第一小节,内容基础,难度&#xf…

如何进入Windows 11的安全模式?这里提供详细步骤

序言 如果你在启动Windows 11 PC时遇到问题,则重新启动到安全模式可能会有所帮助,该模式会暂时禁用驱动程序和功能,以使你的PC更稳定。下面是如何做到这一点。 在Windows 7和更早版本中,通常可以在打开电脑后按功能键(如F8)启动安全模式。Microsoft从Windows 8中删除了…

MybatisPlus知识点总结(基于黑马2023MybatisPlus课程)

MybatisPlus知识点总结 配套资料 黑马微服务框架笔记,内含mpMybatisPlus.pptxMyBatis-Plus (mp中文官网) 快速入门 入门案例 使用MybatisPlus的基本步骤:1.引入MybatisPlus依赖,代替Mybatis依赖2.定义Mapper接口并继…

C++_可变参数模板

目录 1、可变参数模板的用法 2、参数包展开 2.1 递归方式展开 2.2 逗号表达式形式展开 3、参数包的大小 结语 前言: C11引入了可变参数模板,他的作用是可以让创建的函数模板或者类模板的模板参数可以接收任意数量参数,在C11前&#x…

16. C++标准库

C标准库兼容C语言标准函数库,可以在C标准库中直接使用C语言标准函数库文件,同时C标准库增加了自己的源代码文件,新增文件使用C编写,多数代码放在std命名空间中,所以连接C标准库文件后还需要 using namespace std;。 【…

【OpenGL手册11】材质的模型

目录 一、说明二、材质表面和光照三、设置材质四、光的属性五、不同的光源颜色练习 一、说明 在现实世界里,每个物体会对光产生不同的反应。比如,钢制物体看起来通常会比陶土花瓶更闪闪发光,一个木头箱子也不会与一个钢制箱子反射同样程度的…