基于 sklearn 的均值偏移聚类算法的应用

基于 sklearn 的均值偏移聚类算法的应用

在机器学习和数据挖掘中,聚类算法是一类非常重要的无监督学习方法。它的目的是将数据集中的数据点划分为若干个类,使得同一类的样本点彼此相似,而不同类的样本点相互之间差异较大。均值偏移聚类(Mean Shift Clustering)是一种基于密度的聚类方法,可以很好地识别数据中的高密度区域。


1. 什么是均值偏移聚类

均值偏移(Mean Shift)是一种基于密度峰值的无监督聚类算法,最早由 Fukunaga 和 Hostetler 于1975年提出。

均值偏移聚类算法是通过计算数据点的局部均值来不断更新每个数据点的位置,直到所有的数据点都趋于聚集在密度较高的区域。其本质上是一种基于梯度上升的方式,通过对数据点的迭代移动找到最密集的区域,最后将数据点聚集成簇。

与传统的基于距离的聚类方法(如K-means)不同,均值偏移聚类不需要预先指定簇的数量,它自动寻找数据分布的密度极值点进行聚类,能够处理非规则形状的数据分布。

1.1 核心特点

  1. 无需预先指定聚类数量
  2. 自动发现任意形状的簇
  3. 对噪声数据具有健壮性
  4. 基于核密度估计的概率方法

2. 均值偏移的数学模型

2.1 质心候选位置的调整

这段描述了一个迭代过程,称为爬山算法(hill climbing),该过程用于找到估计概率密度的局部最大值。爬山算法是一种启发式搜索方法,通过不断地调整候选解的值,逐步逼近目标的最优解。

给定一个候选质心的位置 x t x^t xt,我们通过以下公式来更新候选质心的位置:
x t + 1 = x t + m ( x t ) x^{t+1} = x^t + m(x^t) xt+1=xt+m(xt)
其中, m ( x t ) m(x^t) m(xt) 是一个均值漂移向量(mean shift vector),它指向数据点密度增加的区域。

2.2 均值漂移向量的计算

均值漂移向量 m ( x t ) m(x^t) m(xt) 是通过计算每个质心所在邻域内的点的均值来更新质心的位置。为了计算这个向量,我们首先定义质心 x t x^t xt 的邻域 N ( x t ) N(x^t) N(xt),即在给定距离范围内的所有样本点。接着,均值漂移向量的计算公式如下:
m ( x ) = 1 ∣ N ( x ) ∣ ∑ x j ∈ N ( x ) x j − x m(x) = \frac{1}{|N(x)|} \sum_{x_j \in N(x)} x_j - x m(x)=N(x)1xjN(x)xjx
其中: N ( x ) N(x) N(x) 是质心 x x x 的邻域, x j x_j xj 是邻域内的样本点, ∣ N ( x ) ∣ |N(x)| N(x) 是邻域内样本点的数量, x x x 是当前的质心。

这个公式的意思是:计算邻域内所有点的均值,并通过减去当前质心的位置,得到一个向量。这个向量指示质心应该如何调整位置。

2.3 核函数的使用

通常,均值漂移向量的计算依赖于用于密度估计的核函数。上面给出的均值漂移向量公式是一个通用的公式
m ( x ) = ∑ x j ∈ N ( x ) K ( x j − x ) x j ∑ x j ∈ N ( x ) K ( x j − x ) − x m(x) = \frac{\sum_{x_j \in N(x)} K(x_j - x) x_j}{\sum_{x_j \in N(x)} K(x_j - x)} - x m(x)=xjN(x)K(xjx)xjN(x)K(xjx)xjx
其中, K ( x j − x ) K(x_j - x) K(xjx) 是一个核函数,衡量了每个邻域点 x j x_j xj 与当前质心 x x x 之间的相似度。通过这种方式,质心的更新不仅仅依赖于邻域点的位置,还考虑了每个点的重要性(通过核函数的加权)。

2.4 核函数的特性

在我们的实现中,核函数 K ( x j − x ) K(x_j - x) K(xjx) 的值会根据点 x j x_j xj 与质心 x x x 的距离决定:

  • x j x_j xj x x x 的距离较小(即 K ( x j − x ) K(x_j - x) K(xjx) 较大)时,核函数值为 1。
  • x j x_j xj x x x 的距离较大(即 K ( x j − x ) K(x_j - x) K(xjx) 较小)时,核函数值为 0。

核函数的作用是决定哪些点在质心的邻域内,以及这些点对质心更新的贡献大小。


3. 参数说明

from sklearn.cluster import MeanShift

MeanShift(
    *,
    bandwidth=None,		# 控制邻域大小的核心参数,影响聚类的精度和速度
    seeds=None,			# 控制初始化的方式,可以加速或精确化聚类过程。
    bin_seeding=False,	# 使用分箱方法来选择种子点
    min_bin_freq=1,		# 在分箱方法中每个区域内至少n个样本点才能被选择为种子点
    cluster_all=True,	# 是否将所有数据点都归类为簇,或者标记为噪声点
    n_jobs=None,		# 使得聚类过程能够并行化,从而加速计算
    max_iter=300,		# 设置算法的最大迭代次数,以避免过长的计算时间
)
  1. bandwidth (float)

    • 描述: 这个参数控制用于确定每个点邻域范围的带宽。带宽定义了“邻域”的大小,即每个点在计算均值漂移向量时考虑的邻域半径。如果未指定,则算法会根据数据自动估计合适的带宽。

    • 作用: 影响均值漂移的结果,带宽越大,每个质心的“邻域”越大,算法可能会合并更多的簇;带宽越小,簇会更细致,可能会产生更多的簇。

  2. seeds (array-like)

    • 描述: 用于初始化质心的种子点。如果为 None,默认将会使用数据中的点作为种子点。可以通过传入一个自定义的种子点集合来控制算法的初始化过程。

    • 作用: 影响聚类结果的初始位置,指定种子点后可以加速聚类过程。

  3. bin_seeding (bool)

    • 描述: 如果为 True,则使用分箱方法来选择种子点。分箱方法将数据分成多个小区域,在每个区域中选择一个点作为种子,从而减少计算量。如果为 False,则使用所有数据点作为种子。

    • 作用: 在大规模数据集上可以加速聚类过程,减少计算复杂度。

  4. min_bin_freq (int)

    • 描述: 如果启用了 bin_seeding,则该参数指定了在分箱方法中每个区域内至少需要有多少个样本点才能被选择为种子点。

    • 作用: 影响种子点选择的频率,较高的 min_bin_freq 值将减少种子点的数量。

  5. cluster_all (bool)

    • 描述: 如果为 True,则所有的点都会被归类到某个簇中。如果为 False,则没有找到密度极大值的点会被标记为 -1,表示这些点没有归属于任何簇(类似于离群点)。

    • 作用: 如果设置为 False,会将不符合某个簇条件的点视为噪声或离群点,常用于检测离群点。

  6. n_jobs (int)

    • 描述: 用于并行计算的工作线程数。n_jobs=-1 会使用所有可用的 CPU 核心。默认情况下,None 表示不使用并行计算(即单线程)。

    • 作用: 如果数据量较大,可以设置为 -1 来加速计算过程,利用多核并行处理。

  7. max_iter (int)

    • 描述: 算法的最大迭代次数。在均值漂移过程中,质心会不断地向密度极大值移动,max_iter 限制了算法最多执行多少次迭代。如果算法在达到最大迭代次数之前收敛,算法会提前停止。

    • 作用: 控制算法的计算复杂度和时间。如果数据分布较复杂,可能需要更多的迭代来达到收敛。


4. 均值偏移聚类样例

4.1 生成样例数据并聚类

# 导入必要的库
import numpy as np
from sklearn.cluster import MeanShift, estimate_bandwidth  # 导入均值偏移聚类和带宽估计函数
from sklearn.datasets import make_blobs  # 用于生成模拟数据集的函数

# 定义聚类的中心点
centers = [[1, 1], [-1, -1], [1, -1]]

# 生成模拟数据集,包含10000个样本,指定中心点和簇的标准差
X, _ = make_blobs(n_samples=10000, centers=centers, cluster_std=0.6)

# 使用估计带宽函数自动检测带宽,量化值设为0.2,选择500个样本计算带宽
bandwidth = estimate_bandwidth(X, quantile=0.2, n_samples=500)

# 创建均值偏移聚类对象,并设定带宽和开启二值化种子
ms = MeanShift(bandwidth=bandwidth, bin_seeding=True)

# 对数据进行聚类
ms.fit(X)

# 获取聚类标签和簇中心
labels = ms.labels_
cluster_centers = ms.cluster_centers_

# 获取聚类标签的唯一值,即不同的簇标签
labels_unique = np.unique(labels)

# 获取簇的数量
n_clusters_ = len(labels_unique)

# 输出聚类的估计数量
print("估计的簇数量: %d" % n_clusters_)
# 输出簇中心
print("簇中心为: \n", cluster_centers)

估计的簇数量: 3
簇中心为:
[[ 0.92930747 -0.92997006]
[-0.90712668 -0.97393151]
[ 1.02412056 0.94250739]]

4.2 可视化结果

# 导入绘图工具
import matplotlib.pyplot as plt
import seaborn as sns  # 导入seaborn库来美化图表

sns.set_theme(style="whitegrid", font="SimHei", rc={"axes.unicode_minus": False})  # 设置主题和字体

# 设定颜色和标记符号
colors = ["#dede00", "#377eb8", "#f781bf"]
markers = ["x", "o", "^"]

# 绘制每个簇的样本点,并标记簇的中心
for k, col in zip(range(n_clusters_), colors):
    my_members = labels == k  # 获取属于第k个簇的样本
    cluster_center = cluster_centers[k]  # 获取第k个簇的中心
    plt.plot(X[my_members, 0], X[my_members, 1], markers[k], color=col, label=f"集群 {k+1}", alpha=0.4)  # 绘制簇的样本点
    plt.plot(
        cluster_center[0],
        cluster_center[1],
        markers[k],
        markerfacecolor=col,
        markeredgecolor="k",
        markersize=14,
        # label=f"聚类中心点 {k+1}"  # 绘制簇的中心点
    )

# 设置图表标题
plt.title("均值偏移聚类样例结果")

# 显示图表
plt.legend()  # 显示图例
plt.show()

在这里插入图片描述


5. 均值偏移聚类算法的应用

均值偏移聚类算法在计算机视觉(图像分割、目标追踪、视频分析……)、用户行为分析(电商用户分群、社交网络社区发现、异常检测……)、生物信息学(基因表达数据分析、蛋白质结构分类……)和地理信息系统(卫星图像分析、人口密度研究……)等领域中被广泛应用。

5.1 图像分割

5.1.1 选择图像(flowers-6558487_640)

flowers-6558487_640

5.1.2 导入图片并进行分割
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import seaborn as sns
from sklearn.cluster import MeanShift, estimate_bandwidth
from sklearn.datasets import load_sample_image
from sklearn.preprocessing import StandardScaler

# 设置 Seaborn 样式
sns.set_theme(style="whitegrid", font="SimHei", rc={"axes.unicode_minus": False})  # 设置主题和字体

# 加载示例图像
img = mpimg.imread('flowers-6558487_640.jpg')

# 将图像转换为二维数组,准备聚类
image_data = img.reshape((-1, 3))  # 每个像素点是一个RGB值

# 进行标准化
scaler = StandardScaler()
image_data_scaled = scaler.fit_transform(image_data)

# 估算带宽(bandwidth)
bandwidth = estimate_bandwidth(image_data_scaled, quantile=0.1, n_samples=500)

# 使用均值偏移进行聚类
mean_shift = MeanShift(bandwidth=bandwidth, bin_seeding=True)
mean_shift.fit(image_data_scaled)

# 获取聚类结果
labels = mean_shift.labels_

# 将聚类标签重新映射为图像
segmented_image = labels.reshape(img.shape[:2])

# 显示原图和分割结果
fig, ax = plt.subplots(1, 2, figsize=(12, 10))

ax[0].imshow(img)
ax[0].set_title("原始图像")
ax[0].axis('off')

ax[1].imshow(segmented_image, cmap='jet')
ax[1].set_title("聚类分割结果(MeanShift)")
ax[1].axis('off')

plt.show()

在这里插入图片描述

5.1.3 显示分割结果
# 统计聚类数量
n = len(set(labels))

# 将标签重新变为图像的形状
segmented_image_list = []

# 创建每个簇的分割图像
for cluster in range(n):  # 假设我们有3个簇
    # 创建一个全为0的图像(与原图尺寸一致)
    segmented_image = np.zeros_like(img)
    
    # 将属于该簇的像素赋值为原图像素,其他像素设置为黑色
    # 获取属于该簇的像素的索引
    cluster_pixels = labels == cluster
    # 将符合条件的像素赋值
    segmented_image.reshape(-1, 3)[cluster_pixels] = img.reshape(-1, 3)[cluster_pixels]
    
    # 添加到分割图像列表中
    segmented_image_list.append(segmented_image)

# 创建子图布局
fig, axes = plt.subplots(1, n, figsize=(12, 10))

# 绘制每个聚类的分割图像
for i, ax in enumerate(axes.flat):
    ax.imshow(segmented_image_list[i])  # 显示分割后的图像
    ax.set_title(f'聚类 {i+1}', fontsize=14)  # 设置标题为聚类编号
    ax.axis('off')  # 禁用坐标轴

# 调整布局,防止重叠
plt.tight_layout()
plt.show()

在这里插入图片描述

5.1.4 调整参数

5.1.3 图像可知,黄色花朵被分割为了三个聚类(聚类2、聚类3、聚类4),说明效果不佳,因此调整参数 quantile=0.2

# 估算带宽(bandwidth)
bandwidth = estimate_bandwidth(image_data_scaled, quantile=0.2, n_samples=500)

在这里插入图片描述
在这里插入图片描述


5.2 异常检测

5.2.1 导入鸢尾花数据集并降维
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from sklearn.cluster import MeanShift
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 设置 Seaborn 样式
sns.set_theme(style="whitegrid", font="SimHei", rc={"axes.unicode_minus": False})  # 设置主题和字体

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# PCA降维到2维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# 绘制散点图
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=None, s=100, edgecolor='k', alpha=0.8)
plt.title("鸢尾花数据集", fontsize=16)
plt.xlabel("主成分 1", fontsize=12)
plt.ylabel("主成分 2", fontsize=12)

# 设置网格线为虚线,并设置透明度
plt.grid(color='gray', linestyle='--', linewidth=0.7, alpha=0.5)

# 显示图例
plt.show()

在这里插入图片描述

5.2.2 添加异常数据并进行检测
# 在PCA降维后的数据中添加几个异常值
# 异常值:远离正常数据点
outliers = np.array([[4, 3], [-3, -3], [4, -4]])  # 假设我们人为添加3个异常点
X_pca_with_outliers = np.vstack([X_pca, outliers])

# 使用均值偏移聚类算法
mean_shift = MeanShift(bandwidth=1)
mean_shift.fit(X_pca_with_outliers)

# 获取聚类标签
labels = mean_shift.labels_

# 获取每个簇的大小
unique_labels, counts = np.unique(labels, return_counts=True)
print(f"聚类的簇数量: {len(unique_labels)}")

# 标记异常点
# 异常点的簇大小为1,表示每个簇只包含一个样本
outliers_labels = unique_labels[counts == 1]  # 找出簇大小为1的标签

# 可视化聚类结果
plt.figure(figsize=(8, 6))

# 使用sns.scatterplot进行美化
sns.scatterplot(x=X_pca_with_outliers[:, 0], y=X_pca_with_outliers[:, 1], hue=labels, palette="viridis", s=100, alpha=0.8, edgecolor='k', legend=None)

# 标记异常点
for label in outliers_labels:
    outlier_points = X_pca_with_outliers[labels == label]
    plt.scatter(outlier_points[:, 0], outlier_points[:, 1], color='red', s=100, marker='x', label='异常点')

# 设置图表标题、轴标签
plt.title("均值偏移聚类与异常检测", fontsize=16)
plt.xlabel("主成分 1", fontsize=12)
plt.ylabel("主成分 2", fontsize=12)

# 显示图例
# plt.legend(loc='upper right')
plt.show()

聚类的簇数量: 7

在这里插入图片描述


6. 算法优缺点

优势

  • 自动确定聚类数量
  • 对噪声不敏感
  • 适应任意形状的簇

局限

  • 时间复杂度较高(约O(n²))
  • 带宽选择对结果影响大
  • 不适用于高维数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977597.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

浅谈HTTP及HTTPS协议

1.什么是HTTP? HTTP全称是超文本传输协议,是一种基于TCP协议的应用非常广泛的应用层协议。 1.1常见应用场景 一.浏览器与服务器之间的交互。 二.手机和服务器之间通信。 三。多个服务器之间的通信。 2.HTTP请求详解 2.1请求报文格式 我们首先看一下…

故障诊断 | Matlab实现基于DBO-BP-Bagging多特征分类预测/故障诊断

故障诊断 | Matlab实现基于DBO-BP-Bagging多特征分类预测/故障诊断 目录 故障诊断 | Matlab实现基于DBO-BP-Bagging多特征分类预测/故障诊断分类效果基本介绍模型描述DBO-BP-Bagging蜣螂算法优化多特征分类预测一、引言1.1、研究背景和意义1.2、研究现状1.3、研究目的与方法 二…

使用Open WebUI下载的模型文件(Model)默认存放在哪里?

🏡作者主页:点击! 🤖Ollama部署LLM专栏:点击! ⏰️创作时间:2025年2月21日21点21分 🀄️文章质量:95分 文章目录 使用CMD安装存放位置 默认存放路径 Open WebUI下…

第48天:Web开发-JavaEE应用依赖项Log4j日志Shiro验证FastJson数据XStream格式

#知识点 1、安全开发-JavaEE-第三方依赖开发安全 2、安全开发-JavaEE-数据转换&FastJson&XStream 3、安全开发-JavaEE-Shiro身份验证&Log4j日志处理 一、Log4j 一个基于Java的日志记录工具,当前被广泛应用于业务系统开发,开发者可以利用该工…

计算机毕业设计SpringBoot+Vue.js中小型医院网站(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

在 compare-form.vue 中添加 compareDate 隐藏字段,并在提交时自动填入当前时间

在 compare-form.vue 中添加 compareDate 隐藏字段,并在提交时自动填入当前时间。 提交表单时存入的对象是FakeRegistration,这个对象里面有compareDate字段,刚好表格查询的对象也是FakeRegistration,所以表格展示的时间就是刚才…

ARM Cortex-M处理器中的MSP和PSP

在ARM Cortex-M系列处理器中,MSP(主堆栈指针)和PSP(进程堆栈指针)是两种不同的堆栈指针,主要用于实现堆栈隔离和提升系统可靠性。以下是它们的核心区别和应用场景: 1. 基本定义 MSP(…

STM32——HAL库开发笔记24(定时器5—超声波测距)(参考来源:b站铁头山羊)

一、原理 本次实验采用HC-SR04超声波传感器,结构及功能如下图 超声波传感器可以用来测距。距离 声速(340m/s) *传播时间 / 2。 这个传感器有四个引脚,其中VCC接电源正极,GND接电源负极 , Trig : 用来启动测量 &…

LCC并行光模块、PLCC并行光模块和POB并行光模块的区别

一、封装结构与材料差异 PLCC(Plastic Leaded Chip Carrier) 封装材料:采用塑料材质,引脚数量较多(20-84个),引脚分布在四周12散热设计:通常通过PCB基板嵌装铜散热片提升散热性能8…

WIFI的SSID超长,隐藏,重复 (2.4G和5G差异)

目录 1、2.4G和5G的频率范围‌ 2、2.4G和5G的差异‌: 3、隐藏ssid显示为\x00 4、 重复的ssid名称 扩展 前言 最近处理wifi设备时发现,小小一个ssid就有超多的问题。 不是中文转义就是超长,现在还发现空字符的,原来时对方路由隐藏了…

FS800DTU联动OneNET平台数据可视化View

目录 1 前言 2 环境搭建 2.1 硬件准备 2.2 软件环境 2.3 硬件连接 3 注册OneNET云平台并建立物模型 3.1 参数获取 3.2 连接OneNET 3.3上报数据 4 数据可视化View 4.1 用户信息获取 4.2 启用数据可视化View 4.3 创建项目 4.4 编辑项目 4.5 新增数据源 4.6 数据过滤器配置 4.6 项…

Linux时间日期类指令

1、data指令 基本语法: date : 显示当前时间date %Y : 显示当前年份date %m : 显示当前月份date %d : 显示当前哪一天date “%Y-%m-%d %H:%M:%S" : 显示年月日时分秒date -s 字符串时间 : 设置系统时…

Elasticsearch:使用经过训练的 ML 模型理解稀疏向量嵌入

作者:来自 Elastic Dai Sugimori 了解稀疏向量嵌入,理解它们的作用/含义,以及如何使用它们实现语义搜索。 Elasticsearch 提供语义搜索功能,允许用户使用自然语言进行查询并检索相关信息。为此,目标文档和查询必须首先…

MagicArticulate: 超48K海量数据革新3D动画,自回归Transformer驱动关节智能生成!

论文链接:https://arxiv.org/pdf/2502.12135 Git链接:https://chaoyuesong.github.io/MagicArticulate/ 亮点直击 首个大规模关节化基准数据集,包含超过33,000个具有高质量关节标注的模型; 一种新颖的两阶段框架,有效…

【洛谷入门赛】B4019 皆与生物有缘

题意 两个老师会对你进行打分,我们要做的是把两个老师每题给的分全加起来,然后 2 \div 2 2 再向上取整,输出这个值即可。 思路 首先,我们要输入。 根据我们总结的题意,我们还需要把所有分数加起来。 因为我们尽…

如何选择更安全的无人自助管理私人影院物联网框架?

对于无人自助管理的私人电影院来说,安全是至关重要的,在物联网层面上,更要确保其相关安全措施,才能更好地安全运转。选择更安全的无人自助管理私人影院物联网框架时,可以从以下几个关键方面进行评估: 1. 安…

基本网络安全的实现

基本网络安全的实现 一 :AAA AAA 是Authentication,Authorization and Accounting(认证、授权和计费)的简 称,它提供了一个用来对认证、授权和计费这三种安全功能进行配置的一致性框架, 它是对网络安全…

【大模型】Ubuntu下 fastgpt 的部署和使用

前言 本次安装的版本为 fastgpt:v4.8.8-fix2。 最新版本fastgpt:v4.8.20-fix2 问答时报错,本着跑通先使用起来,就没有死磕下去,后面bug解了再进行记录。   github连接:https://github.com/labring/FastGPT fastgpt 安装说明&…

python--泰坦尼克号人员存活模型训练+预测

1.先到Kaggle平台下载关于泰坦尼克号的数据。 泰坦尼克号数据集:这是Kaggle上的经典数据集,用于预测乘客是否幸存。 地址:Titanic - Machine Learning from Disaster | Kaggle 包含以下文件: train.csv:训练集&#…

【Azure 架构师学习笔记】- Azure Databricks (12) -- Medallion Architecture简介

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建 前言 使用ADB 或者数据湖,基本上绕不开一个架构“Medallion”, 它使得数据管理更为简单有效。ADB 通过…