人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解。在机器学习领域,聚类是一种无监督学习方法,旨在将相似的数据点划分为同一类别。sklearn是一个广泛应用于机器学习的Python库,提供了多种聚类算法。本文将详细介绍K-Means、DBSCAN和层次聚类这三种算法的数学原理、公式及实现代码。

文章目录

  • sklearn机器学习之聚类问题与代码详解
    • 1.K-Means算法
      • K-Means的数学原理
      • K-Means的公式
      • K-Means算法代码实现
    • 2.DBSCAN算法
      • DBSCAN算法数学原理
      • DBSCAN算法公式
      • DBSCAN算法代码实现
    • 3.层次聚类
      • 层次聚类数学原理
      • 层次聚类公式
      • 层次聚类代码实现
    • 总结

在这里插入图片描述

sklearn机器学习之聚类问题与代码详解

1.K-Means算法

K-Means的数学原理

K-Means算法是一种基于距离的聚类方法。其目标是将数据集划分为K个簇,使得每个数据点与其所属簇的中心点距离最小。
K-Means算法过程如下:
-初始化:随机选择K个数据点作为初始聚类中心。
-分配步骤:对于数据集中的每一个数据点,计算它与每个聚类中心的距离,并将其分配到最近的聚类中心所代表的簇中。
-更新步骤:重新计算每个簇的中心点。新的聚类中心是该簇所有数据点的均值,即取簇内所有点的坐标的平均值。
-迭代:重复步骤2和步骤3,直到满足停止条件。停止条件可以是聚类中心的变化小于某个阈值、达到预设的迭代次数或者数据点的簇分配不再改变。
-结束:当聚类中心的变化小于预设的阈值或达到最大迭代次数时,算法停止迭代,此时的聚类中心即为最终结果。

K-Means的公式

设数据集为X,聚类中心为C,则K-Means算法的目标函数为:
J = ∑ i = 1 K ∑ x ∈ S i ∣ ∣ x − c i ∣ ∣ 2 J = \sum_{i=1}^{K} \sum_{x \in S_i} ||x - c_i||^2 J=i=1KxSi∣∣xci2
其中, S i S_i Si表示第i个簇, c i c_i ci表示第i个簇的中心点。

K-Means算法代码实现

from sklearn.cluster import KMeans
import numpy as np
# 生成数据
X = np.random.rand(100, 2)
# 初始化KMeans
kmeans = KMeans(n_clusters=3)
# 拟合数据
kmeans.fit(X)
# 预测结果
labels = kmeans.predict(X)
# 输出聚类中心
print("聚类中心:", kmeans.cluster_centers_)

2.DBSCAN算法

DBSCAN算法数学原理

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。它将具有足够高密度的区域划分为簇,并可以发现任意形状的簇。

DBSCAN算法公式

DBSCAN算法涉及以下两个参数:

  • ε(邻域半径):判断一个点是否为核心点的邻域半径
  • MinPts(最小样本数):判断一个核心点是否为边界点的最小样本数
    一个点p的密度可达点定义为:从p出发,通过密度相连的点可以到达的所有点。

DBSCAN算法的过程如下:
1.参数选择:首先,需要选择两个参数:

  • ε(epsilon):邻域半径,表示一个点的邻域大小。
  • MinPts:最小样本数,表示一个区域内至少需要多少个点才能被视为密度可达。
    2.核心点识别:对于数据集中的每个点,计算以该点为中心、半径为ε的邻域内的点的数量。如果这个数量大于或等于MinPts,则该点被称为核心点。
    3.密度直达:如果一个点p在另一个核心点q的ε邻域内,那么点p由点q密度直达。
    4.密度可达:如果一个点p由核心点q密度直达,核心点q由核心点r密度直达,以此类推,形成一条链,那么点p由点r密度可达,即使点p不在点r的ε邻域内。
    5.簇的形成:从数据集中任意选择一个未访问过的核心点开始,找出所有从这个点密度可达的核心点,这些点组成一个簇。重复这个过程,直到所有核心点都被访问过。
    6.噪声点的识别:所有不是核心点且不与任何核心点密度可达的点被认为是噪声点。
    在这里插入图片描述

DBSCAN算法代码实现

from sklearn.cluster import DBSCAN
import numpy as np
# 生成数据
X = np.random.rand(100, 2)
# 初始化DBSCAN
dbscan = DBSCAN(eps=0.3, min_samples=5)
# 拟合数据
dbscan.fit(X)
# 预测结果
labels = dbscan.labels_
# 输出聚类结果
print("聚类结果:", labels)

3.层次聚类

层次聚类数学原理

层次聚类(Hierarchical Clustering)是一种逐步合并或分裂的聚类方法。它分为自底向上(凝聚)和自顶向下(分裂)两种策略。

层次聚类公式

层次聚类的相似度计算方法有多种,如最小距离、最大距离和平均距离等。以下是最小距离的计算公式:
d m i n ( C i , C j ) = min ⁡ x ∈ C i , y ∈ C j ∣ ∣ x − y ∣ ∣ d_{min}(C_i, C_j) = \min_{x \in C_i, y \in C_j} ||x - y|| dmin(Ci,Cj)=xCi,yCjmin∣∣xy∣∣
在这里插入图片描述

层次聚类代码实现

from sklearn.cluster import AgglomerativeClustering
import numpy as np
# 生成数据
X = np.random.rand(100, 2)
# 初始化层次聚类
agg_clustering = AgglomerativeClustering(n_clusters=3, linkage='ward')
# 拟合数据
agg_clustering.fit(X)
# 预测结果
labels = agg_clustering.labels_
# 输出聚类结果
print("聚类结果:", labels)

总结

本篇文章详细介绍了sklearn中三种常见的聚类算法:K-Means、DBSCAN和层次聚类。通过数学原理、公式及代码实现,帮助读者更好地理解和应用这些算法。在实际应用中,根据数据特点选择合适的聚类算法至关重要。希望本文对您有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/791597.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第十八章 Express multer 文件上传

本章将学习Express multer 文件上传 ,因为Nest 的文件上传是基于 Express 的中间件 multer 实现的,所以在学习 Nest 文件上传之前,我们先学习下 multer 包 首先先创建 multer-test 文件夹执行下面代码 创建package.json npm init -y接着安装…

@RequiredArgsConstructor实现构造器注入

RequiredArgsConstructor实现构造器注入 1. Autowired 和 Resource 注解 Autowired Autowired 是 Spring 框架提供的注解,用于自动装配依赖。可以用于字段、构造函数和 setter 方法。 Autowired private ISysUserService userService;Resource Resource 是 Jav…

Java 中的 switch 语句:类型支持与限制

Java 中的 switch 语句:类型支持与限制 1、switch 语句支持的数据类型2、switch 语句不支持的数据类型3、总结 💖The Begin💖点点关注,收藏不迷路💖 在 Java 中,switch 语句是一种用于多分支选择的控制结构…

物联网专业现代学徒制人才培养质量评价体系构建

一、 引 言 随着信息技术的飞速发展,物联网(IoT)技术已成为推动全球信息化、智能化发展的关键力量。物联网专业人才的培养质量直接关系到行业的创新能力和竞争力。现代学徒制作为一种创新的人才培养模式,已被广泛应用于职业教育中…

HCIP.ppp协议(点到点)认证阶段

ppp协议 ppp是点到点的协议 1.兼容性很好 2.可以进行认证和授权 3.可移植性强 三个阶段 1.链路协商阶段 LCP协商------去协商ppp链路会话 2.认证(可选) 3.NCP协商------网络层协商阶段(根据网络层的不同NCP协议就会存在一个对应的NC…

查看尝试登服务器ssh 访问ip地址

不指定时间查看尝试登录服务器的SSH访问IP地址 # CentOS/RHEL系统 zgrep "sshd" /var/log/secure-* | grep "Failed password" | awk {print $(NF-3)} | sort | uniq -c | sort -nr | head -n 10检查过去7天的日志尝试登录服务器的SSH访问IP地址 # CentOS…

QT--SQLite

配置类相关的表,所以我使用sqlite,且QT自带该组件; 1.安装 sqlite-tools-win-x64-3460000、SQLiteExpert5.4.31.575 使用SQLiteExpert建好数据库.db文件,和对应的表后把db文件放在指定目录 ./db/program.db; 2.选择sql组件 3.新…

GaussDB关键技术原理:高性能(五)

GaussDB关键技术原理:高性能(四)从USTORE存储引擎、计划缓存计划技术、数据分区与分区剪枝、列式存储和向量化引擎、SMP并行执行等五方面对高性能关键技术进行解读,本篇将从LLVM动态查询编译执行、SQL-BYPASS执行优化、线程池化、…

【文档+源码+调试讲解】冷冻仓储管理系统

摘 要 随着互联网时代的到来,同时计算机网络技术高速发展,网络管理运用也变得越来越广泛。因此,建立一个B/S结构的冷冻仓储管理系统,会使冷冻仓储管理系统工作系统化、规范化,也会提高冷冻仓储管理系统平台形象&#x…

若依搭建 帝可得 售货机 笔记

一、搭建项目 1.后端gitee链接: 启动项目时记得修改mysql和redis的相关信息;创建项目相关数据库,并导入初始化的SQL脚本 dkd-parent: 帝可得后台管理系统 (gitee.com) 2.前端gitee链接: 启动项目时记得安装依赖:np…

IPv4与IPv6的定义和主要区别

IPv4与IPv6的定义 IPv4,即互联网协议版本4(InternetProtocolversion4),是互联网使用最为广泛的协议之一。它采用32位地址,以点分十进制表示,如192.168.1.1。 IPv6,即互联网协议版本6&#xff…

自动驾驶革命:商汤科技突破性大模型UniAD震撼登场

自动驾驶革命:商汤科技突破性大模型UniAD震撼登场! 在人工智能的浪潮中,自动驾驶技术一直是科技巨头们竞相追逐的圣杯。而今,商汤科技联合上海人工智能实验室与武汉大学,以一篇名为"Planning-oriented Autonomou…

Shader每日一练(2)护盾

Shader "Custom/Shield" {Properties{_Size("Size", Range(0 , 10)) 1 // 控制噪声纹理缩放大小的参数_colorPow("colorPow", Float) 1 // 控制颜色强度的指数_colorMul("colorMul", Float) 1 // 控制颜色乘法因子_mainColor("…

政安晨:【Keras机器学习示例演绎】(五十四)—— 使用神经决策森林进行分类

目录 导言 数据集 设置 准备数据 定义数据集元数据 为训练和验证创建 tf_data.Dataset 对象 创建模型输入 输入特征编码 深度神经决策树 深度神经决策森林 实验 1:训练决策树模型 实验 2:训练森林模型 政安晨的个人主页:政安晨 欢…

【机器学习】独立成分分析(ICA):解锁信号的隐秘面纱

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 独立成分分析(ICA):解锁信号的隐秘面纱引言I…

人工智能算法工程师(中级)课程3-sklearn机器学习之数据处理与代码详解

大家好,我是微学AI,今天给大家分享一下人工智能算法工程师(中级)课程3-sklearn机器学习之数据处理与代码详解。 Sklearn(Scikit-learn)是一个基于Python的开源机器学习库,它提供了简单有效的数据挖掘和数据分析工具。Sklearn包含了…

webstorm问题解决:无法识别 @

问题解决tsconfig.json 问题 本地的 vite.config.ts 已经配置 路径 但是,我用webstorm 上识别不了 解决 新增文件tsconfig.json,添加 baseUrl 和 paths 的配置,以告诉 TypeScript 和 WebStorm 如何解析路径别名 tsconfig.json {&quo…

无需构建工具,快速上手Vue2 + ElementUI

无需构建工具,快速上手Vue2 ElementUI 在前端开发的世界中,Vue.js以其轻量级和易用性赢得了开发者的青睐。而Element UI,作为一个基于Vue 2.0的桌面端组件库,提供了丰富的界面组件,使得构建美观且功能丰富的应用变得…

禁止使用存储过程

优质博文:IT-BLOG-CN 灵感来源 什么是存储过程 存储过程Stored Procedure是指为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户可通过指定存储过程的名字并给定参数(如果该存储过程带有参数)来调用执行。 …

AndroidStudio2023.3版本avd manager模拟器无法创建

创建到最后一步的时候提示WARN - #com.android.sdklib.internal.avd.AvdManager - com.android.prefs.AndroidLocationsException: Can’t locate Android SDK installation directory for the AVD .ini file. 前提: 1.sdk路径没问题 2.安装了下图内容 那是什么原因…