DBSCAN聚类原理及Python实现

文章目录

  • 一、相关术语
  • 二、DBSCAN原理
    • 2.1 算法思想及步骤
    • 2.2 优缺点分析
    • 2.3 Python代码
  • 三、运行效率加速

一、相关术语

  • 密度:指定半径内点的个数;
  • 核心点:如果某个点的半径邻域epsilon内至少包含minPts个点数,它就是核心点;
  • 边界点:如果一个点既不是核心点,但在某个核心点的epsilon邻域内,则该点是边界点;
  • 噪声点:既不是核心点,也不是边界点;
  • epsilon邻域:以对象为圆心,epsilon为半径做圆得到的圆形区域称为该对象的epsilon邻域;
    在这里插入图片描述
    在这里插入图片描述
    总结:

(1)密度直达、密度可达、密度相连都属于同一个簇;

(2)密度直达、密度可达不具有对称性,密度相连具有对称性。
在这里插入图片描述

二、DBSCAN原理

2.1 算法思想及步骤

一个思想:直观上看,DBSCAN可以找到样本点中全部的密集区域,并把他们当作一个一个的聚类簇。

两个算法参数:① 邻域半径epsilon;② 最小点数minPts(用来定量刻画什么叫“密集”)。

三种点类别:核心点、边界点、噪声点。

四种点间关系:密度直达、密度可达、密度相连。

两个实现步骤:① 找到所有核心点,并将其密度直达的点形成对应的临时聚类簇;② 对于每个临时聚类簇,检查其中的点是否是核心点,如果是,则将该点对应的临时聚类簇和当前聚类簇合并。重复以上步骤,直到所有的核心点和边界点都完成聚类。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2.2 优缺点分析

优点:

(1)不需要事先设定簇的个数;

(2)不需要假设簇的形状,能够识别任意形状的簇;

(3)对异常值不敏感,可以将不属于任何簇的点标记为噪声。

缺点:

(1)如果样本密度分布不均匀,聚类效果较差;

(2)样本集较大时,收敛时间较长;

(3)有两个参数,比K-Means参数更多,更难调参。
在这里插入图片描述

2.3 Python代码

# DBSCAN算法核心过程
def DBSCAN(data, eps, minPts):
    n, m = data.shape
    disMat = compute_squared_EDM(data)  # 获得距离矩阵
    
    core_points_index = np.where(np.sum(np.where(disMat <= eps, 1, 0), axis=1) >= minPts)[0]  # 计算核心点索引
    labels = np.full((n,), -1)  # 初始化类别,-1代表未分类。
    clusterId = 0
    
    for pointId in core_points_index:  # 遍历所有的核心点
        if (labels[pointId] == -1):  # 如果核心点未被分类,将其作为的种子点,开始寻找相应簇集           
            labels[pointId] = clusterId  # 首先将点pointId标记为当前类别(即标识为已操作)   
                 
            seeds = set(np.where((disMat[:, pointId] <= eps) & (labels==-1))[0])  # 种子点集(核心点的eps邻域且没有被分类的点 )
            while len(seeds) > 0:  # 通过种子点,开始生长,寻找密度可达的数据点,一直到种子集合为空,一个簇集寻找完毕       
                newPoint = seeds.pop()  
                labels[newPoint] = clusterId  # 将newPoint标记为当前类
                queryResults = np.where(disMat[:,newPoint]<=eps)[0]  # 种子点的eps邻域(包含自己)
                
                if len(queryResults) >= minPts:  # 如果newPoint属于核心点,那么newPoint是可以扩展的,即密度是可以通过newPoint继续密度可达的
                    for resultPoint in queryResults:  
                        if labels[resultPoint] == -1:  # 将邻域内且没有被分类的点压入种子集合
                            seeds.add(resultPoint)
                            
            clusterId = clusterId + 1  # 簇集生长完毕,寻找到一个类别
            
    return labels

20分钟学会DBSCAN

(3)聚类算法之DBSCAN算法

机器学习模型自我代码复现:DBSCAN_密度可达和密度相连的区别-CSDN博客

三、运行效率加速

  1. 体素化;
  2. KD-Tree / Oc-Tree;
  3. 3D->2D投影

(本文完整的pdf请关注“张张学算法”,并回复“029”获取~)
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/468904.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring Security的开发

文章目录 1,介绍2, 核心流程3, 核心原理3.1 过滤器链机制3.2 主体3.3 认证3.4 授权3.5 流程图4, 核心对象4.1 UserDetailsService 接口4.2 PasswordEncoder 接口4.3 hasAuthority方法4.4 hasAnyAuthority方法4.5 hasRole方法4.5 hasAnyRole方法5, 核心注解5.1 @PreAuthorize5.1…

十四、ReadWriteLock

ReadWriteLock 读写锁 又叫排他锁 如果使用互斥锁&#xff0c;一个线程在读&#xff0c;其他线程也不能读也不能写 换成读写锁的时候&#xff0c;读线程是读锁&#xff0c;写线程是写锁&#xff0c;写锁是排他的 在多线程大大提高效率&#xff0c;当一个线程在读的时候&…

MybatisPlus逆向工程

目录 &#x1f9c2;1.前提说明 &#x1f37f;2.引入依赖 &#x1f32d;3.使用导入模板 1.前提说明 注意 适用版本&#xff1a;mybatis-plus-generator 3.5.1 以下版本&#xff0c;3.5.1 及以上的请参考 3.5.1以上参考官网&#xff1a;3.5.1以上逆向工程 2.引入依赖 …

用 二层口 实现三层口 IP 通信的一个实现方法

我们一般用 undo portswitch 来将二层口转为三层口&#xff0c;但如果设备不支持的话&#xff0c;那么。。。 一、拓朴图&#xff1a; 二、实现方法&#xff1a; 起一个 vlan x&#xff0c;配置 vlanif地址&#xff0c;然后二层口划分到 vlan x 下&#xff0c;对端做同样的配置…

C语言 实用调试技巧

我们的博客已经更新到了数据结构&#xff0c;但是当我在深耕数据结构时我发现我在C语言是遗漏了一个重要的东西&#xff0c;那就是C语言的使用调试技巧。这篇博客对数据结构非常重要&#xff0c;请大家耐心观看。 1. 什么是bug&#xff1f; 第一次被发现的导致计算机错误的飞蛾…

Centos虚拟机忘记密码;重置虚机密码

虚拟机是一个好用的工具&#xff0c;在本地搭建的虚拟机可以给我们提供测试&#xff0c;但时间长了也会忘记密码&#xff1b;因此这里以centos系统的虚机为例&#xff0c;提供一个重置虚机密码的方法 1.在开机页面按“E”进入编辑模式 进入后长这样&#xff1a; 2.找到ro cras…

Python面向对象——架构设计【2】

练习1&#xff1a;打电话 请使用面向对象思想描述下列情景: 小明使用手机打电话,还有可能使用座机.... class People:def __init__(self,name):self.name namedef call_up(self,tool):print(self.name,end"")tool.call()class Tools:def __init__(self,way):self.wa…

【第十三章】改进神经网络学习方式-其他正则化技术

L1正则化 除了L2正则化之外&#xff0c;还有许多正则化技术。事实上&#xff0c;已经开发出了如此多的技术&#xff0c;以至于我不可能总结它们。在本节中&#xff0c;我简要介绍了三种减少过拟合的其他方法&#xff1a;L1正则化、dropout和人为增加训练集大小。我们不会像之前…

四.流程控制(顺序,分支,循环,嵌套)

c刚刚转过来的记得写在public static void main&#xff08;String[] args&#xff09;的花括号里 一.顺序结构 二.分支结构 if &#xff0c;switch 1.if (条件判断&#xff09; 2.if else 3.if else if else if ... else(它是一个一个否定来一个个执行判断的 4.s…

Gitee 实战配置

一、Gitee 注册帐号 官网&#xff1a;https://gitee.com点击注册按钮。填写姓名。填写手机号。填写密码。点击立即注册按钮 二、安装GIT获取公钥 1.官网下载git下载地址&#xff1a;https://git-scm.com/download/win 2.安装git&#xff0c;双击运行程序&#xff0c;然后一直下…

Android下的匀速贝塞尔

画世界pro里的画笔功能很炫酷 其画笔配置可以调节流量&#xff0c;密度&#xff0c;色相&#xff0c;饱和度&#xff0c;亮度等。 他的大部分画笔应该是通过一个笔头图片在触摸轨迹上匀速绘制的原理。 这里提供一个匀速贝塞尔的kotlin实现&#xff1a; class EvenBezier {p…

SD卡RAW故障解析与数据恢复全攻略

一、SD卡RAW现象解析 SD卡作为现代电子设备中常见的存储介质&#xff0c;其稳定性和可靠性直接关系到我们日常工作和生活的数据安全。然而&#xff0c;有时我们会遇到SD卡突然变成RAW格式的情况&#xff0c;这通常意味着SD卡的文件系统出现了严重的问题&#xff0c;导致无法正…

Python基础介绍 —— 使用pytest进行测试!

​编辑自动化测试 1319 篇文章62 订阅 订阅专栏 Pytest 是 Python 的一种单元测试框架&#xff0c;与 Python 自带的 unittest 测试框架类似&#xff0c;但是比 unittest 框架使用起来更简洁&#xff0c;效率更高。 Pytest 是一个成熟的全功能的 Python 测试工具&#xff0c;…

在VSCode中怎么配置Python开发环境?真的超简单!

前言&#xff1a;VS Code 里是不包括 Python 的&#xff0c;所以你首先得安装一个 Python。 1、终端运行 Python 安装完 python 之后&#xff0c;我们可以用任何一个文本编辑工具开始写 python 代码&#xff0c;然后在 cmd 中运行代码。 在 VS Code 中&#xff0c;在不安装任…

idea maven 项目融合

背景 &#xff1a;项目A 和项目B 是两个独立的多模块项目&#xff0c;项目A 和项目B &#xff0c;均为独立的数据源 。其中项目B 有两个数据原。 需要将项目B 以多模块的方式融合进项目A。 解决版本。建立项目C&#xff0c;只含有pom的&#xff0c;空项目&#xff0c;项目A和项…

Springboot 整合Mybatis 实现增删改查(二)

续上篇&#xff1a;Springboot整合Mybatis的详细案例图解分析-CSDN博客 mapper层&#xff08;StudentMapper&#xff09; //通过id查询student方法Student searchStudentById(int id);//通过id删除student方法int deleteStudentById(int id);//通过id增加student方法int inser…

文件批量管理利器,一键复制备份安全删除原文件,让文件管理更高效!

在数字化时代&#xff0c;我们每天都在与各种文件打交道&#xff0c;从文档、图片到视频、音频&#xff0c;文件的管理和存储变得越来越重要。然而&#xff0c;手动逐个处理文件不仅繁琐&#xff0c;还容易出错。那么&#xff0c;有没有一种方法可以让我们轻松实现文件的批量管…

如何提高Verilog代码编写水平?

在IC设计端的诸多岗位中&#xff0c;只要提到基础知识和必备技能&#xff0c;就一定少不了Verilog。 按照20年芯片设计老兵的说法“1. 知道module的基本框架。2. 知道怎么写assign&#xff0c;和always块。3. 其他没有了。” 也就是说用VerilogHDL做设计不要追求花架子&#…

鸿蒙开发系列教程(二十五)--样式处理(一)

1、样式属性 参考网址&#xff1a;https://developer.harmonyos.com/cn/docs/documentation/doc-references-V3/ts-universal-attributes-text-style-0000001427902436-V3 属性方法以 . 链式调用的方式配置系统组件的样式和其他属性 Entry Component struct Index {build() …

由浅到深认识Java语言(1):前提概要

该文章Github地址&#xff1a;https://github.com/AntonyCheng/java-notes 在此介绍一下作者开源的SpringBoot项目初始化模板&#xff08;Github仓库地址&#xff1a;https://github.com/AntonyCheng/spring-boot-init-template & CSDN文章地址&#xff1a;https://blog.c…