【机器学习】25. 聚类-DBSCAN(density base)

聚类-DBSCAN-density base

  • 1. 介绍
  • 2. 实现
    • 案例计算
  • 3. K-dist
  • 4. 变化密度
  • 5. 优缺点

1. 介绍

DBSCAN – Density-Based Spatial Clustering of Applications with Noise
与K-Means查找圆形簇相比,DBSCAN可以查找任意形状和复杂形状的簇,如S形、椭圆、半圆
适合处理带有噪声的复杂数据集. DBSCAN将高密度区域识别为一个簇, 并把低密度区域视为簇和簇之间的分割. 噪声点通常位于低密度区域, 被排除在簇之外.
在这里插入图片描述
不同于K-means只能找圆形的簇, DBSCAN能找任意复杂形状的簇, 如S形, 半圆形…

2. 实现

在给定的数据集中,根据每个数据点周围其他数据点的密度情况,将数据点分为核心点、边界点和噪声点。

  • 核心点 core point 是周围某个半径内有足够多其他数据点的数据点;
  • 边界点 border point 是不满足核心点要求,但在某个核心点的半径内的数据点;
  • 噪声点 noise point 则是不满足任何条件的点。

接着,从核心点开始,通过密度相连的数据点不断扩张,形成一个簇。
在这里插入图片描述
一个点的密度取决于半径Eps. 如果:
Eps太大: 所有的点都会有一个较大的密度m,m是数据集中所有的点的数量
Eps太小: 所有的点的密度都等于1, 即只有一个自身

具体实现步骤为

  1. 将数据点标注为核心点, 边界点, 噪声点
  2. 抛弃噪声点
  3. 将剩余的点根据如下方式聚类:
  • 任何两个核心点, 若各自在对方的Eps内, 则属于同一个簇
  • 任何的边界点都放在与其相关联的核心点所属的簇中. 若边界点同时和多个核心点相关联, 需要解决冲突

案例计算

在这里插入图片描述
Eps = 1
MinPts = 2

  1. 找每个点eps范围内的点
    A : AB
    B: AB
    C: C
    D: DE
    E: ED

2.根据MinPts找到core point, border point 和noise point
Core point: A,B,D,E
border point: 0
noise point: C
3. 找到类 AB,DE

3. K-dist

不同的Eps和MinPts可能会对结果产生很大影响.
可以使用k-距离, k-dist来选取适当的Eps和MinPts.
计算每个点到第k个最近邻居的距离,属于某个cluster的点,k-dist会比较小,对与不属于任何cluster的点,如噪声点,则k-dist比较大。在这个图中,拐点是比较合适的。
在这里插入图片描述
在 k-距离图(k-distance graph)中,X 轴和 Y 轴表示以下内容:

X 轴(点的索引):数据集中所有点按与其第 k 个最近邻的距离值从小到大排序后的索引。这些点可以按顺序编号,例如从 1 到数据集中点的总数。
Y 轴(k-距离):每个点与其第 k 个最近邻的距离,通常记为 k-距离值。这个值表示该点到数据集中第 k 近邻点的距离。Y 轴的值越大,表示点的密度越低,反之则表示密度较高。

4. 变化密度

DBSCAN无法很好处理密度不同的cluster

5. 优缺点

优点:

  • 可以形成任意形状和大小的簇
  • 不需要实现指定簇的数量
  • 对噪声具有鲁棒性

缺点:

  • 不适合密度差异较大的数据
  • 不适合高维数据
  • 对输入参数Eps和MinPts敏感
    -Eps和MinPts选择通常不是直观的, 需要通过一些启发方法

时间复杂度n^2
空间复杂度n

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/906859.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB 8.0.3版本安装教程

MongoDB 8.0.3版本安装教程 一、下载安装 1.进入官网 2.选择社区版 3.点击下载 4.下载完成后点击安装 5.同意协议,下一步 6.选择第二个Custon,自定义安装 7.选择安装路径 !记住安装路径 8.默认,下一步 9.取…

怎么做才能降低APP用户的卸载率?

常年困扰 App 开发者的始终是一个问题:怎么做才能降低用户卸载率呢? 不要慌,今天这篇文章里,你就会找到解决方案啦。首先请记住: 每个 App 都是有自己独立个性的,所以没有一个通用的公式能让大家套用。 还…

elasticsearch 8.x 插件安装(三)之拼音插件

elasticsearch 8.x 插件安装(三)之拼音插件 elasticsearch插件安装合集 elasticsearch插件安装(一)之ik分词器安装(含MySQL更新) elasticsearch 8.x插件(二)之同义词安装如何解决…

CSP-J2024入门级T3:小木棍

题目链接 CSP-J2024T3:小木棍 题目描述 小 S 喜欢收集小木棍。在收集了 n n n 根长度相等的小木棍之后,他闲来无事,便用它们拼起了数字。用小木棍拼每种数字的方法如下图所示。 现在小 S 希望拼出一个正整数,满足如下条件: 拼出这个数恰好使用

Python小游戏19——滑雪小游戏

运行效果 python代码 import pygame import random # 初始化Pygame pygame.init() # 设置屏幕尺寸 screen_width 800 screen_height 600 screen pygame.display.set_mode((screen_width, screen_height)) pygame.display.set_caption("滑雪小游戏") # 定义颜色 WH…

哪个牌子的宠物空气净化器好?口碑好的宠物空气净化器推荐!

哪个牌子的宠物空气净化器好?作为一名家电测评博主,我发现市面上宠物空气净化器的牌子越来越多了,很多厂家都看中了宠物行业的红利,想来分一杯羹,这就导致很多技术不成熟的产品流入了市场。今年我测试了50多台宠物空气…

【Vue3.js】计算属性监视属性的深度解析

🧑‍💼 一名茫茫大海中沉浮的小小程序员🍬 👉 你的一键四连 (关注 点赞收藏评论)是我更新的最大动力❤️! 📑 目录 🔽 前言1️⃣ 计算属性概述2️⃣ 监视属性概述3️⃣ 计算属性与监视属性的对比…

[SAP ABAP] 在选择屏幕上的标准工具栏上增加自定义按钮

SAP系统的选择屏幕的标准工具栏上预先定义了5个按钮,对应的功能码是FC01、FC02、FC03、FC04、FC05,该功能码默认是不激活的。用户可以使用以下代码来激活这5个按钮 SELECTION-SCREEN FUNCTION KEY i. 提示Tips:这里的 i 必须是整数1-5&…

SIwave:释放 DCIR 求解器的强大功能

SIwave 是一种电源完整性和信号完整性工具。本文讨论了 DCIR 是电源完整性求解器之一。 DCIR 对于研究 powerplane 配电网络 PDN 的电压和电流分布是必要的。该求解器可计算任何电源层中的电压降、接地层中的电压上升、电流分布、每个过孔中的电流,检测任何过孔中的…

【论文笔记】Token Turing Machines

🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: Token Turing Machines 作…

2. Flink快速上手

文章目录 1. 环境准备1.1 系统环境1.2 安装配置Java 8和Scala 2.121.3 使用集成开发环境IntelliJ IDEA1.4 安装插件2. 创建项目2.1 创建工程2.1.1 创建Maven项目2.1.2 设置项目基本信息2.1.3 生成项目基本框架2.2 添加项目依赖2.2.1 添加Flink相关依赖2.2.2 添加slf4j-nop依赖2…

XHCI 1.2b 规范摘要(九)

系列文章目录 XHCI 1.2b 规范摘要(一) XHCI 1.2b 规范摘要(二) XHCI 1.2b 规范摘要(三) XHCI 1.2b 规范摘要(四) XHCI 1.2b 规范摘要(五) XHCI 1.2b 规范摘要…

【JavaEE初阶】网络原理(5)

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 目录 路由选择 数据链路层>以太网 MTU mac地址和IP地址的区别 空间范围不同 应用范围不同 ARP协议/ARP数据包 DNS(域名解析系统) 路由选择 每个路由器,无法知道整个网络…

图书管理系统汇报

【1A536】图书管理系统汇报 项目介绍1.用户登录注册功能1. 1用户角色管理2.图书管理功能2.1 添加图书2.2 编辑图书2.3 删除图书 3.图书搜索和筛选3.1 图书搜索3.2 图书筛选 4.图书借阅、图书归还4.1 图书借阅4.2 图书归还 5.用户信息管理5.1上传头像5.2修改头像5.3 修改密码 项…

清晰易懂的JavaScript进阶部分——DOM操作 (节点获取,节点属性修改,节点创建与插入,CSS样式的修改)

DOM操作(Document Object Model 文档对象模型)指的是通过JavaScript来操作网页的结构和内容。DOM提供了一种以文档树形式表示HTML或XML文档的方式,可以使用JavaScript来访问和修改网页的元素、属性和文本内容,且提供了一系列的函数…

服务器虚拟化

前言 服务器虚拟化是一种技术,它通过将一台物理服务器的软件环境分割成多个独立分区,使每个分区都能模拟出一台完整的虚拟服务器。这种技术利用虚拟化技术充分发挥服务器的硬件性能,提高运营效率,节约能源并降低经济成本。 通过…

如何在Linux下部署自己的ZFile开源网盘

ZFile 项目介绍 ZFile是一个功能强大、灵活的开源网盘系统,为用户提供安全便捷的文件存储和共享方案。 项目概述 ZFile由ZFile, Inc.开发和维护,基于Docusaurus构建。其用户友好的界面支持多种文件存储和共享功能,并具备高度的可定制性和扩…

StandardThreadExecutor源码解读与使用(tomcat的线程池实现类)

🏷️个人主页:牵着猫散步的鼠鼠 🏷️系列专栏:Java源码解读-专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 目录 目录 1.前言 2.线程池基础知识回顾 2.1.线程池的组成 2.2.工作流程 2…

VBA字典与数组第二十讲:如何在代码运行时创建数组

《VBA数组与字典方案》教程(10144533)是我推出的第三套教程,目前已经是第二版修订了。这套教程定位于中级,字典是VBA的精华,我要求学员必学。7.1.3.9教程和手册掌握后,可以解决大多数工作中遇到的实际问题。…

J2:ResNet50v2算法实战与解析

J2周:ResNet50V2算法实战与解析 论文解读1、ResNetV2结构与ResNet结构对比☕2、关于残差结构的不同尝试☕3、关于激活的尝试☕ Pytorch实现ResNet50V2算法1、导入库并设置GPU2、导入和检查数据3、划分数据集4、搭建ResNet-50V2模型Residual BlockStack(堆…