狗都能看懂的DBSCAN算法详解

文章目录

DBSCAN简介

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种典型的无监督聚类算法。和K-means相比,不需要指定簇的个数,可以应用于各种非凸形状的数据,能够有效分离异常点,因此也常用于异常检测。

DBSCAN算法流程

DBSCAN通过检查数据集中的点的邻域来形成簇。其核心思想是密度可达性,即如果一个点在某个密度阈值内有足够多的邻居,它就会与这些邻居形成一个簇。具体地,DBSCAN依赖于两个主要参数:

  1. ϵ \epsilon ϵ:定义一个点的邻域的半径。
  2. MinPts:一个点在其邻域内必须包含的最少点数(包括点本身),以便被视为一个核心点

运行机制

DBSCAN算法的运行步骤如下:

  1. 标记所有点为未访问。
  2. 随机选择一个未访问的点P,并将其标记为已访问。
  3. 检查P的ε邻域:
    • 如果P的 ϵ \epsilon ϵ邻域内的点数大于或等于MinPts,则P被视为核心点,并以P为中心创建一个新簇。然后递归地将P的所有邻居也加入该簇。
    • 如果P的 ϵ \epsilon ϵ邻域内的点数小于MinPts,则P被标记为噪声点(后续可能会被归入其他簇)。
  4. 重复步骤2和3,直到所有点都被访问过

在这里插入图片描述

举个实例

现设 ϵ = 1 \epsilon = 1 ϵ=1 M i n P t s = 3 MinPts = 3 MinPts=3,即半径为1的情况下,需要有3个点在领域内才算是核心点。

  1. 任意选择一个点A,其半径圈内有3个符合条件的点,所以A是核心点,并标记为已访问的状态
  2. 在A的半径范围内任意选择一个点,继续进行半径圈扫描,即重复1的操作
  3. 经过n轮迭代之后,到达了B点,B点为圆心的范围内只有一个符合条件的点,虽然它和其他红色的点都是分到一个类里,但它是属于边界点而非核心点
  4. 再经过m轮迭代之后,红色点和黄色点都遍历完成后,我们只剩下N点没有访问过了
  5. 此时选择N点,它的半径圈内并没有任何点,它将被我们标记为异常点/噪声点

这时候我们提出几个点的名称定义:

  • 核心点:若点P的 ϵ \epsilon ϵ半径内至少包含 M i n P t s MinPts MinPts个样本(包括样本P),那么点P称核心点
  • 边界点:若点P在某个核心点P的半径范围内,但其半径范围内没有 M i n P t s MinPts MinPts个样本(包括样本P),则称为边界点
  • 噪声点:若点P既不属于核心点,也不属于边界点,则称该点位噪声点

根据点的分布情况,我们还可以给出几个概念:

  • 密度直达:一个点P1处在点P2的领域内,且P2为核心点,则称P1由P2密度直达
  • 密度可达:一个点P1处在点P2的领域内,且P1和P2均为核心点,则称P1的领域点由P2密度可达
  • 密度相连:如果P1和P2都不是核心点,且P1和P2都在一个簇内,则称P1和P2密度相连

DBSCAN算法特点

优点

  • 可以对任意形状的数据进行聚类,不需要指定分类的数量
  • 对异常点不敏感,可以找出独立的点
  • 聚类结果稳定,即算法选择哪个点都可以,最终聚类的结果一定是一致的

缺点

  • 样本数量较多时,时间消耗会变多,此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进
  • 如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差,这时用DBSCAN聚类一般不适合

DBSCAN参数选取技巧

ϵ \epsilon ϵ的选取:找突变点

给定一组点集P(P1、P2…Pn),计算P1到其他所有点的距离,从小到大排序,例如P1到其他点的距离为:

  1. 0.1
  2. 0.11
  3. 0.12
  4. 0.3
  5. 0.35

那么由此可看出,从0.12之后就是比较大的距离变动,因此可以选0.12作为距离阈值。当然实际的选取需要结合多个点集的距离结果

MinPts的选取

视业务情况而定,但一般从小的开始选取,但不要小过2,如果MinPts=1的情况,那么就找不到异常点了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/746329.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

构筑卓越:建筑企业如何通过GB/T 50430:2017认证铸就质量管理基石

在建筑业这片充满挑战和机遇的战场上,企业资质犹如一面旗帜,标志着企业的实力和信誉。GB/T 50430:2017《工程建设施工企业质量管理规范》的实施,成为了建筑企业提高管理水平、赢得市场竞争的重要武器。 GB/T 50430:2017的战略意义 GB/T 5043…

Pixea Plus for Mac:图像编辑的极致体验

Pixea Plus for Mac 是一款专为 Mac 用户设计的强大图像编辑软件。凭借其卓越的性能和丰富的功能,它为用户带来了前所未有的图像编辑体验。无论是专业的设计师,还是业余的摄影爱好者,Pixea Plus 都能满足您对于图像编辑的各种需求。 Pixea P…

Promise入门详解

文章目录 Promise 的介绍和优点(为什么需要 Promise?)Promise 的基本使用Promise 的状态和回调函数Promise 对象的 3 种状态 Promise 的回调函数Promise的状态图: new Promise() 是同步代码Promise 封装定时器Promise 封装 Ajax 请…

2024/06/24(11.1115)指针进阶

1.字符指针 2.数组指针 3.指针数组 4.数组传参和指针传参 5.函数指针 6.函数指针数组 7.指向函数指针数组的指针 8.回调函数 9.指针和数组一些题目的解析 字符指针 char* 我们用这种方法修改了*pch的内容从"A"变成了"a" 存储内容是什么一般指针就…

浏览器扩展V3开发系列之 chrome.storage 的用法和案例

【作者主页】:小鱼神1024 【擅长领域】:JS逆向、小程序逆向、AST还原、验证码突防、Python开发、浏览器插件开发、React前端开发、NestJS后端开发等等 chrome.storage 是用于存储、获取用户数据的 API。当我们需要持久化存储数据时,比如&…

无忧易售升级:一键设置图片分辨率,赋能十大跨境电商平台

在电商领域,产品图片的品质直接影响着顾客的购买决策与品牌形象的塑造。无忧易售ERP特推出图片分辨率修改功能,为电商卖家们提供更专业的图像优化工具,让每一像素都成为吸引客户的秘密武器! 一、Allegro、OZON、Coupang、Cdiscou…

低成本STC32G8K64驱动控制BLDC开源入门学习方案

低成本STC32G8K64驱动控制BLDC开源入门学习方案 ✨采用STC32G8K64单片机,参考梁工的STC32G12K128-LQFP48驱动方案制作,梁工BLDC相关的资料:https://www.stcaimcu.com/forum.php?modviewthread&tid7472&extrapage%3D1,在此…

如何编写时区源文件

0、背景 ① 修改TZ环境变量改变时区不能立即生效。要求设置时区后立即生效,只能用修改/etc/localtime方式。 ② 原文作者 Bill Seymour,想要查看原文,点击官网地址https://www.iana.org/time-zones下载 zic 源码,源码目录中的 tz…

[leetcode] smallest-k-lcci. 最小的k个数

. - 力扣&#xff08;LeetCode&#xff09; class Solution { public:vector<int> smallestK(vector<int>& nums, int k) {int L 0, R nums.size() - 1;while (L < R){int left L, right R;int key nums[left];while (left < right){while (left &l…

XX能源云数据平台建设项目_投标书_技术部分(194页word)

标书介绍&#xff1a; 该标书通过物联网技术&#xff0c;实时采集能源行业各类数据&#xff0c;并进行标准化整合。采用分布式存储技术&#xff0c;确保数据的安全性和可扩展性。运用大数据和人工智能技术&#xff0c;对数据进行深度分析和挖掘&#xff0c;提供有价值的业务洞…

鉴权开发框架Django REST framework的应用场景

目录 一、鉴权开发框架介绍二、Django REST framework是什么三、如何实现认证、权限与限流功能四、Django REST framework的应用场景 一、鉴权开发框架介绍 鉴权开发框架是一种用于实现身份验证和授权的软件开发工具。它可以帮助开发者快速构建安全、可靠的身份验证和授权系统…

AI大模型训练过程

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl 大模型训练概述 AI大模型训练是指在海量数据中&#xff0c;对拥有数百万至数千万参数及深层次神经网络结构的模型进行训练的过程。这类大模型因其庞大的参数规模和复杂的网…

利用LabVIEW和数字孪生技术实现PCB电路板测试

利用LabVIEW和数字孪生技术对PCB电路板进行测试&#xff0c;可以通过动画展示实现测试过程的生动、形象和直观。本文详细说明了如何结合LabVIEW与数字孪生技术进行PCB电路板的测试&#xff0c;包括系统架构、实现方法以及具体展示效果&#xff0c;适合对外展示。 在现代电子制造…

Redis安装与使用

目录 1、介绍 1、redis的特点: 2、缓存 2、安装Redis 1、安装单机版redis 2、redis-cli命令参数 3、清空数据库的两种方式和作用域&#xff1a; 4、redis的增删查改命令 5、redis的查看所有分类命令 6、redis过期时间与控制键的行为 7、redis的相关工具 1、介绍 r…

如何成为专业的 .NET 开发人员

如今&#xff0c;网上有大量信息&#xff0c;找到正确的信息并非易事。当你开始编程之旅并希望获得全面的指南时&#xff0c;最好寻找一个可以指导你完成整个过程的指南。 本文将帮助您制定一份路线图&#xff0c;告诉您什么是重要的以及什么是需要学习的. 一.一切从软件基础…

CSS|03 尺寸样式属性文本与字体属性

尺寸样式属性 height:元素高度height的值&#xff1a;auto 自动length 使用px定义高度% 基于包含它的块级对象的百分比高度 width&#xff1a;元素的宽度width的值与height一样span标签可以设置宽度、高度吗&#xff1f; 答&#xff1a;不可以&#xff0c;因为span标签是一个行…

机器人控制系列教程之动力学建模(1)

简介 机器人动力学是对机器人机构的力和运动之间关系与平衡进行研究的学科。机器人动力学是以机器人运动为基础&#xff0c;研究在运动过程中连杆与连杆之间、连杆与工件之间力或力矩等关系。 分类&#xff1a; 根据研究方向的不同&#xff0c;机器人的动力学分析也分为正、逆…

华为OD机试 - 掌握单词个数(Java 2024 D卷 100分)

华为OD机试 2024D卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;D卷C卷A卷B卷&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;每一题都有详细的答题思路、详细的代码注释、样例测…

一文搞懂Linux多线程【下】

目录 &#x1f6a9;多线程代码的健壮性 &#x1f6a9;多线程控制 &#x1f6a9;线程返回值问题 &#x1f6a9;关于Linux线程库 &#x1f6a9;对Linux线程简单的封装 在观看本博客之前&#xff0c;建议大家先看一文搞懂Linux多线程【上】由于上一篇博客篇幅太长&#xff0c;为…

任务5.1 初识Spark Streaming

实战概述&#xff1a;使用Spark Streaming进行词频统计 1. 项目背景与目标 背景: Spark Streaming是Apache Spark的流处理框架&#xff0c;用于构建可伸缩、高吞吐量的实时数据处理应用。目标: 实现一个实时词频统计系统&#xff0c;能够处理流式数据并统计文本中的单词出现频…