【非监督学习 | 聚类】聚类算法类别大全 距离度量单位大全

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

聚类算法

聚类算法是一种无监督学习的机器学习算法,用于将数据集中的样本划分为具有相特征的组或簇。其目标划分的原则是组内(内部)距离最小化,而组间(外部)距离最大化。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消费模式或消费习惯。同时,聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤,如异常值识别、连续型特征离散化等。

以下是基于不同方法的算法类别表

算法类别包括的主要算法优缺点分析
划分(分裂)方法K-Means算法(K-平均),K-MEDOIDS算法(K-中心点)和CLARANS算法(基于选择的算法)。优点:简单且易于实现,对处理大数据集和高维数据具有良好的可扩展性。缺点:对初始聚类中心的选择敏感,可能收敛到局部最优解,对异常值和噪声敏感。
层次分析方法BIRCH算法(平衡迭代规约和聚类),CURE算法(代表点聚类)和CHAMELEON算法(动态模型)。优点:可以自动发现任意形状和大小的聚类,不需要预先指定聚类个数。缺点:对于大数据集,计算成本较高,可能受到噪声和异常点的干扰。
基于密度的方法DBSCAN算法(基于高密度连接区域),DENCLUE算法(密度分布函数)和OPTICS算法(对象排序识别)。优点:能够发现任意形状的聚类,对噪声和异常值具有较好的鲁棒性。缺点:对于高维数据和具有不同密度聚类的数据集效果较差,需要事先指定一些参数。
基于网格的方法STING算法(统计信息网络),CLIOUE算法(聚类高维空间)和WAVE-CLUSTER算法(小波变换)。优点:对于高维数据和大规模数据集有良好的可扩展性,能够处理不同形状和大小的聚类。缺点:对初始网格的选择敏感,可能受到数据分布的影响。

以下是常用的聚类算法,

聚类算法模型所需参数适用范围距离度量优缺点
K-means簇的数量数值型数据欧几里德距离优点:简单易实现,计算效率高;缺点:对初始聚类中心敏感,不适用于非凸形状的簇
层次聚类(Hierarchical Clustering)距离或相似度的度量方法数值型或类别型数据可选多种距离度量方法,如欧几里德距离、曼哈顿距离等优点:不需要预先指定簇的数量,可用于发现任意形状的簇;缺点:计算复杂度高,不适用于处理大规模数据
DBSCAN邻域半径(epsilon)和最小邻域样本数(min_samples)数值型或类别型数据基于密度的距离度量优点:能够发现任意形状的簇,对初始聚类中心不敏感;缺点:对参数的选择敏感,不适用于高维数据
密度聚类(Density-Based Clustering)邻域密度阈值数值型或类别型数据基于密度的距离度量优点:对噪声数据和离群点具有较好的鲁棒性;缺点:对参数的选择敏感
局部离群因子(Local Outlier Factor,LOF)邻域大小(k)数值型或类别型数据基于密度的距离度量优点:能够检测出离群点和数据集中的聚类结构;缺点:对数据集中的局部结构敏感
高斯混合模型(Gaussian Mixture Model,GMM)簇的数量数值型数据基于概率模型的距离度量优点:能够对数据进行软聚类,灵活性高;缺点:对初始聚类中心敏感,计算复杂度高

以下是常用的聚类中的距离度量算法及其介绍,以及相应的优缺点分析:

名称介绍优缺点分析
欧氏距离(Euclidean Distance)欧氏距离是最常用的距离度量算法之一,它衡量两个向量之间的直线距离。在欧氏空间中,两个向量的欧氏距离等于它们各个维度差值的平方和的开方。优点:简单直观,易于理解和计算。缺点:对异常值敏感,受维度灾难影响。
曼哈顿距离(Manhattan Distance)曼哈顿距离衡量两个向量之间沿坐标轴的总距离。在二维空间中,曼哈顿距离等于两个点横坐标差的绝对值加上纵坐标差的绝对值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
切比雪夫距离(Chebyshev Distance)切比雪夫距离是衡量两个向量之间的最大维度差值。在二维空间中,切比雪夫距离等于两个点横坐标差的最大绝对值和纵坐标差的最大绝对值中的较大值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
闵可夫斯基距离(Minkowski Distance)闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,它通过参数p来控制距离的计算方式。当p=1时,闵可夫斯基距离等同于曼哈顿距离;当p=2时,等同于欧氏距离。优点:灵活性强,可以根据需求选择不同的参数p。缺点:对于参数p的选择较为敏感。
马氏距离(Mahalanobis Distance)马氏距离考虑了数据集的协方差矩阵,通过将数据映射到一个空间中,使得在该空间中的欧氏距离与原始空间中的马氏距离等价。马氏距离可以解决特征之间的相关性和尺度不同的问题。优点:考虑了特征之间的相关性,适用于高维数据。缺点:需要估计协方差矩阵,计算复杂度较高。
皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关系数衡量两个向量之间的线性相关性。它的取值范围在-1到1之间,其中-1表示完全负相关,1表示完全正相关,0表示无相关性。优点:可以衡量线性相关性,不受尺度变换影响。缺点:只能衡量线性相关性,对于非线性关系不敏感。
余弦相似度(Cosine Similarity)余弦相似度衡量两个向量之间的夹角余弦。它通过计算两个向量的内积除以它们的模的乘积来衡量相似度。余弦相似度的取值范围在-1到1之间,其中1表示完全相似,-1表示完全相反,0表示无相似性。优点:对于稀疏向量计算高效,不受维度灾难影响。缺点:不考虑维度之间的差异。

其中大部分算法都可以通过sklearn 库进行实现.

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/191816.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Elastic Search的RestFul API入门:初识mapping

本节课旨在探讨Elasticsearch中Mapping的使用。在Elasticsearch中,Mapping是定义索引中字段(Field)的数据类型和属性的过程。它为Elasticsearch提供了一种途径,以解析和处理文档中的各个字段,以便在搜索、排序和聚合等…

kali系统复现环境:Vulfocus 提示服务器内部错误,请联系管理员的解决方法

Linux-kali系统复现环境:Vulfocus&&提示服务器内部错误,请练习管理员的解决方法 第一步: 先下载docker和docker-compose apt-get update apt-get install docker apt-get install docker-compose输入如下图命令,有版本…

【ceph】如何打印一个osd的op流程,排查osd在干什么

本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》:python零基础入门学习 《python运维脚本》: python运维脚本实践 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8…

2023年【通信安全员ABC证】考试题及通信安全员ABC证证考试

题库来源:安全生产模拟考试一点通公众号小程序 2023年【通信安全员ABC证】考试题及通信安全员ABC证证考试,包含通信安全员ABC证考试题答案和解析及通信安全员ABC证证考试练习。安全生产模拟考试一点通结合国家通信安全员ABC证考试最新大纲及通信安全员A…

免费分享一套基于springboot的餐饮美食分享平台系统,挺漂亮的

大家好,我是java1234_小锋老师,看到一个不错的基于springboot的餐饮美食分享平台系统,分享下哈。 项目视频演示 【免费】基于springboot的餐饮美食分享平台 Java毕业设计_哔哩哔哩_bilibili【免费】基于springboot的餐饮美食分享平台 Java毕…

BetaFlight模块设计之三十六:SoftSerial

BetaFlight模块设计之三十六:SoftSerial 1. 源由2. API接口2.1 openSoftSerial2.2 onSerialRxPinChange2.3 onSerialTimerOverflow2.4 processTxState2.5 processRxState 3. 辅助函数3.1 applyChangedBits3.2 extractAndStoreRxByte3.3 prepareForNextRxByte 4. 总结…

美食网站基本结构

代码&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title>美食网站首页</title> <link rel"stylesheet" href"https://cdn.staticfile.org/layui/2.5.6/css/layui.min.c…

基于OGG实现MySQL实时同步

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 哈喽&#xff01;大家好&#xff0c;我是【IT邦德】&#xff0c;江湖人称jeames007&#xff0c;10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】&#xff01;&#x1f61c;&am…

Linux常用命令——bc命令

在线Linux命令查询工具 bc 算术操作精密运算工具 补充说明 bc命令是一种支持任意精度的交互执行的计算器语言。bash内置了对整数四则运算的支持&#xff0c;但是并不支持浮点运算&#xff0c;而bc命令可以很方便的进行浮点运算&#xff0c;当然整数运算也不再话下。 语法 …

MATLAB中corrcoef函数用法

目录 语法 说明 示例 矩阵的随机列 两个随机变量 矩阵的 P 值 相关性边界 NaN 值 corrcoef函数的功能是返回数据的相关系数。 语法 R corrcoef(A) R corrcoef(A,B) [R,P] corrcoef(___) [R,P,RL,RU] corrcoef(___) ___ corrcoef(___,Name,Value) 说明 R corrc…

RH2288H V3服务器使用ISO安装系统

1.配置和服务器相同网段地址&#xff0c;RH2288H V3服务器bmc管理网口默认IP是192.168.2.100/24&#xff0c;默认用户root&#xff0c;默认Huawei12#$&#xff0c;网线连接BMC口&#xff0c;登录。默认密码可以在开机时按del键进入配置页面修改 2.配置raid&#xff0c;生产环境…

【Java+SQL Server】前后端连接小白教程

目录 &#x1f4cb; 流程总览 ⛳️【SQL Server】数据库操作 1. 新建数据库text 2. 新建表 3. 编辑表 ⛳️【IntelliJ IDEA】操作 1. 导入jar包 2. 运行显示错误 &#x1f4cb; 流程总览 ⛳️【SQL Server】数据库操作 打开SQL Server数据库-->sa登录-->新建数据库…

《Effective Modern C++》全书内容提炼总结

个人博客地址: https://cxx001.gitee.io 前言 C程序员都应该是对性能执着的人&#xff0c;想要彻底理解C11和C14&#xff0c;不可止步于熟悉它们引入的语言特性&#xff08;例如&#xff0c;auto型别推导、移动语义、lambda表达式&#xff0c;以及并发支持&#xff09;。挑战在…

geemap学习笔记014:加载本地的tif文件

前言 Colab中似乎没法直接加载云盘中的数据&#xff0c;但是可以先上传到GEE中的assets中&#xff0c;再加载本地的数据。下面是以这个数据为例进行展示。 1 上传数据 首先将本地的tif数据上传到Asset中&#xff0c;得到独一的Image ID。 2 加载数据 使用ee.Image加载数据 …

Redis Lua沙盒绕过 命令执行(CVE-2022-0543)漏洞复现

Redis Lua沙盒绕过 命令执行(CVE-2022-0543)漏洞复现 Redis如果在没有开启认证的情况下&#xff0c;可以导致任意用户在可以访问目标服务器的情况下未授权访问Redis以及读取Redis的数据。–那么这也就是redis未授权访问了 Redis的默认端口是6379 可以用空间测绘搜索&#xff…

group by

引入 日常开发中&#xff0c;我们经常会使用到group by。你是否知道group by的工作原理呢&#xff1f;group by和having有什么区别呢&#xff1f;group by的优化思路是怎样的呢&#xff1f;使用group by有哪些需要注意的问题呢&#xff1f; 使用group by的简单例子group by 工…

go当中的channel 无缓冲channel和缓冲channel的适用场景、结合select的使用

Channel Go channel就像Go并发模型中的“胶水”&#xff0c;它将诸多并发执行单元连接起来&#xff0c;或者正是因为有channel的存在&#xff0c;Go并发模型才能迸发出强大的表达能力。 无缓冲channel 无缓冲channel兼具通信和同步特性&#xff0c;在并发程序中应用颇为广泛。…

电脑投屏到电视的软件,Mac,Linux,Win均可使用

电脑投屏到电视的软件&#xff0c;Mac&#xff0c;Linux&#xff0c;Win均可使用 AirDroid Cast的TV版&#xff0c;可以上笔记本电脑或台式电脑直接投屏到各种安卓电视上。 无线投屏可以实现本地投屏及远程投屏&#xff0c;AirPlay协议可以实现本地投屏&#xff0c;大家可以按需…

1panel在应用商店里面安装jenkins

文章目录 目录 文章目录 前言 一、使用步骤 1.1 填写安装参数 1.2 在界面中进入容器拿到自动生成的jenkins密码 前言 一、使用步骤 1.1 填写安装参数 在应用商店里面搜索jenkins,然后点击安装 填写参数 1.2 在界面中进入容器拿到自动生成的jenkins密码 命令 cat /var/jenki…

【腾讯云 HAI域探秘】基于高性能应用服务器HAI部署的 ChatGLM2-6B模型,我开发了AI办公助手,公司行政小姐姐用了都说好!

目录 前言 一、腾讯云HAI介绍&#xff1a; 1、即插即用 轻松上手 2、横向对比 青出于蓝 3、多种高性能应用部署场景 二、腾讯云HAI一键部署并使用ChatGLM2-6B快速实现开发者所需的相关API服务 1、登录 高性能应用服务 HAI 控制台 2、点击 新建 选择 AI模型&#xff0c;…