聚类与回归

聚类

聚类属于非监督式学习(无监督学习),往往不知道因变量。

通过观察学习,将数据分割成多个簇。

回归

回归属于监督式学习(有监督学习),知道因变量。

通过有标签样本的学习分类器

聚类和回归的区别

在数据分类过程中,我们可以直接知道回归对应的具体类别名,但是在聚类过程中,我们只能知道聚类对应的类别与xxx是同一种类别。

比如:我们在使用分类处理一些水果时,我们可以知道某一个水果具体是什么水果,但是聚类我们只能知道这个水果和其他的某些水果是同一种水果,但是我们却不能知道具体的水果类型名是什么。

聚类的基本方法有三大类:

划分方法(K均值、K-Means)

通过反复迭代,先随机分配均值点, 根据均值点形成聚簇,形成聚簇之后,再调整均值点。调整均值点后,再进一步反复进行迭代,最后找到我们相应的聚簇。

层次方法(层次聚类法)

凝聚的(agglomeration)和分裂的(divisive)层次聚类图示

层次聚类有两种方法,一种是自底向上的方法,这种方法称为凝聚法。另一种方法是自下而上的方法,该方法又称为划分的方法。

 凝聚法的过程:我们通过水来凝结成冰。首先根据数据进行相似性计算,把相似的数据形成一个簇,形成了各种小簇,进一步计算簇和簇之间的相似性,如果簇和簇之间的相似性更高,将他们合并形成更大的簇。从㡳向上凝聚,形成我们想要的一个聚簇的一个结束条件时,得到我们想要的一个聚簇(层次聚类的结束条件有很多方法,比如从㡳向上进行聚类时,当聚到第k个聚簇的时候,我们就停止迭代;另外一种,我们当进行迭代时,我们数据的相似性足够高,越往上走,聚簇和聚簇的相似性就会越来越低,当相似性的阈值低到一定程度时,就可以认为我的一个层次聚类停止,如此一来就得到了相应的聚簇,即为我们的层次聚类)

霍普金斯统计量

假如求出来的霍普金斯统计量数据接近1,这说明比较符合聚类的要求;若霍普金斯统计量接近0.5,则说明数据接近于均匀分布,不适合对其进行 均匀分布。

聚类的大致流程:

1、通过计算霍普金斯统计量判断数据质量,判断当前数据是否需要聚类

2、通过使用一些方法,如:肘方法。来计算我们需要聚簇的k的数量。

3、在了解了k的数量以后,使用相应的k均值,或者是层次聚类法进行聚类

4、聚类结束后,对聚类的结果进行评估,对于聚类的评估方法通常有两种方法,一种是外在方法,类似于分类,需要有一个基准,用来评价聚类结果的准确率;一种是内在方法,通过我们的轮廓系数,来评价聚类质量的好坏。轮廓系数越接近1,聚类的效果就越好;第三种,聚类中常见的四种特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/71693.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

R语言APSIM模型高级应用及批量模拟

随着数字农业和智慧农业的发展,基于过程的农业生产系统模型在模拟作物对气候变化的响应与适应、农田管理优化、作物品种和株型筛选、农田固碳和温室气体排放等领域扮演着越来越重要的作用。APSIM (Agricultural Production Systems sIMulator)模型是世界知名的作物生…

第一次PR经历

第一次PR测试地址:https://github.com/firstcontributions/first-contributions说明文档: https://github.com/firstcontributions/first-contributions/blob/main/translations/README.zh-cn.md

无涯教程-Perl - readpipe函数

描述 该函数将EXPR作为命令执行。然后,将输出作为标量文本中的多行字符串返回,或者将行作为列表context中的单个元素返回。 语法 以下是此函数的简单语法- readpipe EXPR返回值 此函数在标量context中返回String,在列表context中返回List。 例 以下是显示其基本用法的示…

python_面向对象基础_数据分析

主要目的 对于文本格式和JSON格式数据进行分析,将其中数据提炼出来绘制折线图。 主要实现步骤 1.设计一个完成对数据的封装 2.设计一个抽象类,定义数据读取相关功能,使用其子类实现具体功能 3.读取文件,生成数据对象 4.进行数据计算 5.绘制图表 定义数据封装类 &…

为什么金鸣识别不做成离线版?

来百度APP畅享高清图片 在众多的用户咨询中,金鸣识别客服常常会被用户问及为何不做成离线版的问题,下面我就在这里跟大伙说说其中的原因吧。 离线版的OCR准确率相对于网络版可能会较低,主要有以下几个原因: 1. 数据量和模型更新…

2023国赛数学建模B题思路分析

文章目录 0 赛题思路1 竞赛信息2 竞赛时间3 建模常见问题类型3.1 分类问题3.2 优化问题3.3 预测问题3.4 评价问题 4 建模资料 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 竞赛信息 全国大学生数学建模…

【Spring Cloud +Vue+UniApp】智慧建筑工地平台源码

智慧工地源码 、智慧工地云平台源码、 智慧建筑源码支持私有化部署,提供SaaS硬件设备运维全套服务。 前言:互联网建筑工地,是将互联网的理念和技术引入建筑工地,从施工现场源头抓起,最大程度的收集人员、安全、环境、材…

c++ static

static 成员 声明为static的类成员称为类的静态成员,用static修饰的成员变量,称之为静态成员变量;用 static修饰的成员函数,称之为静态成员函数。静态成员变量一定要在类外进行初始化。 看看下面代码体会一下: //其他类 class …

数据结构---跳表

目录标题 为什么会有跳表跳表的原理跳表的模拟实现准备工作find函数insert函数erase函数 测试效率比较 为什么会有跳表 在前面的学习过程中我们学习过链表这个容器,这个容器在头部和尾部插入数据的时间复杂度为O(1),但是该容器存在一个缺陷就是不管数据…

opencv 基础50-图像轮廓学习03-Hu矩函数介绍及示例-cv2.HuMoments()

什么是Hu 矩? Hu 矩(Hu Moments)是由计算机视觉领域的科学家Ming-Kuei Hu于1962年提出的一种图像特征描述方法。这些矩是用于描述图像形状和几何特征的不变特征,具有平移、旋转和尺度不变性,适用于图像识别、匹配和形状…

如何在 .NET Core WebApi 中处理 MultipartFormDataContent 中的文件

问题描述# 上图示例展示了用户通过 IOS 客户端发送请求时,对应后端接口接收到的 Request 内容。从请求内容的整体结果,我们可以看出这是一个 multipart/form-data 的数据格式,由于这种数据是由多个 multipart section 组成,所以我…

uniapp input输入框placeholder文本右对齐

input输入框placeholder文本右对齐 给input标签加上placeholder-class,这个是给placeholder设置样式,右对齐这就是text-align:right;字体颜色之类依次编辑即可。

8.13树的总结(有新知识再更新)

二叉树题目几个重点: 1. 理解递归,优先掌握递归实现 递归三部曲:1.确定递归函数的参数和返回类型;2.确定终止条件 ;3.确定递归逻辑 因为递归一层一层对我来说有点绕,主要感悟就是只针对某一个节点思考&…

arcgis更改图层字段名脚本

话不多说,上脚本源码,复制黏贴即可 #-*- coding:utf-8 -*- __author__ lumen import arcpy #输入图层 InputFeature arcpy.GetParameterAsText(0) #原始字段 oldField arcpy.GetParameterAsText(1) # 获取原始字段类型 oldFieldType desc arcpy.…

elasticsearch 基础

ES 搜索技术历史 今天看的是《Elasticsearch实战与原理解析》 第一章 搜索技术发展史 1、搜索技术发展史 宏观而言,搜索引擎的发展经历了五个尖端和两大分类。五个阶段分别是ftp文件检索阶段、分类目录阶段、文本相关性检索阶段、网页链接分析阶段和用户意图识别…

汽车上的电源模式详解

① 一般根据钥匙孔开关的位置来确定整车用电类别,汽车上电源可以分为常电,IG电,ACC电 1)常电。常电表示蓄电池和发电机输出直接供电,即使点火开关在OFF档时,也有电量供应。一般来讲模块的记忆电源及需要在车…

Maven工程的安装配置及搭建(集成eclipse完成案例,保姆级教学)

目录 一.下载及安装及环境配置 1.下载及安装 2.环境变量的配置 3.检测是否安装成功 4.配置Maven 1.更换本地仓库 2. 配置镜像 二.集成eclipse完成案例 1.eclipse前期配置Maven 2.创建Maven工程 一.下载及安装及环境配置 1.下载及安装 下载地址:Maven – Down…

【算法|数组】手撕经典二分法

算法|数组——二分查找 文章目录 算法|数组——二分查找引言二分查找左闭右闭写法左闭右开写法 总结 引言 首先学习这个算法之前需要了解数组知识:数组。 大概介绍以下: 数组是存储在连续内存空间上的相同类型数据的集合。数组下标都是从0开始。数组在…

网络编程(JavaEE初阶系列10)

目录 前言: 1.网络编程的基础 1.1为什么需要网络编程 1.2什么是网络编程 1.3网络编程中的基本概念 1.3.1发送端和接收端 1.3.2请求和响应 1.3.3客户端和服务端 2.Socket套接字 2.1概念 2.2分类 3.UDP数据报套接字编程 3.1DataGramSocket API 3.2Datagr…

VR全景乡村旅游浇灭乡愁,近距离体验自然之美

说起乡愁,可能每位漂泊的游子都有所感受,在外漂泊数十载,每到佳节倍思亲,家乡的一草一木都浮现在脑海中,满载着儿时的回忆。为了留住那抹儿时回忆,VR全景助力数字化乡村建设。 乡村振兴是国家的重大战略&am…