利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972

   个人介绍: 研一|统计学|干货分享
         擅长Python、Matlab、R等主流编程软件
         累计十余项国家级比赛奖项,参与研究经费10w、40w级横向

文章目录

  • 1 研究目的
  • 2 数据背景
  • 3 案例演示
    • 3.1 读取数据
    • 3.2 按样本聚类
      • 3.2.1 最短距离法
      • 3.2.2 最长距离法
      • 3.2.3 中间距离法
      • 3.2.4 类平均法
      • 3.2.5 重心法
      • 3.2.6 离差平方和法
      • 3.2.7 K-means快速聚类法
      • 3.2.8 样本聚类总结
    • 3.3 按变量聚类
      • 3.3.1 最短距离法
      • 3.3.2 最长距离法绘制树状聚类图
      • 3.3.3 中间距离法
      • 3.3.4 类平均法
      • 3.3.5 重心法
      • 3.3.6 离差平方和法
      • 3.3.7 K-means快速聚类法
      • 3.3.8 变量聚类总结

1 研究目的

  对来源于Frank and Asuncion (2010)胎心宫缩监护(cardiotocography, CTG) 数据(CTG.xls)分别使用最短距离法、最长距离法、类平均法、重心法、离差平方和法(Ward.D、Ward.D2)、K-means法进行按样本聚类和按变量聚类。

2 数据背景

  胎心宫缩监护(cardiotocography, CTG) 数据(CTG.xls)。这组数据来源于Frank and Asuncion (2010)。该数据有2129 个观测值及23个变量,包含了致命心律(fetal heart rate, FHR)的各种度量以及基于监护记录的由专家分类的宫缩(uterine contraction, UC) 特征.这些变量的情况列示于下表. 表中最后三个分类变量的水平为:Tendency(FHR 直方图的趋势)有三个水平 (-1 = 左不对称, 0=对称, 1= 右不对称);CLASS(FHR 分类代码) 用1~10 表示从平静睡眠到可疑10种活动状况;NSP(胎儿状态分类代码) 有三个水平(1= 正常, 2= 疑似, 3= 病态)。删去3 个有不少缺失值的观测值, 形成新的数据文件ctg.naomit.csv。舍弃第23 个变量NSP, 用前面22个变量进行聚类分析。

  根据数据文件显示:NSP共有三个水平(1= 正常, 2= 疑似, 3= 病态),故本文聚类过程中共分为三类。

3 案例演示

3.1 读取数据

  运行程序:

data<-read.csv("G:\\ctg.naomit.csv")                 #数据读取
data1<-data[c(1:2126),c(1:22)]                                       #选取数据

3.2 按样本聚类

3.2.1 最短距离法

  运行程序:

library(MASS)                            #加载包
data2=scale(data1)                       #标准化
D=dist(data2)                            #计算距离
plot(hclust(D,"single"))                 #最短距离法绘制树状聚类图
hc=hclust(D,"single")                    #计算新类与当前各类距离
head(data.frame(hc$merge,hc$height))     #显示前六行数据

  运行结果:

##     X1   X2 hc.height
## 1  -68  -69         0
## 2 -230 -788         0
## 3 -234 -235         0
## 4 -305 -307         0
## 5 -324 -325         0
## 6 -327 -334         0

  运行程序:

rect.hclust(hclust(D,"single"),3)        #加三分类框

  运行结果:

图1 最短距离法树状聚类图

3.2.2 最长距离法

  运行程序:

hc=hclust(D,"complete")                  #计算新类与当前各类距离
head(data.frame(hc$merge,hc$height))     #显示前六行数据

  运行结果:

##     X1   X2 hc.height
## 1  -68  -69         0
## 2 -230 -788         0
## 3 -234 -235         0
## 4 -305 -307         0
## 5 -324 -325         0
## 6 -327 -334         0

  运行程序:

plot(hc)                                 #绘制树状聚类图
rect.hclust(hc,3)                        #加三分类框

  运行结果:

图2 最长距离法树状聚类图

3.2.3 中间距离法

  运行程序:

hc=hclust(D,"median")                    #计算新类与当前各类距离
head(data.frame(hc$merge,hc$height))     #显示前六行数据

  运行结果:

##     X1   X2 hc.height
## 1  -68  -69         0
## 2 -230 -788         0
## 3 -234 -235         0
## 4 -305 -307         0
## 5 -324 -325         0
## 6 -327 -334         0

  运行程序:

plot(hc)                                 #绘制树状聚类图
rect.hclust(hc,3)                        #加三分类框

  运行结果:

图3 中间距离法树状聚类图

3.2.4 类平均法

  运行程序:

hc=hclust(D,"average")                   #计算新类与当前各类距离
head(data.frame(hc$merge,hc$height))     #显示前六行数据

  运行结果:

##     X1   X2 hc.height
## 1  -68  -69         0
## 2 -230 -788         0
## 3 -234 -235         0
## 4 -305 -307         0
## 5 -324 -325         0
## 6 -327 -334         0

  运行程序:

plot(hc)                                 #绘制树状聚类图
rect.hclust(hc,3)                        #加三分类框

  运行结果:

图4 类平均法树状聚类图

3.2.5 重心法

  运行程序:

hc=hclust(D,"centroid")                  #计算新类与当前各类距离
head(data.frame(hc$merge,hc$height))     #显示前六行数据

  运行结果:

##     X1   X2 hc.height
## 1  -68  -69         0
## 2 -230 -788         0
## 3 -234 -235         0
## 4 -305 -307         0
## 5 -324 -325         0
## 6 -327 -334         0

  运行程序:

plot(hc)                                 #绘制树状聚类图
rect.hclust(hc,3)                        #加三分类框

  运行结果:

图5 重心法树状聚类图

3.2.6 离差平方和法

1.ward.D法

  运行程序:

plot(hclust(D,"ward.D"))                 #绘制树状聚类图
rect.hclust(hclust(D,"ward.D"),3)        #加三分类框

  运行结果:

图6 Ward.D法树状聚类图

2.ward.D2法

  运行程序:

plot(hclust(D,"ward.D2"))                #离差平方和
rect.hclust(hclust(D,"ward.D2"),3)       #加三分类框

  运行结果:

图7 Ward.D2法树状聚类图

3.2.7 K-means快速聚类法

  由于K-means聚类法不适用于分类属性变量的聚类,故选取前20个变量进行K-means聚类。

  运行程序:

km=kmeans(data2[,1:20],3)    
plot(data2,pch=km$cluster,col=km$cluster)

  运行结果:

图8 Kmeans法树状聚类图

3.2.8 样本聚类总结

  首先选取数据前22个变量的样本数据,为消除量纲的影响对数据进行标准化;再对样本分别进行最短距离、最长距离、中间距离、类平均、重心、离差平方和、Kmean法进行样本聚类,但由于样本量较大,导致数据显示结果较为混乱,从不同的系统聚类法中可以看出离差平方和法相较于其他系统聚类方法进行聚类结果分类更为明显。在K-mean快速聚类法中,由于K-mean聚类对分类属性的数据不适用,所以考虑去除变量Tendency、CLASS,然后进行K-mean快速聚类,将3类结果以不同颜色和形状呈现,具有较强观赏性。

3.3 按变量聚类

3.3.1 最短距离法

  运行程序:

d=data.frame(cor(data2))                   #计算各变量相似系数
D1=as.dist(d)                              #计算各变量距离     
hc1=hclust(D1,method = "single")           #最短距离法
plot(hc1)                          
rect.hclust(hc1,3)                         #加三分类框

  运行结果:

图9 最短距离法树状聚类图

3.3.2 最长距离法绘制树状聚类图

  运行程序:

hc1=hclust(D1,method = "complete")         #最长距离法
plot(hc1)                          
rect.hclust(hc1,3)                         #加三分类框

  运行结果:

图10 最长距离法树状聚类图

3.3.3 中间距离法

  运行程序:

hc1=hclust(D1,method = "median")           #中间距离法
plot(hc1)                          
rect.hclust(hc1,3)                         #加三分类框

  运行结果:

图11 中间距离法树状聚类图

3.3.4 类平均法

  运行程序:

hc1=hclust(D1,method = "average")          #类平均法
plot(hc1)                          
rect.hclust(hc1,3)                         #加三分类框

  运行结果:

图12 类平均法树状聚类图

3.3.5 重心法

  运行程序:

hc1=hclust(D1,method = "centroid")          #重心法
plot(hc1)                          
rect.hclust(hc1,3)                          #加三分类框

  运行结果:

图13 重心法树状聚类图

3.3.6 离差平方和法

1.ward.D法

  运行程序:

hc1=hclust(D1,method = "centroid")          #重心法
plot(hc1)                          
rect.hclust(hc1,3)                          #加三分类框

  运行结果:

图14 Ward.D法树状聚类图

2.ward.D2法

  运行程序:

hc1=hclust(D1,method = "ward.D2")          #Ward.D2法
plot(hc1)                          
rect.hclust(hc1,3)                         #加三分类框

  运行结果:

图15 Ward.D2法树状聚类图

3.3.7 K-means快速聚类法

  运行程序:

pm<-kmeans(d,3)                #分三类
pm$clusterkm=kmeans(data2[,1:20],3)    
plot(data2,pch=km$cluster,col=km$cluster)

  运行结果:

##       LB       AC       FM       UC       DL       DS       DP     ASTV 
##        3        2        1        2        2        1        2        1 
##     MSTV     ALTV     MLTV    Width      Min      Max     Nmax   Nzeros 
##        2        1        1        2        3        2        2        2 
##     Mode     Mean   Median Variance Tendency    CLASS 
##        3        3        3        2        1        1

3.3.8 变量聚类总结

  首先计算22个变量的相似系数并求出其相似聚类,分别利用最短距离、最长距离、中间距离、类平均、重心、离差平方和、Kmean法进行变量聚类,不同方法聚类结果如表1所示,结合图9—图15能较为直观地看出变量聚类情况。

表1 对变量聚类汇总结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/406475.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

mybatis中foreach批量插入并返回主键

背景 批量插入多条数据,插入成功之后每条数据中需要返回自增主键.处理办法 1.确定项目中mybatis版本,要求3.3.1以上. 查看springboot中项目版本方法: pom.xml中进入依赖(Ctrl点击进入): <dependency><groupId>org.mybatis.spring.boot</groupId><artifac…

性能优化——canvas 加载海量图

背景 公司的在线设计稿平台的画板列表页开发时由于数据量不足&#xff0c;未能测出关于画板列表页性能问题&#xff0c;在经过用户一段时间的使用后出现了关于初始化卡顿、缩放卡顿等问题&#xff0c;画板列表页采用了vue-konva 原因 关于画板列表为何卡顿有如下几点原因 1、…

C# 1.消息队列MQ使用场景--图文解析

为什么使用消息队列MQ&#xff08;Message Queue&#xff09;&#xff1f; 消息队列有什么优点和缺点&#xff1f; Kafka(大数据日志采集)、ActiveMQ(最早的MQ--目前使用较少)、RabbitMQ(开源&#xff0c;中小型企业使用足够)、RocketMQ(阿里开发&#xff0c;大型企业适用) 都…

【知识整理】Git Commit Message 规范

一. 概述 前面咱们整理过 Code Review 一文&#xff0c;提到了 Review 的重要性&#xff0c;已经同过gitlab进行CodeReview 的方式&#xff0c;那么本文详细说明一下对CodeReivew非常重要的Git Commit Message 规范。 我们在每次提交代码时&#xff0c;都需要编写 Commit Mes…

【计网】TCP的三次握手四次挥手

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a;JAVA ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 三次握手&#xff08;Connection Establishment&#xff09; 四次挥手&#xff08;Connection Termination&#xff09; 结语 我…

AI工具新革命:从ChatGPT到Sora,生成式AI改变世界

这个春节着实精彩&#xff0c;“春山学”吃透了&#xff0c;不如把目光移向OpenAI又一重磅产品——文生视频大模型Sora。智能新纪元已然开启&#xff0c;因为正如周鸿祎所说&#xff1a;“,Sora的诞生意味着AGI&#xff08;通用人工智能&#xff09;的实现将从10年缩短到1年。”…

二十五、二维直方图

项目功能实现&#xff1a;对一张彩色图像进行二维直方图绘制 二维直方图通常在HSV色域空间进行处理 按照之前的博文结构来&#xff0c;这里就不在赘述了 一、头文件 histogram_2d.h #pragma once#include<opencv2/opencv.hpp>using namespace cv;class HISTOGRAM2D { …

Dynamo批量将房间名称转换为模型文字

今天呢&#xff0c;我们简单聊聊如何把房间名称&#xff0c;变成模型文字&#xff0c;好在三维中能够看到房间名称。 本来吧&#xff0c;我觉得批量创建模型文字应该是个很简单的事&#xff0c;但是我在Dynamo中搜了下ModelText&#xff0c;发现只有一个在族环境中创建模型文字…

实习日志30

概要 高拍仪硬件通信原理&#xff0c;WebSocket源码解析&#xff08;JavaScript&#xff09; WebSocket 是 HTML5 开始提供的一种在单个 TCP 连接上进行全双工通讯的协议。 WebSocket 使得客户端和服务器之间的数据交换变得更加简单&#xff0c;允许服务端主动向客户端推送数据…

07 MyBatis之高级映射 + 懒加载(延迟加载)+缓存

1. 高级映射 例如有两张表, 分别为班级表和学生表 自然, 一个班级对应多个学生 像这种数据 , 应该如果如何映射到Java的实体类上呢? 这就是高级映射解决的问题 以班级和学生为例子 , 因为一个班级对应多个学生 , 因此学生表中必定有一个班级编号字段cid 但我们在学生的实体…

5G网络(接入网+承载网+核心网)

5G网络&#xff08;接入网承载网核心网&#xff09; 一、5G网络全网架构图 这张图分为左右两部分&#xff0c;右边为无线侧网络架构&#xff0c;左边为固定侧网络架构。 无线侧&#xff1a;手机或者集团客户通过基站接入到无线接入网&#xff0c;在接入网侧可以通过RTN或者IP…

【BUG】解决java.util.Date and java.lang.String

报错解析与解决方案&#xff1a;Java中处理Date类型与String比较引发的IllegalArgumentException 前言 在日常的开发过程中&#xff0c;我们可能会遇到各种类型转换和比较相关的异常。今天&#xff0c;我在调用接口时就遭遇了这样一个问题&#xff1a; 错误描述 在执行SQL查…

unity ui界面优化

优化一个比较复杂的界面&#xff0c;里面有多个rt和组件。 在初次打开这个界面的时候会发生1s多的卡顿&#xff0c;还是非常严重的。 分析 通过profiler分析 1.打开界面时卡顿。 分析&#xff1a;除了update和dotween相关逻辑&#xff0c;主要在于打开时的lua function调用…

《隐私计算简易速速上手小册》第7章:隐私计算与云计算/边缘计算(2024 最新版)

文章目录 7.1 云计算中的隐私保护7.1.1 基础知识7.1.2 主要案例&#xff1a;使用 Python 实现云数据的安全上传和访问7.1.3 拓展案例 1&#xff1a;实现基于角色的访问控制7.1.4 拓展案例 2&#xff1a;使用 Python 保护 API 安全 7.2 边缘计算的隐私问题7.2.1 基础知识7.2.2 主…

RisingWave最佳实践-利用Dynamic filters 和 Temporal filters 实现监控告警

心得的体会 刚过了年刚开工&#xff0c;闲暇之余调研了分布式SQL流处理数据库–RisingWave&#xff0c;本人是Flink&#xff08;包括FlinkSQL和Flink DataStream API&#xff09;的资深用户&#xff0c;但接触到RisingWave令我眼前一亮&#xff0c;并且拿我们生产上的监控告警…

面试经典150题 -- 二叉树搜索树 (总结)

总的链接 : https://leetcode.cn/studyplan/top-interview-150/ 二叉搜索树相关概念 : 二叉搜索树是一个有序树。 若它的左子树不空&#xff0c;则左子树上所有结点的值均小于它的根结点的值&#xff1b;若它的右子树不空&#xff0c;则右子树上所有结点的值均大于它的根结…

PyTorch概述(六)---View

Tensor.view(*shape)-->Tensor 返回一个新的张量同之前的张量具有相同的数据&#xff0c;但是具有不同的形状&#xff1b;返回的张量同之前的张量共享相同的数据&#xff0c;必须具有相同数目的元素&#xff0c;可能具有不同的形状&#xff1b;对于经过view操作的张量&…

【Java程序设计】【C00286】基于Springboot的生鲜交易系统(有论文)

基于Springboot的生鲜交易系统&#xff08;有论文&#xff09; 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的生鲜交易系统 本系统分为系统功能模块、管理员功能模块、用户功能模块以及商家功能模块。 系统功能模块&#xff1a;在系统首页可以…

[HTML]Web前端开发技术28(HTML5、CSS3、JavaScript )JavaScript基础——喵喵画网页

希望你开心&#xff0c;希望你健康&#xff0c;希望你幸福&#xff0c;希望你点赞&#xff01; 最后的最后&#xff0c;关注喵&#xff0c;关注喵&#xff0c;关注喵&#xff0c;佬佬会看到更多有趣的博客哦&#xff01;&#xff01;&#xff01; 喵喵喵&#xff0c;你对我真的…

Linux-基础知识(黑马学习笔记)

硬件和软件 我们所熟知的计算机是由&#xff1a;硬件和软件组成。 硬件&#xff1a;计算机系统中电子&#xff0c;机械和光电元件等组成的各种物理装置的总称。 软件&#xff1a;是用户和计算机硬件之间的接口和桥梁&#xff0c;用户通过软件与计算机进行交流。 而操作系统…