【统计分析数学模型】聚类分析: 系统聚类法

在这里插入图片描述

【统计分析数学模型】聚类分析: 系统聚类法

  • 一、聚类分析
    • 1. 基本原理
    • 2. 距离的度量
      • (1)变量的测量尺度
      • (2)距离
      • (3)R语言计算距离
  • 三、聚类方法
    • 1. 系统聚类法
    • 2. K均值法
  • 三、示例
    • 1. Q型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. Ward法系统聚类
        • B. K均值法
    • 2. R型聚类
      • (1)问题描述
      • (2)R语言求解
        • A. 转换为距离矩阵
        • B. 最长距离法


一、聚类分析

1. 基本原理

聚类分析(Cluster Analysis) 是研究“物以类聚”的一种方法,有时称为群分析、点群分析、簇类分析等。

聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。聚类分析是应用最广泛的分类技术,它把性质相近的个体归为一类,使同一类的个体具有高度的同质性。

聚类分析大部分都属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也可用于证实性目的,对于通过其他方法确定的数据分类,可以应用聚类分析进行检验。

  • 聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。
  • 聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。

2. 距离的度量

相似性度量包括:距离和相似系数.
样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系.

(1)变量的测量尺度

变量的测量尺度:间隔、有序和名义尺度.

  1. 间隔变量: 变量用连续的量来表示,如长度、重量、速度、温度等.
  2. 有序变量: 变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系.
  3. 名义变量: 变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等.

(2)距离

常用的距离包括:

  • 明考夫斯基(Minkowski)距离
  • 兰氏(Lance和Williams)距离
  • 马氏距离
  • 斜交空间距离

(3)R语言计算距离

dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 

其中参数含义:

参数含义
X数据矩阵
method距离计算方法包括"euclidean", "maximum“, “manhattan”, “canberra”, “binary” or “minkowski”
diag是否包含对角线元素
upper是否需要矩阵上三角
pMinkowski距离的幂次

示例:

X=c(1,2,6,8,11)
dist(X,diag=1,upper=1)

运行结果如下:

   1  2  3  4  5
1  0  1  5  7 10
2  1  0  4  6  9
3  5  4  0  2  5
4  7  6  2  0  3
5 10  9  5  3  0

三、聚类方法

1. 系统聚类法

hclust(d, method = “complete”,)
plot(x, labels = NULL, hang = 0.1, ...)

参数的含义如下:

参数含义
d由dist函数产生的相似矩阵
method聚类方法“single“(最短距离), ”complete“(最长距离), ”average” (类平均法), “median” (中间距离法), “centroid” (重心法), “ward.D” (ward法)
xhclust得出的聚类结果.
labels树形图标签

2. K均值法

kmeans(x, centers, iter.max = 10, nstart = 1, algorithm = c("Hartigan-Wong", "Lloyd", "Forgy", "MacQueen"), trace=FALSE)

参数的含义如下:

参数含义
x数据阵
centers聚类数或初始聚类点
iter.max最大迭代步数

三、示例

1. Q型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.3

数据包括1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据. 这八个变量是:

  • x1:食品
  • x2:衣着
  • x3:家庭设备用品及服务
  • x4:医疗保健
  • x5:交通和通讯
  • x6:娱乐教育文化服务
  • x7:居住
  • x8:杂项商品和服务

分别用最短距离法、重心法和Ward方法对各地区作聚类分析. 为同等地对待每一变量,在作聚类前,先对各变量作标准化变换.。

(2)R语言求解

A. Ward法系统聚类

代码如下:

d6.3.3=read.csv('examp6.3.3.csv',header=1)
d6.3.3s=scale(d6.3.3[,-1]) #标准化数据
rownames(d6.3.3s)=d6.3.3[,1]
hc=hclust(dist(d6.3.3s),'ward.D')  #使用Ward法系统聚类
plot(hc,hang=-1) #做出树形图
rect.hclust(hc,k=3) #作聚类框
cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示

在这里插入图片描述

> cutree(hc, k=3) #将聚成三类的结果分别以1, 2, 3表示
  北京   天津   河北   山西 内蒙古   辽宁   吉林 黑龙江   上海   江苏   浙江   安徽   福建 
     1      2      2      3      3      3      3      3      1      2      1      3      3 
  江西   山东   河南   湖北   湖南   广东   广西   海南   重庆   四川   贵州   云南   西藏 
     3      2      3      2      2      1      3      3      2      2      3      2      2 
  陕西   甘肃   青海   宁夏   新疆 
     3      3      3      3      2 
B. K均值法

运行代码:

kcl=kmeans(d6.3.3s,3)
sort(kcl$cluster) #对聚类结果进行排序
fviz_nbclust(d6.3.3s,kmeans,method='wss')

在这里插入图片描述

> sort(kcl$cluster) #对聚类结果进行排序
  天津   江苏   福建   山东   湖南   重庆   云南   西藏   北京   上海   浙江   广东   河北 
     1      1      1      1      1      1      1      1      2      2      2      2      3 
  山西 内蒙古   辽宁   吉林 黑龙江   安徽   江西   河南   湖北   广西   海南   四川   贵州 
     3      3      3      3      3      3      3      3      3      3      3      3      3 
  陕西   甘肃   青海   宁夏   新疆 
     3      3      3      3      3 

2. R型聚类

(1)问题描述

数据资料来源:《应用多元统计分析》(第五版,王学民 编著)配书资料 例6.3.7

对305名女中学生测量八个体型指标:

  • x1:身高
  • x2:手臂长
  • x3:上肢长
  • x4:下肢长
  • x5:体重
  • x6:颈围
  • x7:胸围
  • x8:胸宽

(2)R语言求解

代码如下:

A. 转换为距离矩阵
d6.3.7 = read.csv('examp6.3.7.csv',header=1)
d = as.dist(1-d6.3.7[,-1], diag=T) #转换为距离矩阵
> d
        身高 手臂长 上肢长 下肢长  体重  颈围  胸围  胸宽
身高   0.000                                             
手臂长 0.154  0.000                                      
上肢长 0.195  0.119  0.000                               
下肢长 0.141  0.174  0.199  0.000                        
体重   0.527  0.624  0.620  0.564 0.000                  
颈围   0.602  0.674  0.681  0.671 0.238 0.000            
胸围   0.699  0.723  0.763  0.673 0.270 0.417 0.000      
胸宽   0.618  0.585  0.655  0.635 0.371 0.423 0.461 0.000
B. 最长距离法
hc = hclust(d, "complete") #最长距离法
plot(hc, hang=-1) #树形图
rect.hclust(hc, k=2) #将聚成的两类用边框界定
cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示

在这里插入图片描述

> cutree(hc, k=2) #将聚成两类的结果分别以1, 2表示
  身高 手臂长 上肢长 下肢长   体重   颈围   胸围   胸宽 
     1      1      1      1      2      2      2      2 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/408565.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

udp服务器【Linux网络编程】

目录 一、UDP服务器 1、创建套接字 2、绑定套接字 3、运行 1)读取数据 2)发送数据 二、UDP客户端 创建套接字: 客户端不用手动bind 收发数据 处理消息和网络通信解耦 三、应用场景 1、服务端执行命令 2、Windows上的客户端 3…

GEE必须会教程—曾“几何”时(Geometry类型)

几何图形组成了世界万物,在数学史具有重要地位,将几何图形迁移到地理空间信息的处理上,我们我们得到就是研究区域的边界范围,因此,在学习矢量数据和栅格数据之前,我们有必要了解几何图形在GEE上的编辑。 1…

git最全总结

文章目录 Git 分布式版本控制工具内容1. 前言1.1 什么是Git1.2 使用Git能做什么 2. Git概述2.1 Git简介2.2 Git下载与安装 3. Git代码托管服务3.1 常用的Git代码托管服务3.2 码云代码托管服务3.2.1 注册码云账号3.2.2 登录码云3.2.3 创建远程仓库3.2.4 邀请其他用户成为仓库成员…

pikachu靶场-RCE

介绍: RCE(remote command/code execute)概述 RCE漏洞,可以让攻击者直接向后台服务器远程注入操作系统命令或者代码,从而控制后台系统。 远程系统命令执行 一般出现这种漏洞,是因为应用系统从设计上需要给用户提供指定的远程命…

Spring篇----第六篇

系列文章目录 文章目录 系列文章目录前言一、spring 支持集中 bean scope?二、spring bean 容器的生命周期是什么样的?三、什么是 spring 的内部 bean?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男…

基于springboot+vue的服装生产管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

2024022502-数据库绪论

数据库绪论 数据管理的三个阶段 人工管理阶段 文件系统阶段 数据库系统阶段 基本术语 数据(Data) 计算机用来描述事物的记录(文字.图形.图像.声音)数据的形式本身并不能完全表达其内容&am…

新付费进群源码-带分销分站源码程序(附搭建源码+安装建设教程)

付费进群源码是由程序员创建的计算机程序的基本组成部分,通常以函数、描述、定义、调用、方法和其他操作语句的形式编写。它被设计为人类可读的,并以开发人员和其他用户可以理解的方式格式化。 付费进群源码系统要求 硬件要求: 需要一台运行稳…

CSRF靶场实战

DVWA靶场链接&#xff1a;https://pan.baidu.com/s/1eUlPyB-gjiZwI0wsNW_Vkw?pwd0b52 提取码&#xff1a;0b52 DVWA Low 级别打开靶场&#xff0c;修改密码 复制上面的 url&#xff0c;写个简单的 html 文件 <html <body> <a hrefhttp://127.0.0.1/DVWA/vulne…

OSCP靶场--Slort

OSCP靶场–Slort 考点(1.php 远程文件包含 2.定时任务提权) 1.nmap扫描 ┌──(root㉿kali)-[~/Desktop] └─# nmap 192.168.178.53 -sV -sC -p- --min-rate 5000 Starting Nmap 7.92 ( https://nmap.org ) at 2024-02-24 04:37 EST Nmap scan report for 192.168.178.53 …

Open CASCADE学习|几何数据结构

在几何引擎内一般把数据分成两类&#xff1a;几何信息与拓扑信息。二者可以完整地表达出实体模型&#xff0c;彼此相互独立、又互相关联。几何信息是指构成几何实体的各几何元素在欧式空间中的位置、大小、尺寸和形状信息。例如一条空间的直线&#xff0c;可以用两端点的位置矢…

【Java程序设计】【C00262】基于Springboot的会员制医疗预约服务管理系统(有论文)

基于Springboot的会员制医疗预约服务管理系统&#xff08;有论文&#xff09; 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的会员制医疗预约服务管理信息系统&#xff0c;本系统分为三种角色&#xff1a;管理员、医生和会员&#xff1b; 在系统…

在Linux操作系统的ECS实例上安装Hive

目录 1. 完成hadoop安装配置2. 安装配置MySql安装配置 3. 安装Hive4. 配置元数据到MySQL5. hiveserver2服务配置文件测试 1. 完成hadoop安装配置 在Linux操作系统的ECS实例上安装hadoop 以上已安装并配置完jdk、hadoop也搭建了伪分布集群 2. 安装配置MySql 安装 下下一步…

c++之ini配置文件的详细解析

文章目录 ini文件概要代码实例分析小结 ini文件概要 ini文件是一种系统配置文件&#xff0c;它有特定的格式组成。通常做法&#xff0c;我们读取ini文件并按照ini格式进行解析即可。在c语言中&#xff0c;提供了模板类的功能&#xff0c;所以我们可以提供一个更通用的模板类来解…

【机器学习基础】一元线性回归(适合初学者的保姆级文章)

&#x1f680;个人主页&#xff1a;为梦而生~ 关注我一起学习吧&#xff01; &#x1f4a1;专栏&#xff1a;机器学习 欢迎订阅&#xff01;后面的内容会越来越有意思~ &#x1f4a1;往期推荐&#xff1a; 【机器学习基础】机器学习入门&#xff08;1&#xff09; 【机器学习基…

CSS 面试题汇总

CSS 面试题汇总 1. 介绍下 BFC 及其应 参考答案&#xff1a; 参考答案&#xff1a; 所谓 BFC&#xff0c;指的是一个独立的布局环境&#xff0c;BFC 内部的元素布局与外部互不影响。 触发 BFC 的方式有很多&#xff0c;常见的有&#xff1a; 设置浮动overflow 设置为 auto、scr…

【LNMP】云导航项目部署及环境搭建(复杂)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、项目介绍1.1项目环境架构LNMP1.2项目代码说明 二、项目环境搭建2.1 Nginx安装2.2 php安装2.3 nginx配置和php配置2.3.1 修改nginx文件2.3.2 修改vim /etc/p…

精品基于SpringBoot的体育馆场地预约赛事管理系统的设计与实现-选座

《[含文档PPT源码等]精品基于SpringBoot的体育馆管理系统的设计与实现[包运行成功]》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功&#xff01; 软件开发环境及开发工具&#xff1a; Java——涉及技术&#xff1a; 前端使用技术&#…

【尚硅谷】MybatisPlus 学习笔记(下)

目录 六、插件 6.1、分页插件 6.1.1、添加配置类 6.1.2、测试 6.2、xml自定义分页 6.2.1、UserMapper中定义接口方法 6.2.2、UserMapper.xml中编写SQL 6.2.3、测试 6.3、乐观锁 6.3.1、场景 6.3.2、乐观锁与悲观锁 6.3.3、模拟修改冲突 数据库中增加商品表 添加数…