聚类分析例题 (多元统计分析期末复习)

例一

动态聚类,K-means法,随机选取凝聚点(题目直接给出)

已知5个样品的观测值为:1,4,5,7,11。试用K均值法分为两类(凝聚点分别取1,4与1,11)


解:以1,4为例
STEP1确定凝聚点:X1和X5
STEP2确定初始分类, G 1 ( 0 ) {G_1^{(0)}} G1(0)={x1,x2,x3}, G 2 ( 0 ) {G_2^{(0)}} G2(0)={x4,x5}
STEP3重新计算各类的重心,以其作为新的凝聚点,分别为3.3和9
STEP4 以新的重心为凝聚点重新修改分类,结果不变,故聚类结果为 G 1 {G_1} G1={x1,x2,x3}, G 2 {G_2} G2={x4,x5}

例二

动态聚类,K-means法,还是上面的例子,使用密度法选取凝聚点

已知5个样品的观测值为:1,4,5,7,11。试用K均值法分为三类


密度法:

  • 首先计算出每个样品的密度,密度即:以正数d为半价,样品为球心,落在球内的样品数;
  • 选择密度最大的样品作为第一凝聚点;
  • 人为确定一个正数D(一般D>d),若次大密度样品点与第一凝聚点距离大于D则作为第二个凝聚点,否则舍去,选取密度次于它的样品;

解:d=2,D=3.5

STEP1计算出每个样品的密度

x1x2x3x4x5
密度01210

因此第一凝聚点为x3,次大密度样品点位x2和x4,但它们与x3的距离小于D,故舍去,选取x1和x5作为第二凝聚点;

STEP2确定初始分类,除凝聚点之外的样品点按照最小距离原则确定它们的分类
G 1 ( 0 ) {G_1^{(0)}} G1(0)={x1}, G 2 ( 0 ) {G_2^{(0)}} G2(0)={x2,x3,x4}, G 3 ( 0 ) {G_3^{(0)}} G3(0)={x5}。

STEP3重新计算各类的重心,以其作为新的凝聚点
三类重心分别为:1,5.3,11
STEP4 重新确定各样品归属的类别:
G 1 ( 1 ) {G_1^{(1)}} G1(1)={x1}, G 2 ( 1 ) {G_2^{(1)}} G2(1)={x2,x3,x4}, G 3 ( 1 ) {G_3^{(1)}} G3(1)={x5}

若与上一次分类的结果不同,需要继续计算各类的重心,重新分类。可以看到这次的分类结果与上一次相同,因此算法终止,聚类结果为 G 1 {G_1} G1={x1}, G 2 {G_2} G2={x2,x3,x4}, G 3 {G_3} G3={x5}。

例三

[应用多元统计分析(高惠璇版)6-3]
系统聚类法——最长距离、类平均法
在这里插入图片描述


系统聚类法基本思想 :设有n个样品,每个样品m项指标。首先将n个样品视为n类,计算类间距离(此时类间距离与样品间距离是等价的),选取 距离最近 的两类合并成新类,并计算新类与其他类的距离,再按最小距离原则并类,每次合并一类直至所有样品都并成一类。

最长距离法

最长距离法和最短距离法的本质是一样的,计算类与类的距离时使用下面的公式:
在这里插入图片描述
STEP1从初始矩阵出发,选择类间距离最小的合并为一类,即并类距离 D 1 {D_1} D1=1
合并x1和x4,记CL4={x1,x4},画出距离矩阵 D ( 1 ) {D^{(1)}} D(1)
其他类 x i {x_i} xi(i=2、3、5)到CL4的距离为: x i {x_i} xi到x1的距离与 x i {x_i} xi到x4的距离中最大的那个
D ( 1 ) {D^{(1)}} D(1)= [ x 2 x 3 x 5 C L 4 x 2 0 x 3 9 0 x 5 3 5 0 C L 4 7 10 8 0 ] \begin{bmatrix} & x2 & x3 & x5& CL4 \\ x2 & 0 & \\ x3 & 9 & 0 \\ x5 & 3 & 5 &0 \\ CL4 & 7 & 10 &8 &0 \end{bmatrix} x2x3x5CL4x20937x30510x508CL40

STEP2同样选择类间距离最小的合并为一类,x2和x5的距离最近,并类距离 D 2 {D_2} D2=3
合并x2和x5,记CL3={x2,x5},画出距离矩阵 D ( 2 ) {D^{(2)}} D(2)
x3到CL4和CL3的距离计算和上面一样

D ( 2 ) {D^{(2)}} D(2)= [ x 3 C L 4 C L 3 x 3 0 C L 4 10 0 C L 3 9 8 0 ] \begin{bmatrix} & x3 & CL4 & CL3 \\ x3 & 0 & \\ CL4 & 10 & 0 \\ CL3 & 9 & 8 &0 \\ \end{bmatrix} x3CL4CL3x30109CL408CL30

STEP3选择类间距离最小的合并为一类,CL4和CL3的距离最近,并类距离 D 3 {D_3} D3=8
合并CL3和CL4,记CL2={x1,x2,x4,x5},画出距离矩阵 D ( 3 ) {D^{(3)}} D(3)

D ( 3 ) {D^{(3)}} D(3)= [ x 3 C L 2 x 3 0 C L 2 10 0 ] \begin{bmatrix} & x3 & CL2 \\ x3 & 0 & \\ CL2 & 10 & 0 \\ \end{bmatrix} x3CL2x3010CL20

STEP4将所有类合并为一类,CL1={x1,x2,x3,x4,x5},并类距离 D 4 {D_4} D4=10

D ( 4 ) {D^{(4)}} D(4)= [ C L 1 C L 1 0 ] \begin{bmatrix} & CL1 \\ CL1 & 0 & \\ \end{bmatrix} [CL1CL10]

STEP5画出谱系聚类图

在这里插入图片描述

类平均法

类平均法的类间距离计算公式如下
在这里插入图片描述
具体步骤和上面类似,不同的是在计算类间距离的不同。这里使用距离的平方。
STEP1从初始矩阵出发,选择类间距离最小的合并为一类,即并类距离 D 1 {D_1} D1=1
合并x1和x4,记CL4={x1,x4},画出距离矩阵 D ( 1 ) {D^{(1)}} D(1)
其他类 x i {x_i} xi(i=2、3、5)到CL4的距离为:
以x2到CL4的距离为例,其他的同理:
D 2 {D^2} D2= 1 2 {1 \over 2} 21 D 21 2 {D_{21}^2} D212+ 1 2 {1 \over 2} 21 D 24 2 {D_{24}^2} D242= 1 2 {1 \over 2} 21× 4²+ 1 2 {1 \over 2} 21× 7²=65/2

所以可以画出的距离矩阵为:
D ( 1 ) {D^{(1)}} D(1)= [ x 2 x 3 x 5 C L 4 x 2 0 x 3 9 2 0 x 5 3 2 5 2 0 C L 4 65 / 2 136 / 2 100 / 2 0 ] \begin{bmatrix} & x2 & x3 & x5& CL4 \\ x2 & 0 & \\ x3 & 9² & 0 \\ x5 & 3² & 5² &0 \\ CL4 & 65/2 & 136/2 &100/2 &0 \end{bmatrix} x2x3x5CL4x20923265/2x3052136/2x50100/2CL40

STEP2同样选择类间距离最小的合并为一类,x2和x5的距离最近,并类距离 D 2 {D_2} D2=3
合并x2和x5,记CL3={x2,x5},画出距离矩阵 D ( 2 ) {D^{(2)}} D(2)

CL4到CL3的距离计算如下:

D 2 {D^2} D2= 1 2 {1 \over 2} 21 D ( C L 4 ) 2 2 {D_{(CL4)2}^2} D(CL4)22+ 1 2 {1 \over 2} 21 D ( C L 4 ) 5 2 {D_{(CL4)5}^2} D(CL4)52= 1 2 {1 \over 2} 21× (65/2)+ 1 2 {1 \over 2} 21× (100/2)=165/4

D ( 2 ) {D^{(2)}} D(2)= [ x 3 C L 4 C L 3 x 3 0 C L 4 136 / 2 0 C L 3 106 / 2 165 / 4 0 ] \begin{bmatrix} & x3 & CL4 & CL3 \\ x3 & 0 & \\ CL4 & 136/2 & 0 \\ CL3 & 106/2 & 165/4 &0 \\ \end{bmatrix} x3CL4CL3x30136/2106/2CL40165/4CL30

STEP3选择类间距离最小的合并为一类,CL4和CL3的距离最近,并类距离 D 3 {D_3} D3= 165 / 4 \sqrt{165/4} 165/4
合并CL3和CL4,记CL2={x1,x2,x4,x5},画出距离矩阵 D ( 3 ) {D^{(3)}} D(3)

D ( 3 ) {D^{(3)}} D(3)= [ x 3 C L 2 x 3 0 C L 2 121 / 2 0 ] \begin{bmatrix} & x3 & CL2 \\ x3 & 0 & \\ CL2 & 121/2 & 0 \\ \end{bmatrix} x3CL2x30121/2CL20

STEP4将所有类合并为一类,CL1={x1,x2,x3,x4,x5},并类距离 D 4 {D_4} D4= 121 / 2 \sqrt{121/2} 121/2

D ( 4 ) {D^{(4)}} D(4)= [ C L 1 C L 1 0 ] \begin{bmatrix} & CL1 \\ CL1 & 0 & \\ \end{bmatrix} [CL1CL10]

STEP5画出谱系聚类图

在这里插入图片描述


(注:无论用什么系统聚类法,在并类时都是选择类间距离最小的两个类,使用最长距离法/类平均法/···的区别只是在计算类与类之间的距离时不同)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/201881.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript编程进阶 – Return语句

JavaScript编程进阶 – Return语句 JavaScript Programming Advanced – Return Statement By JacksonML 就像人们习惯的函数一样,总觉得在函数体最后需要一个return语句,标志着函数的结束,就像下面这个函数 theFunc() 那样。 function theFunc() { re…

【Openstack Train安装】八、placement安装

Placement 肩负着这样的历史使命,最早在 Newton 版本被引入到 openstack/nova repo,以 API 的形式进行孵化,所以也经常被称呼为 Placement API。它参与到 nova-scheduler 选择目标主机的调度流程中,负责跟踪记录 Resource Provide…

Vue diff 算法探秘:如何实现快速渲染

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

思维模型 达维多定律

本系列文章 主要是 分享 思维模型,涉及各个领域,重在提升认知。持续创新,引领市场潮流。 1 达维多定律的应用 1.1 达维多定律应用之吉列公司:不断创新的刀片领导者 吉列公司是一家以剃须刀片而闻名的公司。自 1901 年推出首款安…

高级IO—poll,epoll,reactor

高级IO—poll,epoll,reactor 文章目录 高级IO—poll,epoll,reactorpoll函数poll函数接口poll服务器 epollepoll的系统调用epoll_createepoll_ctlepoll_wait epoll的工作原理epoll的工作方式水平触发边缘触发 epoll服务器 reactor poll函数 poll函数是一个用于多路复用的系统调…

C++中的类型转换和异常

C类型转换 类型转换(cast) 是将一种数据类型转换成另一种数据类型。例如,如果将一个整型 值赋给一个浮点类型的变量,编译器会暗地里将其转换成浮点类型。 转换是非常有用的,但是它也会带来一些问题,比如在转换指针时&#xff0c…

【linux防火墙】iptables的四表五链以及实操应用

目录 一、防火墙的基本认识 浅提一下iptables 二、防火墙的分类 三、netfilter中的五个勾子函数和报文流向 四、netfilter/iptables的简介 五、iptables的原理讲解和四表五链 内核中数据包传输的过程: 六、iptables iptables的语法: 七、实操 七…

二.运算符

运算符 1.算术运算符2.比较运算符3.逻辑运算符 1.算术运算符 算数运算符主要用于数学运算,其可以连接运算符前后的两个数值或表达式,对数值或表达式进行 - * / 和 取模%运算 1.加减法运算符 mysql> SELECT 100,100 0,100 - 0,100 50,100 50 - …

RK3568平台开发系列讲解(Linux系统篇)通过OF函数获取设备树节点实验

** 🚀返回专栏总目录 文章目录 一、获取获取设备树节点二、驱动程序沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇将介绍通过OF函数获取设备树节点实验 一、获取获取设备树节点 在 Linux 内核源码中提供了一系列的 of 操作函数来帮助我们获取到设备树中编写的…

LLM面面观之Prefix LM vs Causal LM

1. 背景 关于Prefix LM和Causal LM的区别,本qiang在网上逛了一翻,发现多数客官只给出了结论,但对于懵懵的本qiang,结果仍是懵懵... 因此,消遣了多半天,从原理及出处,交出了Prefix LM和Causal …

01数仓平台 Hadoop介绍与安装

Hadoop概述 Hadoop 是数仓平台的核心组件。 在 Hadoop1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源调度,耦合性较大。在 Hadoop2.x 时代,增加了 Yarn。Yarn 只负责资源的调度,MapReduce 只负责运算。Hadoop3.x 在…

【已解决】游戏缺少xinput1_3.dll的详细解决方案与详情解析

在现代科技日新月异的时代,电脑已经成为我们生活和工作中不可或缺的工具。然而,由于各种原因,电脑可能会出现一些问题,其中之一就是xinput1_3.dll文件的缺失。本文将详细介绍xinput1_3.dll丢失对电脑的影响以及丢失的原因&#xf…

Web安全漏洞分析-XSS(下)

随着互联网的迅猛发展,Web应用的普及程度也愈发广泛。然而,随之而来的是各种安全威胁的不断涌现,其中最为常见而危险的之一就是跨站脚本攻击(Cross-Site Scripting,简称XSS)。XSS攻击一直以来都是Web安全领…

优化器原理——权重衰减(weight_decay)

优化器原理——权重衰减(weight_decay) weight_decay的作用 原理解析 实验观察 在深度学习中,优化器的 weight_decay 参数扮演着至关重要的角色。它主要用于实现正则化,以防止模型过拟合。过拟合是指模型在训练数据上表现优异&…

C++ 通过CryptoPP计算Hash值

Crypto (CryptoPP) 是一个用于密码学和加密的 C 库。它是一个开源项目,提供了大量的密码学算法和功能,包括对称加密、非对称加密、哈希函数、消息认证码 (MAC)、数字签名等。Crypto 的目标是提供高性能和可靠的密码学工具,以满足软件开发中对…

爬虫http代理有什么用处?怎么高效使用HTTP代理?

在进行网络爬虫工作时,我们有时会遇到一些限制,比如访问频率限制、IP被封等问题。这时,使用HTTP代理可以有效地解决这些问题,提高爬虫的工作效率。本文将介绍爬虫HTTP代理的用处以及如何高效地使用HTTP代理。 一、爬虫HTTP代理的用…

小航助学题库蓝桥杯题库c++选拔赛(23年8月)(含题库教师学生账号)

需要在线模拟训练的题库账号请点击 小航助学编程在线模拟试卷系统(含题库答题软件账号) 需要在线模拟训练的题库账号请点击 小航助学编程在线模拟试卷系统(含题库答题软件账号)

spring的事物

DataSourceTansactionManager Spring与JdbcTemplate或MyBatis框架集成时,提供的事务管理器. 事物的特性:原子性,一致性,隔离性,持久性 int TRANSACTION_READ_UNCOMMITTED 1; 未提交读 int TRANSACTION_READ_COMMITTED 2; …

App的测试,和传统软件测试有哪些区别?应该增加哪些方面的测试用例?

从上图可知,测试人员所测项目占比中,App测试占比是最高的。 这就意味着学习期间,我们要花最多的精力去学App的各类测试。也意味着我们找工作前,就得知道,App的测试点是什么,App功能我们得会测试&#xff0…

使用idea中的Live Templates自定义自动生成Spring所需的XML配置文件格式

文章目录 一、引言&问题描述二、解决方案 一、引言&问题描述 在使用Spring来管理对象时,我们需要创建Spring的配置文件applicationContext.xml,如下图位置: 在resources目录下选择new->File 或 使用idea自带模板new->XML Con…