阅读笔记-A Cluster Separation Measure

A Cluster Separation Measure(一种聚类分离测度

1.这篇论文要解决什么问题?要验证一个什么科学假设?

问题是确定数据中聚类的适当数量,解决这种问题的两种方法都取决于确定指数中相对较大的变化,而不是指数的最小化或最大化,因此,一般来说,需要人为解释和主观分析什么是参数中的“较大变化”。

两种方法:一种常用的技术依赖于针对多个簇绘制优化参数,并选择参数值发生较大变化的簇数作为最佳值。

第二种方法是分层的等级技术通常寻求组间融合的大变化。

2.这篇论文有哪些相关研究,这些研究是怎么分类的?有哪些研究员值得关注?

3、论文中提到的解决方案是什么,关键点在哪儿?提出了一种度量,它表示假设具有数据密度的聚类的相似性,该数据密度是距离聚类的向量特征的递减函数。该度量可用于推断数据分区的适当性,因此可用于比较数据的各种划分的相对适当性。该措施既不依赖于分析的聚类数,也不依赖于数据分区的方法,并且可以用于指导聚类搜索算法。提出了一个新的聚类参数该参数的最小化似乎表明数据集的自然分区

这个定义中,aki是向量ai的第k个分量,而ai是第i个聚类的质心。简单来说,质心是一个聚类中所有数据点的平均值向量。

举个例子来说明:假设我们有一个二维数据集,包含以下数据点:

(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)

现在我们将这些数据点分为两个聚类,第一个聚类包含前三个数据点,第二个聚类包含后两个数据点。

对于第一个聚类的质心,我们计算每个维度的平均值,即(1+3+5)/3 = 3和(2+4+6)/3 = 4。所以第一个聚类的质心是(3, 4)。

对于第二个聚类的质心,我们计算每个维度的平均值,即(7+9)/2 = 8和(8+10)/2 = 9。所以第二个聚类的质心是(8, 9)。

在这个例子中,aki表示第i个聚类的质心向量ai的第k个分量。

R的意义在于,它是每个聚类与其最相似聚类的相似性度量的系统范围平均值。因此,聚类的“最佳”选择将是使这种平均相似性最小化的聚类。

当p = 2时,Mij是质心之间的欧几里得距离如果q = 1,则Si成为聚类i中的向量到聚类i的质心的平均欧几里得距离。如果q = 2,则Si是聚类中的样本到相应聚类中心的距离的标准偏差。如果p = q = 2,则Rij是为聚类i和j计算的经典Fisher相似性度量的倒数。

4、论文中的实验是如何设计的?各个实验分别得到了什么结论?

图2(a)示出了改编自Ball和Hall的集群系统测试集的225个点的数据集。图2(b)的相关曲线图示出了对于q = 0.5、1.0、2.0和p = 2.0的最小20个K值的k的性能。如图2(b)所示,当K = 8时,R最小,当K = 9时,R值大约大10%。

图3(a)和3(b)显示了130个点的数据集及其相关的R图。对应于R的四个局部最小值的分区在图3(c)中指示。在K = 3、6、10和13处,R的局部最小值近似相等,这是由于13个小簇中的每一个的密度大致相等,而它们在大簇中的间隔近似相等。聚类分离度量表明相邻的小聚类与大聚类具有大致相同的相似性。

图4中110个数据点和相关的k图显示在图4(a)和图4(B),其中三个组分区被选择为最佳,由虚线指示。随后对分配给第三组的那些点进行分析。图4(c)中示出了相关的R曲线图,而图4(a)中的细虚线示出了指示为最佳的分离。值得注意的是,图4(c)中的最小R高于图4(b)中的最小R。如果不是这种情况,图4(a)中的聚类3将在全局数据集的最佳划分中被细分

图5中R是针对Fisher在一系列统计检验中使用的四维鸢尾数据计算的。四个测量的每一个50名成员的三个品种的花鸢尾Setosa,鸢尾Versicolor,和鸢尾Virginica。已知Iris Setosa可线性分离,其他两个鸢尾Virginica和鸢尾Versicolor有相当大的重叠。如图5所示,选择K = 2作为数据的最佳划分,而在K = 9和K = 17处发现R的局部最小值。

5、这篇论文到底有什么贡献?(三句话内说明)新在什么地方?

聚类分析通常是数据分析的第一步要求用户向分析系统提供参数值,例如最小可接受的聚类距离或最小可接受的标准偏差, “所有聚类算法的一个共同缺点是它们的性能高度依赖于用户设置的各种参数。事实上,“适当”的设置通常只能通过试验和错误的方法来确定。如果将其纳入聚类搜索算法中,这里提出的度量基本上克服了这一困难,因为它只需要用户指定p和q指数,这相当于只需要用户指定要使用的距离和分散度量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/266487.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

将PPT的图保持高分辨率导入到Word / WPS中

1、将PPT中画好的图组合在一起,选择组合后的图复制(Ctrlc) 2、在Word中,选中左上角的粘贴选项--->选择性粘贴 WPS选择元文件 / Word选择增强型图元文件 这样放大也不模糊了

Gateway API

Gateway API 目录 原文链接 https://onedayxyy.cn/docs/GatewayAPI 本节实战 实战名称🚩 实战:Gateway API在istio里的安装及测试-2023.12.23(测试失败) 前言 Gateway API 是由 SIG-NETWORK 社区管理的开源项目,项目地址:http…

【一起学Rust | 框架篇 | Tauri2.0框架】Tauri2.0环境搭建与项目创建

文章目录 前言一、搭建 Tauri 2.0 开发环境二、创建 Tauri 2.0 项目1.创建项目2.安装依赖4. 编译运行 三、设置开发环境四、项目结构 前言 Tauri在Rust圈内成名已久,凭借Rust的可靠性,使用系统原生的Webview构建更小的App 以及开发人员可以灵活的使用各…

阿里云 ARMS 应用监控重磅支持 Java 21

作者:牧思 & 山猎 前言 今年的 9 月 19 日,作为最新的 LTS (Long Term Support) Java 版本,Java 21 正式 GA,带来了不少重量级的更新,详情请参考 The Arrival of Java 21 [ 1] 。虽然目前 Java 11 和 Java 17 都…

AI创作系统ChatGPT系统源码,支持Midjourney绘画,GPT语音对话+DALL-E3文生图

一、前言 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作Ch…

【RabbitMQ】RabbitMQ详解(一)

RabbitMQ详解 RabbitMQ介绍四大核心概念RabbitMQ 入门案例Hello RabbitMQ生产者消费者 Work Queues轮询消费 RabbitMQ消息应答与发布自动应答手动应答的方法肯定确认应答否定确认应答拒绝处理该消息恢复到消息队列Multiple的解释消息重新入队手动应答案例 RabbitMQ持久化队列持…

面向对象设计与分析40讲(12)简单工厂方法模式

文章目录 定义示例优缺点 定义 简单工厂模式是一种创建型模式,用于根据客户端的需求创建对象实例,所谓的需求反映到编程语言里就是传入的参数。 简单工厂模式包括三个主要部分: 工厂类(Simple Factory):…

python dash学习2

代码 内有说明: from dash import Dash, html, dcc, callback, Output, Input import plotly.express as px import pandas as pd# 从 Plotly 数据集中读取数据 df pd.read_csv(https://raw.githubusercontent.com/plotly/datasets/master/gapminder_unfiltered.c…

STM32实现流水灯

led.c #include"led.h"void Led_Init(void) {GPIO_InitTypeDef GPIO_VALUE; //???RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOC,ENABLE);//???GPIO_VALUE.GPIO_ModeGPIO_Mode_Out_PP;//???? ????GPIO_VALUE.GPIO_PinGPIO_Pin_1|GPIO_Pin_2|GPIO_Pin_…

Golang 链表的基础知识

文章目录 链表链表基础知识部分链表的存储方式链表的定义链表的操作性能分析 链表 更多有关于go链表的内容可以见这篇文章链表的创建和读取 链表基础知识部分 什么是链表,链表是一种通过指针串联在一起的线性结构,每一个节点由两部分组成,…

图解LRU缓存

图解LRU缓存 OJ链接 介绍 LRU 缓存机制可以通过哈希表辅以双向链表实现,我们用一个哈希表和一个双向链表维护所有在缓存中的键值对。 双向链表按照被使用的顺序存储了这些键值对,靠近尾部的键值对是最近使用的,而靠近头部的键值对是最久未…

论文润色的原理是什么 PaperBERT

大家好,今天来聊聊论文润色的原理是什么,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:论文润色的原理――探究论文润色背后的科学依据 一、…

nodejs+vue+ElementUi洗衣店订单管理系统4691l

衣服但是找订单的时间太长,体验非常的差。而且对于店家这也很头疼,麻烦的查找订单的方式,让他总是重复着繁琐的步骤,记录的时候也很容易出问题,容易把衣服弄错,再然后就是对于收来的衣服也很麻烦&#xff0…

HarmonyOS构建第一个ArkTS应用(FA模型)

构建第一个ArkTS应用(FA模型) 创建ArkTS工程 若首次打开DevEco Studio,请点击Create Project创建工程。如果已经打开了一个工程,请在菜单栏选择File > New > Create Project来创建一个新工程。 选择Application应用开发&a…

P4 音频知识点——PCM音频原始数据

目录 前言 01 PCM音频原始数据 1.1 频率 1.2 振幅: 1.3 比特率 1.4 采样 1.5 量化 1.6 编码 02. PCM数据有以下重要的参数: 采样率: 采集深度 通道数 ​​​​​​​ PCM比特率 ​​​​​​​ PCM文件大小计算: ​…

如何利用PPT绘图并导出清晰图片

在写论文的过程中,免不了需要绘图,但是visio等软件绘图没有在ppt上绘图比较熟练,尤其流程图结构图. 但是ppt导出的图片也不够清晰,默认分辨率是96dpi,而杂志投稿一般要求至300dpi。解决办法如下: 1.打开注…

神经网络:机器学习基础

【一】什么是模型的偏差和方差? 误差(Error) 偏差(Bias) 方差(Variance) 噪声(Noise),一般地,我们把机器学习模型的预测输出与样本的真实label…

Python自动化办公,又双叒增加功能了!

大家好,这里是程序员晚枫,今天给大家分享一下Python自动化办公,最近更新的功能。 以下代码,全部都可以免费使用哦~! 彩色的输出 有没有觉得python自带的无色输出看腻了?增加了彩色输出的功能,可以实现无痛替换。 上面效果的实现代码如下,👇 自动收发邮件 这个12月发…

采用SpringBoot框架+原生HTML、JS前后端分离模式开发和部署的电子病历编辑器源码(电子病历评级4级)

概述: 电子病历是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录,是病历的一种记录形式。 医院通过电子病历以电子化方式记录患者就诊的信息,包括&…

Flink 数据序列化

为 Flink 量身定制的序列化框架 大家都知道现在大数据生态非常火,大多数技术组件都是运行在JVM上的,Flink也是运行在JVM上,基于JVM的数据分析引擎都需要将大量的数据存储在内存中,这就不得不面临JVM的一些问题,比如Ja…