【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——上

1.K-Means

假定我们对A、B、C、D四个样品分别测量两个变量,得到的结果见下表。

样品

变量

X1X2

A

5

3

B

-1

1

C

1

-2

D

-3

-2

利用K-Means方法将以上的样品聚成两类。为了实施均值法(K-Means)聚类,首先将这些样品随意分成两类(A、B)和(C、D)。请详细给出每次聚类的中心坐标,计算样品到中心坐标的欧氏平方距离

解:

        第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类(A、B)和(C、D),然后计算这两个聚类的中心坐标(见下表)。中心坐标是通过原始数据计算得来的。

聚类中心坐标一

聚类

中心坐标

X1X2

(A、B)

2

2

(C、D)

-1

-2

        第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离:

d²(A,(AB))=(5-2)²+(3-2)²=10

d²(A,(CD))= (5 + 1)²+ (3 + 2)²= 61

由于A到(4、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离

d²(B,(AB))=(-1-2)²+(1-2)²=10

d²(B,(CD))=(-1 + 1)²+(1 + 2)²=9

由于B到(4、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如下表所示。

 聚类中心坐标二

聚类

中心坐标

X1X2

(A)

5

3

(B、C、D)

-1

-1

        第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,结果如下表所示。

样本到中心的距离平方

聚类

样本到中心的距离平方

A

B

C

D

(A)

0

40

41

89

(B、C、D)

52

4

5

5

到现在为止,每个样品都已经分配给距离中心最近的类,聚类过程到此结束。最终得到K=2的聚类结果是4独自成一类,B、C、D聚成一类。

2.试分析回归与分类的区别。

输出结果

应用场景

分类

离散的类别标签

(有限个离散变量)

用于将事物或数据样本分配到一个或多个预定义的类别中,比如识别图片中的动物种类。分类的目标是构建一个模型,该模型能够基于输入的特征来预测数据样本所属的类别。

回归

连续的数值

(连续变量)

通常用于预测一个连续性的数值,比如预测股票价格。目标是找到一个函数,能够基于输入的特征来预测一个连续的数值。

3.基于正态分布的离群点检测

假设某城市过去10年中7月份的平均温度按递增序排列,结果为24℃、28.9℃、28.9℃、29℃、29.1℃、29.1℃、29.2℃、29.2℃、29.3℃和29.4℃。假定平均温度服从正态分布,由两个参数决定:均值和标准差。假设数据分布在这个区间(以平均标准差)之外,该数据对象即为离群点。

(1)利用最大似然估计求均值和标准差。

均值(μ)的估计:

其中 n=10,xi​ 是每个样本的温度值。

将给定的温度值代入公式,得到:
μ=(24+2×28.9+29+2×29.1+2×29.2+29.3+29.4)/10=28.61

标准差(σ)的估计:
由于样本数量 n=10,我们使用样本标准差的无偏估计:

将给定的温度值和计算得到的均值代入公式,得到标准差 s 的值。

s=sqrt([(24-28.61)^2+(28.9-28.61)^2+...+(29.4-28.61)^2]/9)约等于1.63

(2)寻找上述10个对象中的所有离群点。

根据题目,离群点定义为数据对象落在平均值加减一个标准差之外的值。即,离群点不在区间 

(μ^​−σ^,μ^​+σ^)=(28.61−1.63,28.61+1.63)=(26.98,30.24) 内。

由于 μ=28.61 和 s≈1.63,我们可以发现所有给定的温度值中24℃不在区间 (26.98,30.24) 内。

4.K均值与K中心点

K均值和K中心点算法都可以进行有效的聚类。
(1)概述K均值和K中心点的优缺点。

优点

缺点

K均值法

聚类时间短。当结果簇密集且簇间区别明显,效果较好。能对大数据集进行高效划分。

必须先指定聚类簇的个数。只适用于数值属性聚类,对噪声和异常数据很敏感,对于不同的初始值,结果可能不同。不适合发现非凸面形状的簇。

K中心点法

对于非凸数据集也能较好聚类效果,且对于噪声点影响比较小

算法效率相对K-均值法较低,还有可能出现簇中心点初始化不佳,导致聚类结果不埋想的情况。


(2)概述这两种方法与层次聚类方法相比较有何优缺点。

层次聚类方法(AGNES)是一种分层聚类的方法,将教据点分层次进行聚类,也就是在保留所有数据点的前提下,从最小单元开始进行聚类,然后逐步合并相近的类别,最后形成n个。

        优点是没有预先设定需要聚类的数量,能够处理复杂的数据结构,相对于K-均值、K-中心点更能反映出数据分布的全貌,尤其是在不平凡分布的数据上表现更加突出。
        缺点是AGNES算法计算量较大,在大规模数据集上效率较低,且聚类结果可能受到簇合并顺序的影响。

5.Apriori算法:通过限制候选产生发现频繁项集

数据表中有5个事物,设min_sup=60%,min_conf=80%,并有下表所示信息。

TID

购买的商品

T100

{M,O,N,K,E,Y}

T200

{D,O,N,K,E,Y}

T300

{M,A,K,E}

T400

{M,U,C,K,Y}

T500

{C,O,O,K,I,E}

请用Apriori算法找出频繁项集。

置信度(min_conf)是在找到频繁项集之后,用于生成关联规则时的一个参数,不用理会。

依题得min_sup=0.6*5=3,计算所有单项集的计数得到支持度计数大于等于3的频繁1-项集:

m    3
o    3
n    2
k    5
e    4
y    3
d    1
a    1
u    1
c    2
i    1

频繁 1- 顶集: M,O,K,E,Y

然后根据频繁1-项集,找出支持度技术大于等于3的频繁2-项集:

mo    1
mk    3
me    2
my    2
ok    3
oe    3
oy    2
ke    4
ky    3
ey    2

频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E}

再根据频繁2-项集,找出支持度技术大于等于3的频繁3-项集:

oke    3
key    2

频繁 3- 项集: {O,K,E}

故,用Apriori算法找出的频繁项集有频繁 1- 顶集: M,O,K,E,Y;  频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E};  频繁 3- 项集: {O,K,E}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/706403.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【代码随想录算法训练营第三十五天】 | 1005.K次取反后最大化的数组和 134.加油站 135.分发糖果

贪心章节的题目,做不出来看题解的时候,千万别有 “为什么这都没想到” 的感觉,想不出来是正常的,转变心态 “妙啊,又学到了新的思路” ,这样能避免消极的心态对做题效率的影响。 134. 加油站 按卡哥的思路…

A股上市公司MSCI ESG评级面板数据(2017-2023)

数据简介:MSCI ESG(Environmental, Social, and Governance)评级是由 MSCI Inc. 提供的一项服务,旨在评估公司在环境、社会和治理方面的表现。MSCI 是一家全球领先的投资研究和指数提供商,其 ESG 评级被广泛用于评估企…

基于51单片机的温控风扇-数码管显示-风扇人体感应

一.硬件方案 系统采用51单片机作为控制平台对风扇转速进行控制。可由用户设置高、低温度值,测得温度值在高低温度之间时打开风扇弱风档,当温度升高超过所设定的温度时自动切换到大风档,当温度小于所设定的温度时自动关闭风扇。风扇控制状态随…

【OceanBase DBA早下班系列】—— 性能问题如何 “拍CT“ (一键获取火焰图和扁鹊图)

1. 前言 最近接连遇到几个客户的环境在排查集群性能问题,总结了一下,直接教大家如何去获取火焰图、扁鹊图(调用关系图),直击要害,就像是内脏的疾病去医院看病,上来先照一个CT,通过分…

【linux-imx6ull-定时器与中断】

目录 1. 前言2. Linux软件定时器2.1 内核频率选择2.2 重要的API函数2.3 Linux软件定时器的使用配置流程 4. Linux中断4.1 简单中断使用4.1.1 简要说明4.1.2 重要的API函数4.1.3 中断的简要配置流程 4.2. 中断的上半部和下半部4.2.1 tasklet实现下半部4.2.2 work实现下半部 1. 前…

【第9章】“基础工作流”怎么用?(图生图/局部重绘/VAE/更多基础工作流)ComfyUI基础入门教程

🎁引言 学到这里,大家是不是会比较纠结,好像还在持续学习新的东西,未来还有多少基础的东西要学习,才能正常使用ComfyUI呢? 这其实需要转变一个心态。 AI绘画还处于一个快速迭代的过程,隔三岔五的就会有很多新技术、新模型出现,ComfyUI目前同样处于一个快速更新的阶…

汇聚荣科技有限公司在拼多多评价上好不好?

汇聚荣科技有限公司在拼多多平台的评价如何,这是很多消费者在选择购买该公司产品时会关心的问题。通过深入分析,我们可以从多个维度来探讨这一问题。 一、产品质量 对于任何公司而言,产品的质量是其生存和发展的根本。根据用户反馈和相关评价…

CATIA P3 V5-6R 中文版软件下载安装 达索CATIA三维设计软件获取

CATIA的建模和装配能力堪称业界翘楚。其强大的建模工具能够轻松应对各种复杂的几何形状和结构,帮助设计师们快速构建出精准的产品模型。同时,装配模块则能够实现零部件的快速装配,大大提高了设计效率。 在分析和仿真方面,CATIA同样…

荣耀正式发布Magic V Flip,打造全形态折叠屏矩阵

6月13日,荣耀Magic V Flip科技时尚大秀在上海举行。作为荣耀旗下首款小折叠手机,荣耀Magic V Flip的问世标志着荣耀完成折叠屏全体系的最终部署,成为少数集齐现有各类折叠屏手机形态的品牌之一。 荣耀从消费者需求出发,以AI和折叠…

设计模式——建造者模式(生成器模式)

建造者模式(生成器模式) 将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示的意图 用了建造者模式,那么用户就只需要指定需要构建的类型就可以得到它们,而具体构造的细节和过程不需要知道 概括地说,Bu…

智能宠物用品在美国需求旺盛,卖家需了解这些产品趋势

智能宠物用品在美国市场的需求确实旺盛,并且这一趋势在未来有望持续增长。这一趋势不仅反映了宠物主人们对于宠物关怀的日益加深,也展示了科技在日常生活中的广泛应用。 卖家在了解产品趋势时,需要关注以下四个方面: 一、智能宠物…

鲁教版八年级数学下册-笔记

文章目录 第六章 特殊平行四边形1 菱形的性质与判定2 矩形的性质与判定3 正方形的性质与判定 第七章 二次根式1 二次根式2 二次根式的性质3 二次根式的加减二次根式的乘除 第八章 一元二次方程1 一元二次方程2 用配方法解一元二次方程3 用公式法解一元二次方程4 用因式分解法解…

JDK8新特性【接口新特征、lambda语法、Supplier、Consumer、Function、Predicate】

目录 一、关于接口的新特性1.1 jdk1.8之前的接口重要特性1.2 JDK8以后代码演示 1.3 总结通过代码演示发现作用 二、Lambda表达式[重点]2.1 将匿名内部类写法改写为lambda写法2.2 语法特点能够写成lambda形式的的前提语法特征代码演示深入理解lambda 2.3 总结 三、函数式接口3.1…

FastAPI操作关系型数据库

FastAPI可以和任何数据库和任意样式的库配合使用,这里看一下使用SQLAlchemy的示例。下面的示例很容易的调整为PostgreSQL,MySQL,SQLite,Oracle等。当前示例中我们使用SQLite ORM对象关系映射 FastAPI可以与任何数据库在任何样式…

Vulnhub-DC-8

靶机IP:192.168.20.143 kaliIP:192.168.20.128 网络有问题的可以看下搭建Vulnhub靶机网络问题(获取不到IP) 信息收集 用nmap和wappalyzer收集下信息 发现是Drupal 7网站 dirsearch扫下目录 ┌──(root㉿kali)-[/home/kali/Desktop] └─# dirsearch -u http://192.168.20…

【Spring EL<二>✈️✈️ 】SL 表达式结合 AOP 注解实现鉴权

目录 🍻前言 🍸一、鉴权(Authorization) 🍺二、功能实现 2.1 环境准备 2.2 代码实现 2.3 测试接口 🍹三、测试功能 3.1 传递 admin 请求 ​ 3.2 传递普通 user 请求 🍻四、章末 &a…

eFuse电子保险丝,需要了解的技术干货来啦

热保险丝作为一种基本的电路保护器件,已经成功使用了150多年。热保险丝有效可靠、易用,具有各种不同的数值和版本,能够满足不同的设计目标。然而,对于寻求以极快的速度切断电流的设计人员来说,热保险丝不可避免的缺点就…

t265 jetpack 6 px4 ros2

Ubuntu22.04 realsenseSDK2和ROS2Wrapper安装方法,包含T265版本踩坑问题_ros2 realsense-CSDN博客 210 git clone https://github.com/IntelRealSense/librealsense.git 212 git branch 215 git tag 218 git checkout v2.51.1 219 git branch 265 git clone https://…

法考报名照片审核不通过?原因看过来

法考报名照片审核不通过?原因看过来👀

API工具--Apifox和Postman对比(区别)

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…