数据挖掘(一)数据类型与统计

前言

打算新开一个笔记系列,基于国防科技大学 丁兆云老师的《数据挖掘》
数据挖掘

1、数据类型与统计

在这里插入图片描述

数据统计

最大值,最小值,平均值,中位数,位数,方差等统计指标

df.describe() 
#当调用df.describe()时,它会计算DataFrame中数值列的统计指标,并返回一个包含以下统计信息的新DataFrame:

    计数(count):每列非缺失值的数量。
    平均值(mean):每列的平均值。
    标准差(std):每列的标准差。
    最小值(min):每列的最小值。
    四分位数(25%50%75%):每列的第25%,第50%,和第75%的百分位数。
    最大值(max):每列的最大值。

异常值可视化分析

箱线图、直方图、散点图

箱线图(Box Plot)、直方图(Histogram)和散点图(Scatter Plot)是常用的数据可视化工具,可以用于异常值检测。

  1. 箱线图:箱线图通过展示数据的分布情况来检测异常值。它将数据分为四分位数,并根据四分位数的范围绘制一个箱体,箱体中的中位数标记为一条线。在箱体上方和下方绘制了称为"whiskers"的线段,用于表示数据的分布范围。超出"whiskers"范围的点被认为是异常值。因此,箱线图可以通过观察超出箱体范围的点来检测异常值。
  2. 直方图:直方图可以显示数据的分布情况。它将数据划分为一系列的区间(称为"bin"),并计算每个区间中数据点的数量。直方图可以帮助我们观察数据是否呈现正态分布或偏态分布。异常值通常在直方图中表现为与主要数据分布不一致的极端值。
  3. 散点图:散点图可以展示两个变量之间的关系。通过绘制数据点的坐标,我们可以观察数据的分布模式。在散点图中,异常值通常是与其他数据点明显分离的点,远离其他数据点的位置。另外还可以用来观察相关性分布

在这里插入图片描述

数据相似性

在这里插入图片描述

二值属性

对于二值属性(Binary Attribute),可以使用以下方法进行邻近度(Proximity)测量:

  1. 汉明距离(Hamming Distance):汉明距离是衡量两个等长字符串之间的差异的度量。对于二值属性,可以将其表示为由0和1组成的字符串。汉明距离是指在相同位置上不同的位数。例如,对于属性A和属性B,A的取值为[0, 1, 1, 0],B的取值为[1, 0, 1, 1],它们之间的汉明距离为2,因为有两个位置上的值不同。
  2. 杰卡德相似系数(Jaccard Similarity Coefficient):杰卡德相似系数用于衡量两个集合的相似性。对于二值属性,可以将其视为集合,其中1表示属性存在,0表示属性不存在。杰卡德相似系数定义为两个属性同时存在的比例除以两个属性中任何一个存在的比例。例如,对于属性A和属性B,A的取值为[0, 1, 1, 0],B的取值为[1, 0, 1, 1],通过计算它们的交集数量和并集数量,杰卡德相似系数为0.33。
  3. 包含关系(Containment):对于二值属性,可以检查两个属性之间的包含关系。如果一个属性的取值完全包含在另一个属性的取值中,那么它们的包含关系为真。例如,属性A的取值为[0, 1, 0, 1],属性B的取值为[0, 1, 0, 1, 1],属性A包含于属性B。

数值属性

对于数值属性(Numeric Attribute),可以使用以下方法进行邻近度(Proximity)测量:

  1. 欧氏距离(Euclidean Distance):欧氏距离是最常用的距离度量方法,用于衡量数值属性之间的差异。对于两个数值属性,欧氏距离定义为它们在每个维度上差值的平方和的平方根。例如,对于属性A和属性B,它们的取值分别为a和b,则欧氏距离为√((a₁ - b₁)² + (a₂ - b₂)² + … + (aₙ - bₙ)²)。
  2. 曼哈顿距离(Manhattan Distance):曼哈顿距离也称为城市街区距离,用于衡量数值属性之间的差异。对于两个数值属性,曼哈顿距离定义为它们在每个维度上差值的绝对值之和。例如,对于属性A和属性B,它们的取值分别为a和b,则曼哈顿距离为|a₁ - b₁| + |a₂ - b₂| + … + |aₙ - bₙ|。
  3. 闵可夫斯基距离(Minkowski Distance):闵可夫斯基距离是欧氏距离和曼哈顿距离的推广形式,可以根据参数p的不同取值来衡量数值属性之间的差异。当p=2时,闵可夫斯基距离等同于欧氏距离;当p=1时,闵可夫斯基距离等同于曼哈顿距离。
  4. 切比雪夫距离(Chebyshev Distance):切比雪夫距离用于衡量数值属性之间的最大差异。对于两个数值属性,切比雪夫距离定义为它们在每个维度上差值的绝对值的最大值。例如,对于属性A和属性B,它们的取值分别为a和b,则切比雪夫距离为max(|a₁ - b₁|, |a₂ - b₂|, …, |aₙ - bₙ|)。

余弦相似性

余弦相似性(Cosine Similarity)是一种常用的相似性度量方法,用于衡量两个向量之间的方向相似程度,特别适用于文本或高维度数据的相似性计算。

在信息检索、推荐系统、文本聚类等领域,余弦相似性常被用于计算文本或高维度数据之间的相似性或相关性。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/609310.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

电池储能系统的电荷状态预测 | 利用数据驱动机器学习预测锂离子电池储能系统的电荷状态附代码

概述 准确估计电荷状态(SOC)对于保证锂离子电池储能系统的安全性和稳定性至关重要。然而,由于锂离子电池内多个复杂过程的耦合动力学,以及缺乏监测电池内部性能变化的措施,这项任务非常具有挑战性。近年来,随着图形处理器(GPU)计算能力的不断发展,深度学习作为 SOC 估计方…

# 从浅入深 学习 SpringCloud 微服务架构(十四)微服务链路追踪

从浅入深 学习 SpringCloud 微服务架构(十四)微服务链路追踪 一、微服务的链路追踪概述 1、微服务架构下的问题 在大型系统的微服务化构建中,一个系统会被拆分成许多模块。这些模块负责不同的功能,组合成系统,最终可…

java中的并发编程

1、上下文切换 即使是单核处理器也支持多线程执行代码,CPU通过给每个线程分配CPU时间片来实现 这个机制。这个时间片特别短,一般是几十毫秒,所以会让我们觉得好多任务同时进行。 CPU通过时间片分配算法来循环执行任务,当前任务执…

autolabor(ROS开发笔记)__1

视频链接:ROS机器人 chapter 1 ROS概述与环境搭建 学习步骤: 1.了解该模块的相关概念 是什么,为什么学,前世今生,发展前景 2.安装官方软件包 具备基本的开发环境,简陋notepad 3.搭建集成开发环境(IDE,Int…

打造抖音萌娃账户,一条广告轻松过万,副业兼职最佳选择(实例教程 素材内容)

我特别喜欢简单易操作的新项目,因为过于复杂和门槛高的项目对新手来说可能是毁灭性的,他们往往难以入门,而且付出努力也得不到反馈。 下 载 地 址 : laoa1.cn/1971.html 小宝宝小萌娃账户就相对简单,它类似于电视剧…

文字图形化:UI设计师的必备能力,带你看看为什么要这么做。

在UI设计中,文字尽可能要进行图形化设计的原因有以下几点: 提高识别性: 图形化设计可以通过视觉效果和形状来吸引用户的注意力,从而提高文字的可识别性。这有助于用户更快地理解并记住信息,同时也可以增强品牌的认知…

Python实现一个简单的计算器

简单版本 使用 Python 的 Tkinter 模块来实现一个简单的图形化计算器。以下是一个基本的示例代码 示例效果 代码源码 import tkinter as tkdef button_click(number):current entry.get()entry.delete(0, tk.END)entry.insert(0, current str(number))def button_clear():e…

翼支付——风控场景中图模型的范式变迁

目录 风控图深度学习模型 风控图大模型

ASP.NET校园新闻发布系统的设计与实现

摘 要 校园新闻发布系统是在学校区域内为学校教育提供资源共享、信息交流和协同工作的计算机网络信息系统。随着网络技术的发展和Internet应用的普及,互联网已成为人们获取信息的重要来源。由于现在各大学校的教师和学生对信息的需求越来越高,校园信息…

Redis未授权访问

一、漏洞描述 Redis未授权访问 因配置不当可以未经授权访问,攻击者无需认证就可以访问到内部数据。 1. 导致敏感信息泄露 2. 执行 flushall 可清空所有数据 3. 通过数据备份功能往磁盘写入后门文件(webshell、定时任务) 4. 如果Redis以…

Swift 集合类型

集合类型 一、集合的可变性二、数组(Arrays)1、数组的简单语法2、创建一个空数组3、创建一个带有默认值的数组4、通过两个数组相加创建一个数组5、用数组字面量构造数组6、访问和修改数组7、数组的遍历 三、集合(Sets)1、集合类型…

共识算法基础

目录 PaxosRaft节点间是如何通讯的什么是任期与任期编号选举有哪些规则随机超时时间Raft日志成员变更Nacos中Raft的运用(cp模式) DistroZAB协议博客 Paxos paxos算法是由兰伯特与1990年提出的一个分布式系统的共识算法。分布式系统的共识算法通俗易懂的…

【多客系统】社交圈子论坛系统,小程序/app/H5多端圈子社区论坛系统交友,社区圈子论坛小程序前后端搭建,社交圈平台系统

简述 社交圈子论坛系统是一种面向特定人群或特定话题的社交网络,它提供了用户之间交流、分享、讨论的平台。在这个系统中,用户可以创建、加入不同的圈子,圈子可以是基于兴趣、地域、职业等不同主题的。用户可以在圈子中发帖、评论、点赞等互…

聊聊 ASP.NET Core 中间件(二):中间件和筛选器的区别

前言 有些小伙伴看到上一篇文章后,可能会发现中间件和我们之前讲的筛选器非常类似,比如它们都是通过 next 串起来的一系列的组件,并且都可以在请求处理前后执行代码,都可以通过不执行 next 来进行请求的终止。那么筛选器和中间件…

风筝挂在高压线上怎么办?输电线路AI视频监测装置快速识别保平安

放风筝是一项既有趣又能够让人放松心情的活动,如今风筝的造型和设计也是越来越多样,各种形状奇特的风筝随风起舞,飘荡在空中。不过需要注意的是,由于风速变化无常,放风筝时稍不留神就会将风筝挂在高压线等公共基础设施…

从Apache HttpClient类库,说一说springboot应用程序中的AutoConfiguration的封装

一、背景 在使用httpclient框架请求http接口的时候&#xff0c;我们往往会需要自定义配置httpclient&#xff0c;而非直接使用。 <dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>…

SPSS之主成分分析

SPSS中主成分分析功能在【分析】--【降维】--【因子分析】中完成&#xff08;在SPSS软件中&#xff0c;主成分分析与因子分析均在【因子分析】模块中完成&#xff09;。 求解主成分通常从分析原始变量的协方差矩阵或相关矩阵着手。 &#xff08;1&#xff09;当变量取值的度量…

20232820 2023-2024-2 《网络攻防实践》实践九报告

20232820 2023-2024-2 《网络攻防实践》实践九报告 1.实践内容 本次实践的对象是一个名为pwn1的linux可执行文件。 该程序正常执行流程是&#xff1a;main调用foo函数,foo函数会简单回显任何用户输入的字符串。 该程序同时包含另一个代码片段&#xff0c;getShell&#xff…

从开发角度理解漏洞成因(02)

文章目录 文件上传类需求文件上传漏洞 文件下载类需求文件下载漏洞 扩展 留言板类&#xff08;XSS漏洞&#xff09;需求XSS漏洞 登录类需求cookie伪造漏洞万能密码登录 持续更新中… 文章中代码资源已上传资源&#xff0c;如需要打包好的请点击PHP开发漏洞环境&#xff08;SQL注…

当导师和学生陷入「隐形冲突」

::: block-1 “时问桫椤”是一个致力于为本科生到研究生教育阶段提供帮助的不太正式的公众号。我们旨在在大家感到困惑、痛苦或面临困难时伸出援手。通过总结广大研究生的经验&#xff0c;帮助大家尽早适应研究生生活&#xff0c;尽快了解科研的本质。祝一切顺利&#xff01;—…