数据挖掘(2.1)--数据预处理

一、基础知识

1.数据的基本概念

1.1基础知识

数据数据对象(Data Objects)及其属性(Attributes)的集合。

数据对象(一条记录、一个实体、一个案例、一个样本等)是对一个事物或者物理对象的描述

数据对象的属性则是这个对象的性质或特征,例如一个人的肤色、眼球颜色等是这个人的属性。

每一行为一条记录,每条记录即一个数据对象,代表一个用户的资料。而每一行的序号、男/女、收人、是否有配偶为数据对象的属性。而每一条记录的某一列即该对象属性的属性值,如:序号为一的对象“收入”属性的值为“10000”。

属性值是对一个属性所赋予的数值或符号,是属性的具体化。

1.2属性有不同类别

属性具有不同的类别,可以按照属性值的类型将属性类别分为4种:

  • (1)名称型属性(Nominal)。如身份证号码、眼球颜色和邮政编码等。
  • (2)顺序型属性(Ordinal)。如比赛排名、学分成绩和身高等。
  • (3)间隔型属性(Interval)。如日期间隔、摄氏和华氏温度等。
  • (4)比率型属性(Ratio)。如百分比和人口比例等。

一个属性属于以上4种属性的哪一种,取决于属性的属性值是否满足下列4种性质:区别性、有序性、可加性和乘除性。

名称型属性的属性值只满足区别性性质,即两个名称型属性的属性值可以判断相等或不等,但没有判断大小、加减乘除的意义。

顺序型属性的属性值除了满足区别性属性之外,也满足有序性。

间隔型属性的属性值满足区别性、有序性和可加性3种性质。

比率型属性的属性值满足以上全部4种性质。
属性除了以上分类之外,还有离散属性和连续属性之分。

离散属性只能从有限或可数的属性值集合中取值,通常可以用整数变量表示,如邮政编码、文档中的词数和身份证号码等。

二进制属性是离散属性的一个特例。连续属性与离散属性相对,可以从不可数无穷多个属性值中取值,通常取值范围为实数。实际中,通常只用有限多位来表示-一个数,因此连续属性在计算机中通常表示为浮点数。

1.3根据数据的组织方式和相对关系将数据呈现为以下形式

根据数据的组织方式和相对关系将数据呈现为以下形式: 

  • (1)记录数据。这种数据由一条条的记录组成,如记录数据、数据矩阵、文档数据和事务数据等。
  • (2)图数据。这种数据由记录(点)和记录之间的联系(边)组成,如万维网数据、化学分子结构数据等。
  • (3)有序数据。这种数据的记录之间存在时间和空间上的序关系,如序列数据、时间序列数据和空间数据等。

图数据和有序数据在孤立数据的基础上增加了数据之间的关联性,因此具有比孤立数据更加丰富的信息。由于图数据和有序数据的组织形式的特殊性,通常称对图数据进行的数据挖掘为图挖掘(GraphMining),称对序列数据进行的数据挖掘为序列挖掘(SequenceMining)。

记录数据

记录数据是数据集由一条一条记录组成数据,每条记录具有相同的属性集合。记录数
据是SQL数据库所使用的数据类型。
数据矩阵是记录数据的一种特例。当每个属性都是数值型属性的时候,这些数据对象就可以被看成空间中的点,每一个维度对应一个属性。这样的数据集可以用m*n的矩阵来表示,其中矩阵的行数m为记录的条数,矩阵的列数n为记录的属性个数。
文档数据是文档集合构成的数据集。在自然语言处理中,在“词袋模型”的假设下将一个文档中词出现的次数作为文档的属性是常见的做法。

交易数据是记录数据的一种特例,在交易数据中,每一条记录(交易)中包含若千个物品。例如超市的销售纪录。

超市销售记录

 

图数据

图数据由点与点之间的连线构成,通常用来表示具有某种关系的数据,如家谱图、分类体系图和互联网链接关系等。在万维网中,网页通常表示为HTML(超文本标记语言)格式,其中包含可以指向其他网页或站点的链接,如果把这些网页视为点,将链接视为有向边,则万维网数据可以看作一个有向图,也有无向图。

有序数据

有序数据是一种数据记录之间存在序关系的数据集,这种序关系体现在前后、时间或者空间上。交易序列数据是一种特殊的有序数据,其中每一个数据都是一个交易序列。

表2.4所示的超市销售记录序列数据中,每一行为一位顾客的购买记录序列,括号内是一次购买的物品清单,不同括号的先后顺序表示时间上的先后顺序。交易序列数据有助于挖掘在时间上具有先后的一些交易的性质,如重复购买,或关联商品。

2.为什么要进行数据预处理

最主要的原因是数据质量无法满足数据挖掘的要求,如数据可能具有某些不良特性,或者不符合后续挖掘的需要。一般来说,高质量的数据应该满足准确性、完整性和一致性的原则。数据质量的低劣甚至有着来自现实的原因。还有其他一些数据质量问题.如时效性、可信性、有价值、可解释性和可访问性等。

3.数据预处理的任务

数据预处理的主要任务包括数据清洗、数据集成、数据转换、数据归约和数据离散化等。
(1)数据清洗。对脏数据进行处理并去除这些不良特性的过程。脏数据是指包含噪声,存在缺失值.存在错误和不一致性的数据。
(2)数据集成。是将不同来源的数据集成到一起的过程,这些数据可能来自不同的数据库、数据报表和数据文件。数据集成需要解决数据在不同数据源中的格式和表示的不同,并整理为形式统一的数据。
(3)数据转换。是对数据的值进行转换的过程。在使用某些数据处理方法之前,如k均值聚类和贝叶斯分类,对数值进行转换非常必要。因为当数据的不同维度之间的数量级.差别很大的时候,分类和聚类的结果会变得非常不稳定,这时通常会对数据进行规范化,对数据值进行统- -的放缩。
(4)数据归约。是对数据的表示进行简化的技术。数据归约使得表示非常复杂的数据可以以更加简化的方式来表示。数据归约可以使得数据处理在计算效率、存储效率上获得.较大的提升,而不至于在挖掘分析性能上做出大的牺牲。
(5) 数据离散化。是对连续数据值进行离散化的过程。数据离散化有时也称为量化,数据在离散化过程中可能会损失部分信息,信息论中的率失真理论给出了量化过程中的信息损失与量化的位数的关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/622.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4 性能炸天:10 秒做出一个网站,在考试中击败 90% 人类

一、GPT-4,吊打ChatGPT! 一觉醒来,万众期待的 GPT-4,它来了! OpenAI老板Sam Altman直接开门见山地介绍道:这是我们迄今为止功能最强大的模型! 二、GPT-4,新功能一览 究竟有多强&am…

Python人脸识别

#头文件:import cv2 as cvimport numpy as npimport osfrom PIL import Imageimport xlsxwriterimport psutilimport time#人脸录入def get_image_name(name):name_map {f.split(.)[1]:int(f.split(.)[0]) for f in os.listdir("./picture")}if not name…

Java的jar包打包成exe应用

将springboot项目使用maven打出的jar包,打成windows平台下exe应用程序包(自带jre环境)。 工具:1、exe4j 2、Inno Setup 工具放到网盘,链接:https://pan.baidu.com/s/1ZHX8P7u-7GBxaC6uaIC8Ag 提取码&#x…

SpringBoot-核心技术篇

技术掌握导图 六个大标题↓ 配置文件web开发数据访问单元测试指标指控原理解析 配置文件 1.文件类型 1.1、properties 同以前的properties用法 1.2、yaml 1.2.1、简介 YAML是 “YAML Aint Markup Language”(YAML不是一种标记语言)的递归缩写。在…

76.qt qml-QianWindow开源炫酷界面框架(支持白色暗黑渐变自定义控件均以适配)

界面介绍界面支持: 透明 白色 黑色 渐变 单色 静态图 动态图侧边栏支持:抽屉、带折叠、多模式场景控件已集成: 暗黑风格 高亮风格、并附带个人自定义控件及开源demo白色场景如下所示:单色暗黑风格如下所示:用户自定义皮肤如下所示:皮肤预览如下所示:b站入口:https://www.bilibi…

2023年跨境电商行业研究报告

第一章 行业发展 1.1 概况 跨境电商(Cross-border e-commerce)是指通过互联网销售商品或服务,跨越国家或地区边界,实现国际贸易的一种商业模式。跨境电商的兴起得益于全球化和数字化的趋势,以及互联网的普及和支付、…

Linux常用命令——基于Ubuntu22.04

本文介绍了一些Linux的常用命令。为了便于快速检索命令位置,文章二级标题都以“命令:命令的作用”展示,有些命令会先介绍命令的几个常用参数,然后结合具体的操作展示命令的使用。为了便于记忆,也会提到命令是由哪些短语…

【链表OJ题(五)】合并两个有序链表

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:数据结构 🎯长路漫漫浩浩,万事皆有期待 文章目录链表OJ题(五)1. 合并…

elasticsearch全解 (待续)

目录elasticsearchELK技术栈Lucene与Elasticsearch关系为什么不是其他搜索技术?Elasticsearch核心概念Cluster:集群Node:节点Shard:分片Replia:副本全文检索倒排索引正向和倒排es的一些概念文档和字段索引和映射mysql与…

原来CSS 也可以节流啊

Ⅰ、前言 「节流」 是为了减少请求的触发频率,不让用户点的太快,达到节省资源的目的 ;通常 我们采用 JS 的 定时器 setTimeout ,来控制点击多少秒才能在触发;其实 通过 CSS 也能达到 「节流」 的目的,下面…

面试官:MQ的好处到底有哪些?

💗推荐阅读文章💗 🌸JavaSE系列🌸👉1️⃣《JavaSE系列教程》🌺MySQL系列🌺👉2️⃣《MySQL系列教程》🍀JavaWeb系列🍀👉3️⃣《JavaWeb系列教程》…

大数据核心技术是什么

大数据的核心层:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同本质上的角色都大同小异。 大数据的核心技术都包括什么? 1、数据采集 数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上&#xff0c…

如何用python代码,更改照片尺寸,以及更换照片底色

前言 python浅浅替代ps?如何用代码来p证件照并且更换底色? 唉,有个小姐姐给我扔了张照片,叫我帮忙给她搞成证件照的尺寸还得换底色,她说自己忙的很 可惜电脑上没有ps只有pycharm,没得办法只能来试试看代…

Printk打印内核日志

一、背景 Linux 内核中提供了内核日志打印的工具printk。它的使用方式C语言中的printf是类似的。接下来我们介绍一下printk的使用方式。本文以打印Binder中的日志为例,进行演示。 printk的方法声明和日志级别binder驱动中增加 打印代码android系统中查看日志信息 …

第四季新星计划即将开启,博客之星取消拉票你怎么看?

catalogue🌟 写在前面🌟 线下创机遇🌟 新星计划🌟 做导师可以得到什么🌟 新星计划跟原力计划有何不同?🌟 博客之星新玩法你怎么看?🌟 写在前面 哈喽,大家好&…

为什么程序员喜欢这些键盘?

文章目录程序员的爱介绍个人体验程序员的爱 程序员是长时间使用计算机的群体,他们需要一款高品质的键盘来保证舒适的打字体验和提高工作效率。在键盘市场上,有很多不同类型的键盘,但是对于程序员来说,机械键盘是他们最钟爱的选择…

新型 PCIe 数字化仪结合了超快的速度、高分辨率和市场领先的流媒体

Spectrum Instrumentation 新增的两款 PCIe 数字化仪卡扩展了该公司的旗舰 M5i 系列,以提供最佳的 GHz 信号采集和分析功能。单通道和双通道卡提供超快的 10 GS/s 采样速度、12 位垂直分辨率和市场领先的 12.8 GB/s 数据流(通过 PCIe 总线)的…

思科模拟器 | 交换机与路由器的配置汇总【收藏备用】

文章目录一、vlan配置【实现同一vlan的主机通信】1、基本配置和接线2、vlan配置与端口连接3、测试连接二、truck配置【实现连接在不同交换机上的同一vlan的主机通信】1、基本配置和接线2、vlan配置与端口连接3、打truck做连接3、测试连接三、静态路由配置1、自定义IP地址2、基本…

断崖式难度的春招,可以get这些点

前言 大家好,我是bigsai,好久不见,甚是想念。 开学就等评审结果,还好擦边过了,上周答辩完整理材料,还好都过了(终于可以顺利毕业了),然后后面就是一直安享学生时代的晚年。 最近金三银四黄金…

【Java】期末复习知识点总结(4)

适合Java期末的复习~ (Java期末复习知识点总结分为4篇,这里是最后一篇啦)第一篇~https://blog.csdn.net/qq_53869058/article/details/129417537?spm1001.2014.3001.5501第二篇~https://blog.csdn.net/qq_53869058/article/details/1294751…