数据挖掘--引论

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


1.2什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

  1. 数据清理(消除噪声和删除不一致数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变化(通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度量度,识别知识的真正有趣模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

1.3数据仓库

数据仓库是一个从多个数据源收集的信息存储库

特点

  • 面向主题
  • 集成的数据
  • 不可更新
  • 随时间不断变化

数据立方体

OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。

OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),下面还是以上面的数据立方体为例来逐一解释下:

  钻取(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据。

  比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据,如图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市……这些城市的销售数据。

  上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合。

如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如图。

  切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。

  切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。

  旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。

1.4可以挖掘什么类型的模式

类/概念描述:特征化与区分

1. 数据特征化

对同类的数据进行汇总,输出方式为饼图、条图等

2. 数据区分

将两个同一属性但不同值的对象进行比较

挖掘频繁模式、关联和相关性

模式

  • 频繁项集:频繁出现的东西
  • 频繁子序列:顾客倾向购买电脑然后购买鼠标
  • 频繁子结构:子结构有不同的结构形式

关联

  • 单维关联规则:x->z
  • 多维关联规则:x,y->z

相关性

属性-值

用于预测分析的分类与回归(了解)

决策树、神经网络、相关分析

聚类分析

聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组

聚类与分类不同,它们的区别如下:

  • 分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。
  • 在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等

离群点分析

异常

所有模式都是有趣的吗

数据挖掘的知识有三个重要问题需要回答:

  • 什么样的模式是有价值(感兴趣)的?价值度量
  • 挖掘系统能产生所有有价值的模式吗?算法的完全性问题
  • 数据挖掘到的模式是否都是有价值的知识?优化问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/690147.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python】成功解决SyntaxError: invalid syntax

【Python】成功解决SyntaxError: invalid syntax 下滑即可查看博客内容 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 博主简介:985高校的普通本硕&am…

QT Udp广播实现设备发现

测试环境 本文选用pc1作为客户端,pc2,以及一台虚拟机作为服务端。 pc1,pc2(客户端): 虚拟机(服务端): 客户端 原理:客户端通过发送广播消息信息到ip:255.255.255.255(QHostAddress::Broadcast),局域网…

使用MATLAB的BP神经网络进行数据分类任务(简单版)

BP神经网络,即反向传播(Backpropagation)神经网络,是一种多层前馈神经网络,它通过反向传播算法来更新网络权重。这种网络结构特别适合于分类和回归任务。 MATLAB环境设置 在开始之前,请确保MATLAB环境已经…

smbmap一键查扫描SMB共享信息(KALI工具系列十八)

目录 1、KALI LINUX 简介 2、smbmap工具简介 3、在KALI中使用smbmap 3.1 目标主机IP(win) 3.2 KALI的IP 4、操作示例 4.1 寻找共享目录 4.2 指定目标主机 4.3 指定共享目录 4.4 带密码访问 5、总结 1、KALI LINUX 简介 Kali Linux 是一个功…

LeetCode 7- 整数反转

给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。 如果反转后整数超过 32 位的有符号整数的范围 [-231, 231 - 1] ,就返回 0。 假设环境不允许存储 64 位整数(有符号或无符号)。 示例 1: 输入&…

【计算机网络】对应用层协议中HTTPS协议的总结

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

让 AI 写高考作文丨10 款大模型 “交卷”,实力水平如何?

文章部分素材来源 | CSDN(ID:CSDNnews) 前言 在科技日新月异的今天,人工智能(AI)已不再是遥不可及的未来科技,而是逐渐融入我们日常生活的实用工具。从智能语音助手到自动驾驶汽车&#xff0c…

超详解——识别None——小白篇

目录 1. 内建类型的布尔值 2. 对象身份的比较 3. 对象类型比较 4. 类型工厂函数 5. Python不支持的类型 总结: 1. 内建类型的布尔值 在Python中,布尔值的计算遵循如下规则: None、False、空序列(如空列表 [],空…

【全部更新完毕】2024全国大学生数据统计与分析竞赛B题思路代码文章教学数学建模-电信银行卡诈骗的数据分析

电信银行卡诈骗的数据分析 摘要 电信银行卡诈骗是当前社会中严重的犯罪问题,分析电信银行卡交易数据,找出高风险交易特征,建立预测模型,将有助于公安部门和金融机构更好地防范诈骗行为,保障用户的财产安全。 针对问…

RTOS笔记--信号量+互斥量+事件组

信号量的本质 信号量是一个特殊的队列,但并不涉及数据传输,因此不需要读写位置和发送者列表,但是多了一个最大计数值。 个人理解:信号量类似一个加入了保护机制的全局变量,不会因为中断切换的原因而导致数据出错。 信号…

SAP HCM OPT函数作用

导读 INTRODUCTION OPT函数:SAP HCM工资核算是很多函数的汇总集,原有有兴趣问过SAP的人为什么SCHEMA需要这样设计,SAP的人说是用汇编的逻辑设计的,当时是尽可能用机器语言加速速度读取,每个函数都有对应的业务逻辑代码…

使用python绘制桑基图

使用python绘制桑基图 桑基图效果代码 桑基图 桑基图(Sankey Diagram)是一种用来表示流动(如能源、资金、材料等)在不同实体之间转移的图表。 每个流的宽度与流量成正比,通常用于显示能量或成本流动的分布情况。 桑基…

从大到小吗?-分支c++

题目描述 给出 4 个整数,a , b , c , d 。 判断这四个数字是否满足从大到小。 输入 输入 4 个整数,a , b , c , d 。 输出 输出 Yes 或者 No 。 样例输入 4 3 2 1 样例输出 Yes 提示 分析: 这道题十分的简单,只需判断…

pdf文件如何防篡改内容

PDF文件防篡改内容的方法有多种,以下是一些常见且有效的方法,它们可以帮助确保PDF文件的完整性和真实性: 加密PDF文档: 原理:通过设置密码来保护PDF文档,防止未经授权的访问和修改。注意事项:密…

FreeSurFer的recon-all处理流——学习记录

官方网址:ReconAllTableStableV6.0 - Free Surfer Wiki (1)颅骨剥离skullstrip 颅骨剥离后生成文件:/mri/brainmask.mgz (2)图像配准canorm Freesurfer图像配准:将 mri/nu.mgz 体积与 FREESU…

【Go语言精进之路】构建高效Go程序:了解切片实现原理并高效使用

🔥 个人主页:空白诗 文章目录 引言一、切片究竟是什么?1.1 基础的创建数组示例1.2 基础的创建切片示例1.3 切片与数组的关系 二、切片的高级特性:动态扩容2.1 使用 append 函数扩容2.2 容量管理与性能考量2.3 切片的截取与缩容 三…

Java Web学习笔记19——Ajax介绍

Ajax: 概念:Asynchronous JavaScript And XML 异步的JavaScript和XML。 作用: 1)数据交换:通过Ajax可以给服务器发送请求,并获得服务器的响应数据。 2)异步交互:可以在不重新加载页面的情况…

数据挖掘--分类

数据挖掘--引论 数据挖掘--认识数据 数据挖掘--数据预处理 数据挖掘--数据仓库与联机分析处理 数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法 数据挖掘--分类 数据挖掘--聚类分析:基本概念和方法 基本概念 决策树归纳 决策树:决策树是一…

第二十七章HTML.CSS综合案例

1.产品介绍 效果图如下&#xff1a; 代码部分如下&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">…

建筑特种工高处作业吊篮安装拆卸工题库

1、施工现场外租吊篮设备&#xff0c;在施工前应由( )编制专项施工方案&#xff0c;并由( )技术负责人和现场总监理工程师签字后实行。 A 使用单位 使用单位 B 使用单位 租赁单位 C 租赁单位 使用单位 D 租赁单位 租赁单位 2、施工现场外租吊篮…