目录
一、数据仓库概述
(一)从传统数据库到数据仓库
(二)数据仓库的4个特征
(三)数据仓库系统
(四)数据仓库系统体系结构
(五)数据仓库数据的粒度与组织
二、数据挖掘概述
(一)数据挖掘产生的背景
(二)数据挖掘与知识发现
(三)数据挖掘的数据来源
(四)数据挖掘的任务
(五)数据挖掘的步骤
(六)数据挖掘的应用
三、数据仓库与数据挖掘的关系
(一)数据仓库与数据挖掘的区别
(二)数据仓库与数据挖掘的联系
一、数据仓库概述
(一)从传统数据库到数据仓库
一般来说,计算机数据处理有两种主要方式:事务型处理和分析型处理。
1、传统数据库与事务处理
(1)传统数据库(DataBase,简称DB)是长期存储在计算机内的、有组织的、可共享的数据集合。
(2)应用广泛:有严格的数学理论支持,并在商业领域得到普及应用,长盛不衰,至今枝繁叶茂。
(3)联机事务处理(On-Line Transaction Processing)系统,简称 OLTP 系统。财务管理和超市管理系统等,数据存储在传统数据库中,因此又称为 OLTP 数据库。
(4)处理特点:对传统数据库进行联机的日常操作,如对一个或一组记录的查询和修改等存取操作,用户希望每次操作能够实时响应,并保证数据安全性和完整性。
2、传统决策支持与分析处理
(1)数据的分析处理:对当前和大量历史数据的统计和分析,并从中提取管理决策所需重要信息的数据处理方法。
(2)决策支持系统(Decision Support System,DSS):对数据进行分析处理任务的计算机系统;
(3)决策支持:将决策支持系统分析所得到数据信息,提供给企事业董事会或主管领导决策参考的过程。
(4)分析型处理系统:决策支持系统的别名,通常需要对大量历史数据进行长时间的分析处理。
(5)处理特点:用户对分析处理的时间长短不在意,而对数据分析的深度和广度,以及分析结果的使用价值非常重视。
(6)早期分析处理系统开发:在事务处理系统中,直接增加一些统计分析软件或决策支持程序。
3、传统分析处理的问题
(1)分析处理的系统响应问题:事务处理的实时响应修改需求(排它锁)与决策分析需要长时间遍历数据库中大部分甚至全部数据(共享锁)有很大冲突。
(2)分析处理的数据需求问题
① 外部数据需求问题:甚至包括竞争对手的相关数据,但传统数据库中只存储了部门内部的事务处理数据。
② 系统平台差异问题:决策分析的数据通常来自多个处理系统,必须解决不同数据处理系统的差异性问题。
③ 数据不一致性问题:多个处理系统相同属性的取值类型或长度不一致。
● 性别属性值有的用 “1” 和 “0” ,有的用逻辑值 T 和 F ,还有用字符串 “男” 和 “女” 表示。
● 属性名 PCS 表示派出所,有的使用 ZZPCS 来表示等。
④ 非结构化数据问题:决策分析处理的数据集成过程中涉及行业统计报告、咨询公司的市场调查分析数据,其格式可能是 Excel,Word 或者 Web 页面等。
⑤ 历史数据需求问题:决策分析处理需要较长时期的历史数据,而传统数据库一般只保留当前或近期的数据。
⑥ 数据动态更新问题:决策分析处理需要不断的增加最近几个月,但传统的分析处理系统在对数据进行一次集成以后,往往就与原来的数据源断绝了联系。
(3)分析处理的多样性问题:决策分析人员希望能够利用各种工具对数据进行多种方式的处理,并希望数据处理的结果能以商业智能的方式表达出来,不仅要便于理解,而且能有力地支持决策。 传统分析处理系统很难,甚至无法实现这种需求。
(4)操作型数据与分析型数据的区别
对比内容 | 操作型数据(原始的) | (导出的)分析型数据 |
---|---|---|
数据粒度 | 实时细节 | 综合集成 |
数据内容 | 当前和近期的数据 | 历史的、计算的数据 |
数据特性 | 可以修改 | 不可修改,定时添加 |
数据组织 | 面向事务应用 | 面向主题分析 |
数据用量 | 一次操作数据量小 | 一次操作数据量大 |
(5)操作型系统与分析型系统的区别
● SDLC(Systems Development Life Cycle)称为系统开发生命周期,即操作型系统遵循 “需求调查需求分析设计&编程系统测试系统集成系统实施” 。
● Inmon 认为,分析型系统开发周期 CLDS(Reverse of SDLC)是 SDLC 逆过程,即 “ DW 实施数据集成偏差测试针对数据编程设计 DSS 系统结果分析理解需求” 的螺旋式开发过程。但我们从实际应用中发现,还是要进行一定的前期需求调查和系统设计,才能开始 DW 实施。
3、事务处理与分析处理系统的分离
正是两者存在很大的不同,甚至相互冲突,人们认识到应该将事务处理系统的数据抽取出来,构建一个不受传统事务处理约束、独立而高效率的数据分析处理系统。
ADMS 是什么、有啥功能等? 这就是数据仓库原理、OLAP(On Line Analytic Processing)技术和数据挖掘技术等将要介绍的内容。
4、数据仓库的定义
美国著名信息工程学家 William H. Inmon 教授,因1993年出版的专著《建立数据仓库》被世人誉为数据仓库之父。
定义1-1(Inmon):数据仓库(Data Warehouse,DW)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的,支持管理决策(Decision Making Support)的数据集合。 以上定义被广泛引用称为经典,但初学者理解困难。
定义1-2(H):数据仓库是一个面向主题的、集成的、不可修改的、随时间变化的,支持管理决策的数据集合。 因此可以说,数据仓库是一个特殊的数据库,其特殊性体现在它的数据具有面向主题、集成、不可修改和随时间变化等4个特征,其目的是支持企业的管理决策而不是支持事务管理。
(二)数据仓库的4个特征
1、数据仓库的数据是面向主题的
定义1-3:主题是宏观决策问题的一个分析对象,它由决策分析问题的要求来确定,并用一个在较高管理层次上的综合数据集合来描述。
(1)从信息管理的角度看,主题是在一个较高管理层次上对数据库系统中数据,按照具体的管理要求重新综合、归类的分析对象。
(2)从数据组织的角度看,主题就是一个数据集合,这些数据对分析对象进行了比较完整、一致的描述,不仅描述了数据自身,还描述了数据之间的关系。
定义1-4:主题是一个在较高管理层次上描述决策分析问题的综合数据集合。
比如,“旅馆入住人次”就是警务管理者的一个决策分析对象,因此,“旅馆入住人次”或“旅馆入住”就是警务数据仓库的一个主题,它需要一个数据集来描述它。
2、数据仓库的数据是集成的
(1)数据集成:根据决策分析的主题需要,把多个异种数据源中的数据收集起来形成一个统一并且一致的数据集合的过程。
(2)数据 ETL(Extract-Transform-Load,抽取-转换-加载):对数据源数据进行抽取、清理、转换和加载到DW的过程。
(3)ETL 的目的:确保数据仓库数据在属性名称、属性值度量等方面完全一致性。
(4)ETL 主要有两个任务:
① 消除数据源中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等。
② 对数据进行综合计算。比如,把每分中的数据汇总为每天的数据等。
3、数据仓库的数据是不可修改的
数据仓库的数据都是从事务处理数据源抽取过来的历史数据,因而是不可以修改的,且基于数据仓库的决策分析只有读操作而没有修改操作。
4、数据仓库的数据是随时间变化的
主要体现在以下3方面:
(1)数据仓库随时间变化不断增加新的数据内容。
(2)数据仓库随时间变化不断删去旧的数据内容。
(3)数据仓库中包含有大量的综合数据,且随着时间要求的变化而不断变化。
数据仓库定义的内涵:1个集合,4个特征,1个目的。
(三)数据仓库系统
定义1-5:数据仓库管理系统(Data Warehouse Manage-ment System,简称DWMS)是位于用户与操作系统(OS)之间的一层数据分析管理软件,负责对数据仓库数据进行统一更新、管理和使用控制,为用户和应用程序提供访问数据仓库的方法或接口软件的集合。
微软、Oracle 等已在自己的商品化关系数据库管理系统(RDBMS)产品中,增加并集成了与 DW 相关的管理控制软件,即 DBMSDWMS ,或者 RDBMSRDWMS 。
定义1-6:数据仓库系统(Data Warehouse System,简称 DWS )是计算机系统、DW 、DWMS 、应用软件、数据库管理员和用户的集合。
因此,数据仓库系统一般由硬件、软件(包括开发工具)、数据仓库、数据仓库管理员等构成。
(四)数据仓库系统体系结构
1、数据来源
数据仓库系统的数据源,包括内部的 OLTP 数据库、OA 数据和外部的市场信息、竞争对手信息,以及政府统计数据和其它有关文档。
2、数据获取
从数据源中抽取数据,集成数据,预处理后转换成数据仓库对应的数据格式,并将其加载到数据仓库之中。
3、数据管理
对数据仓库数据,元数据和数据集市的存储管理,包括数据存储、数据的安全性、一致性和并发控制管理、以及数据的维护、备份和恢复等管理功能,由 DWMS 负责。
(1)(企业级)数据仓库:包含从企业所有可能的数据源抽取得到的明细数据和汇总数据。
(2)数据集市(Data Mart,DMt)是企业级数据仓库的一个子集,通常称之为部门级数据仓库。
(3)元数据(Meta Data):“关于数据的数据”,即描述其它数据的基础数据。按其用途可将分为两种类型。
① 技术元数据(Technical Metadata):是关于数据源、数据转换和数据仓库的描述,如数据对象和数据结构的定义、数据清理和数据更新的规则、元数据到目的数据的映射、用户访问权限等。供数据仓库设计和管理人员使用,又称为管理元数据(Administrative Metadata)。
② 商业元数据(Business Metadata):用商业术语描述数据仓库中的数据,包括对业务主题、数据来源和数据访问规则,各种分析方法及报表展示形式的描述,以便使数据仓库管理人员和用户更好地理解和使用数据仓库。也被称为用户元数据(User Metadata)。
(4)元数据的作用
① 为决策支持系统分析员和高层决策人员服务提供便利。如广义索引(元素据)存放的有关决策汇总数据项。
② 解决操作型环境和数据仓库的复杂映射关系。如数据源的项名、属性及其在数据仓库中的转换。
(5)元数据的使用
① 元数据在数据仓库开发期间的使用。元数据主要描述 DW 目录表的每个运作模式,数据的转化、净化、转移、概括和综合的规则与处理规则。
② 元数据在数据源抽取中使用。利用元数据确定将数据源的哪些资源加载到 DW 中;跟踪历史数据结构变化过程;描述属性到属性的映射、属性转换等。
③ 元数据在数据清理与综合中的使用。数据清理与综合负责净化资源中的数据、增加资源戳和时间戳,将数据转换为符合数据仓库的数据格式,计算综合数据的值。
4、数据应用
通过数据分析工具、数据挖掘工具和其它应用程序来使用 DW 中的数据。数据仓库技术本身并不提供对数据仓库进行分析的技术和工具,用户一般可以根据需要,自行开发或委托软件公司开发合适的决策分析工具。
5、数据用户
企业中高层管理者和决策分析人员。正是因为有了使用它的用户,数据仓库才真正体现出它的价值。
(五)数据仓库数据的粒度与组织
1、数据的粒度
数据仓库的数据单元中所保存数据的综合程度。数据的综合程度越高,其粒度也就越粗。反之,数据的综合程度越低,其粒度也就越细。数据粒度越细,则占用的存储空间越大,但可以提供丰富的细节查询,反之,占用存储空间小,却只能提供粗略的查询。
数据的粒度选择是否恰当,不仅对数据仓库中数据量的大小有直接影响,同时还影响数据仓库所能回答的查询类型和查询深度。在数据仓库设计时,数据粒度的大小需要依据数据量的大小与查询的详细程度之间做出权衡。
2、双重粒度
指数据仓库中仅存放真实细节数据(最低粒度)和轻度的综合数据。
3、数据仓库数据的粒度层级
在数据仓库设计时,通常可以将数据按照3重粒度级别4个层次的存储方式,即将数据分为早期细节层、当前细节层、轻度综合层、高度综合层等4个层级。数据源经过最低粒度级别的综合进入当前细节层,并根据具体需要进行更高一层的综合,从而形成轻度综合层乃至高度综合层的数据。
如下图所示,数据仓库数据的粒度层级示例。
4、数据仓库的数据组织
(1)简单堆积文件:将每日从 OLTP 数据库中提取转换加工得到的数据逐天积累存储起来形成一个数据文件(左)。
(2)轮转综合文件。数据存储单位被分为日、周、月、年等几个粒度级别(右)。
二、数据挖掘概述
(一)数据挖掘产生的背景
信息化社会产生出海量的数据,并形成具有巨大潜在价值的 “大数据” ,犹如蕴藏大量 “黄金白银” 的矿山。信息提取及其处理技术的相对落后,使世界陷入了 “数据丰富、知识贫乏” 的境地。
1989年第11届国际联合人工智能学术会议上首次提到数据库中的知识发现(Knowledge Discovery in database,KDD)的概念。它把数据库 “数据” 比喻为矿山,将 “数据挖掘(Data Mining,DM)” 作为开采工具,因此,“数据挖掘” 一词很快流传开来,成为信息技术领域的研究热点。
数据挖掘和知识发现作为一种知识自动提取技术,涉及机器学习、模式识别、统计学、数据库和人工智能等众多学科领域,以及信息技术的支撑。
(二)数据挖掘与知识发现
定义1-7:知识发现(KDD)就是采用有效算法从大量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖的、潜在有用乃至最终可理解的模式(Patterns)的非平凡过程。
例1-1 在20世纪90年代某日,美国加州一个超级连锁店通过数据挖掘,从记录着每天销售和顾客基本情况的数据库中发现,下班以后来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。于是这个连锁店的经理当机立断,立即重新布置了商场货架,把啤酒类商品布置在婴儿尿布货架附近,并在二者之间放上土豆片之类的佐酒小食品,同时把男士们需要的日常生活用品也就近布置。这样一来,使上述几种商品的销量几乎马上成倍增长。 啤酒销量与尿布销量居然有关联!确实是新颖非平凡的。
(三)数据挖掘的数据来源
1、数据库类型的数据
(1)传统数据库(DB)是数据挖掘最常见、最丰富的数据来源之一。
(2)数据仓库(DW):从多个数据源,经过抽取-转化-集成(ETL)后加载到数据库中,用于支持管理决策的数据集合。
(3)空间数据库(Spatial Database),如地理信息数据、遥感图像数据等。
(4)时态数据库和时间序列数据库(Temporal Database and Time-Series Database)。
① 时态数据库通常存放与时间相关的属性值,如个人简历信息与时间相关的职务、工资等个人信息。
② 时间序列数据库存放随时间变化的值序列,如股票交易数据、气象观测数据等。
(5)多媒体数据库(Multimedia Database)。存储有图形(Graphics)、图像(Image)、音频(Audio)、视频(Video)等。
(6)文本数据库(Text Database),包括无结构类型(大部分的文本资料和网页)、半结构类型(XML数据)、结构类型(如关系数据库),OA 系统使用文本数据库。
2、非数据库类型数据
(1)数据流(Data Stream):大量、高速、连续到达的,潜在无限的有序序列数据。如网络监控、网页点击流、股票交易、流媒体和传感器网络等产生的数据。
① 数据处理特点:数据一经处理,除非特意保存,否则不能被再次读取处理,或再次读取数据的代价十分昂贵。
② 数据流处理的实时性要求,是它与传统数据库在存储、查询、访问等方面的最大区别。
(2)Web数据:互联网上的数据。
互联网上的部分数据存储在数据库之中,但更多的数据并不是存储在数据库之中,故将Web数据作为非数据库类型。
(四)数据挖掘的任务
1、分类分析(Classification Analysis)
(1)通过分析已知类别标记的样本集合(示例数据库)中的数据对象(记录),为每个类别做出准确的描述,或建立分类模型,或提取出分类规则(Classification Rules);
(2)然后用这个分类模型或规则对样本集合以外的记录进行分类。
比如:银行或移动通信公司,首先从现有已知类别的客户信息中提取分类规则,然后应用分类规则去判断新客户可能的类别。
例1-2 设有3个属性4条记录的数据库,它记录了顾客前来商店咨询电脑事宜,以及顾客身份和年龄的信息,其中 “电脑” 属性标记了一个顾客咨询结束后买了电脑,或者没买就直接离开商店了。
(1)分类分析:用某种分类算法对表中数据进行分析,挖掘出两条分类规则。
① If 学生=是 或者 年龄段≥41岁 then买了电脑;
② If 学生=否 而且 年龄段=31~40 then没买电脑;
(2)规则应用:假设商店来了一个新顾客咨询电脑事宜,老板也询问他是不是学生、年龄和收入情况,得知此人基本信息为(学生=否,年龄=44岁,收入=一般)
因此,老板应用规则①预测此人是诚心买电脑的顾客,就会在接待和介绍产品过程中有更多些的耐心和关心,并可能最终促成顾客购买电脑。
2、聚类分析(Clustering Analysis)
根据给定的某种相似性度量标准,将没有类别标记的数据库记录集划分成若干个不相交的子集(簇),使簇内的记录之间相似度很高,而不同簇的记录之间相似度很低。
聚类分析可以帮助我们判断,数据库中记录划分成什么样的簇更有实际意义,在客户细分、定向营销、信息检索等领域广泛应用。
例1-3 设有记录了4个顾客3个信息的数据库。
试用某种相似性度量标准,将记录进行聚类分析。
解:由于没有指定具体的相似度标准,因此,我们根据表1-4的属性,可以考虑选择几个不同的标准来进行聚类分析,并对结果进行比较。
(1)以是否为 “学生” 为相似度标准,则4条记录可聚成2个簇
A学生={X1,X4}, B非学生={X2,X3};
(2)以顾客的年龄段作为相似度标准,则4条记录可聚成3个簇
A≤30岁={X2},B31~40={X1,X3}, C≥41岁={X4};
(3)以收入水平作为相似度标准,则4条记录可聚成2个簇
A一般={X1,X2,X4},B较好={X3};
由此例可以看出:
① 聚类分析是对顾客集合的一个划分。
② 对一个给定顾客数据库,如果相似性度量标准不同,则划分结果也不同,即聚类算法对相似性度量标准是敏感的。
③ 可选择不同的度量标准对数据库记录进行聚类分析,以期得到更加符合实际工作需要的聚类结果。
聚类与分类是容易混淆的两个概念:
① 分类问题是有指导的示例式学习,即每个记录预先给定了类别标识,分类分析就是找出每个类别标识的描述,即满足什么条件的记录就一定是什么类别的判断规则。
② 聚类问题是一种无指导的观察式学习.每个记录没有预先定义的类别标识,聚类分析就是给每个记录指定一个类别标号。
3、关联分析(Association Analysis)
关联分析最初是针对购物篮分析问题而提出的,其目的是发现交易数据库中商品之间的相互联系的规则,即关联规则(Association rules)。 关联分析主要用于市场营销、事务分析等领域。
在超市交易数据库中发现了 “啤酒与尿布” 之间的关联规则(例1-1),就是关联分析成功的一个典型例子。
4、序列模式(Sequential Patterns)
数据间的前后序列关系,包括相似模式发现、周期模式发现等,主要应用于客户购买行为模式预测、疾病诊断、防灾救灾、Web 访问模式预测和网络入侵检测等领域。
比如,“顾客今天购买了商品 A,则隔不了几天他就会来购买商品B” ,就是顾客购物方面的一种序列模式。
5、离群点检测(Outlier detection)
离群点(Outlier)是一个数据集中过分偏离其它绝大部分数据的特殊数据。离群点检测就是希望从数据集中发现这种与众不同的数据,已在银行、保险、电信、电子商务等行业的欺诈行为检测中得到广泛应用,比如银行的反洗钱检测系统,互联网的入侵检测系统等。
6、统计分析(Statistical Analysis)
运用统计方法,结合事物相关的专业知识,从描述事物的数据上去推断该事物可能存在的内在规律。
①聚集统计:计数、求和、求平均值、求最大值和最小值;
② 回归分析,比如线性回归分析、非线性回归分析、多元线性和非线性回归分析等;
③ 判别分析:贝叶斯判别、费歇尔判别、非参数判别等;
④ 探索性分析,如主元分析、相关分析等等。
7、新型挖掘任务
物联网、传感网络,卫星通讯和 GPS 导航导致许多新的数据类型和数据形式,加之量子计算等新理论,由此产生许多新型数据挖掘任务,如文本数据挖掘、web 数据挖掘、微博数据挖掘、空间数据挖掘、数据流挖掘、不确定性数据挖掘和量子数据挖掘等。
(五)数据挖掘的步骤
1、问题定义
弄清楚需要哪些方面的数据(也称为数据选择)以及希望挖掘出什么样的知识,即确定挖掘任务。
2、数据准备
(1)数据抽取,从各种可用数据源中抽取与挖掘任务相关的数据。
(2)预处理,包括消除噪声、补充缺损值数据、消除重复记录、转换数据类型(连续型数据转换为离散型数据,或与之相反)等。
(3)数据存储,即把经过预处理的数据,按照数据挖掘任务和挖掘算法的要求集成起来,重新组织并以数据库或数据文件等恰当的方式存储,作为数据挖掘的对象。
当挖掘对象是数据仓库时,一般就不需要数据准备工作了。通常数据挖掘的数据源有多种类型(关系数据库、XML数据库、Web页面和文本文件),因此,数据准备是数据挖掘中十分重要、也是费时最多的一个步骤,可以占到整个数据挖掘过程70%左右的时间。
3、挖掘实施
选定数据挖掘算法,编写应用程序或使用商品化挖掘工具的功能模块,从数据挖掘对象中挖掘出用户可能需要的知识或模式,并将这些知识或模式用一种特定的方式,比如表格、图形等可视化方法表示。
4、评估解释
挖掘人员、企业高管和领域专家,对发现的知识或模式进行评估,剔除冗余或无关的模式,并对余下的知识或模式进行解释,发现并理解其中有实际应用价值的知识。 如果挖掘出来的知识无法满足用户的要求,就需要开始新一轮的数据挖掘,或者回到前面的某一步重新开始。
5、知识应用
将经过评估解释,且被用户理解的知识,用于商业决策。比如,发现并理解“尿布与啤酒”销量的关联规则后,改变商场商品布局,促使两种商品销量都得到大幅提升的过程。
(六)数据挖掘的应用
1、在金融行业的应用
(1)对账户进行信用等级的评估。
(2)对庞大的数据进行主成分分析,剔除错误矛盾的数据杂质,有效地进行金融市场分析和预测。
(3)分析信用卡的使用模式,“什么样的人使用信用卡属于什么样的模式” 。
(4)从股票交易的历史数据中得到股票交易的规则或规律。
(5)探测金融政策与金融业行情的相互影响的关联关系。
2、在保险行业的应用
(1)保险金额度的确定。通过数据挖掘可以得到,对不同行业的人、不同年龄段的人、处于不同社会层次的人,他们的保险金额度应该如何确定。
(2)险种关联分析。分析购买了某种保险的人是否会同时购买另一种保险。
(3)预测什么样的顾客将会购买什么样的新险种。
3、在零售业中的应用
(1)分析顾客的购买行为和习惯。如 “顾客一般购买了野营帐蓬后,过了一段时间就会购买睡袋和背包” 。
(2)分析销售商品的构成。将商品分成 “畅销且单位赢利高” 、“畅销但单位赢利低” 、“畅销但无赢利” 、“不畅销但单位赢利高” 、“不畅销且单位赢利低” 、“滞销”等多个类别,找出 “满足什么条件的商品属于哪一种情况” 。
4、在客户关系管理中的应用
(1)客户细分。对大量的客户分类,提供针对性的产品和服务。
(2)客户流失和保持分析。从已流失客户数据找出客户属性,服务属性和客户消费数据与客户流失的最终状态关系。
(3)价值客户判断。将客户分为目前利润贡献大的 “成熟期” ;当前利润贡献少但未来增长大的 “成长期” ;当无利润贡献,为后续增长引擎的 “开拓期” 等几类。
(4)客户满意度分析。客户满意度与客户忠诚度密切相关,随着客户满意度的增加客户忠诚度也随之增加。所以,企业与客户交往的目标就是尽可能的增加客户满意度。
5、在信息领域中的应用
(1)网络信息安全保障。利用数据挖掘技术对网络的入侵检测数据进行分析,可从海量的安全事件数据中提取出尽可能多的潜在威胁信息特征,从而发现未知的入侵行为。
(2)互联网信息挖掘。利用数据挖掘技术,从与 Web 相关的资源和行为中抽取用户感兴趣的、有用的模式和隐含信息。
① Web结构挖掘。Web 文档之间的超级链接结构反映了文档之间的包含、引用或者从属关系。利用挖掘算法,分析 Web 页面之间的链接引用关系,识别出权威页面和非法链接等。
② Web使用挖掘。对网络日志文件和用户浏览等 Web 使用行为的分析,可以深层次挖掘出用户的兴趣爱好,并建立用户兴趣模型,以便为用户提供个性化服务,如智能搜索、网页或个性化商品推荐等。
③ Web内容挖掘。就是对 Web 页面内容以及后台交易数据库进行挖掘,从中获取有用知识或模式的过程。
6、在其它行业中的应用
(1)生物信息或基因数据挖掘:利用计算机从海量生物信息中提取有用知识,发现生物知识。
(2)数据挖掘在医学中的应用:利用分类分析方法,提高一些复杂体征疾病的诊断准确率。对病人的病情和病人的个人信息进行关联规则分析,可以发现疾病的发病危险因素,便于指导患者如何预防该疾病。对以往病例数据的挖掘,可以归纳出疾病的诊断规则,确定某些疾病的发展模式,从而有针对性的预防新疾病的发生。
(3)其它高科技研究领域:数据挖掘工具在科研工作的作用往往表现在处理大批量的数据,得出一些信息来激发或点燃科研工作者的思路。
(4)社会科学研究领域:如从社会发展的历史进程中得出社会发展的规律,预测社会发展的趋势;或从人类发展的进程和人类的社会行为变化中寻求对人类行为规律的答案。
三、数据仓库与数据挖掘的关系
(一)数据仓库与数据挖掘的区别
序号 | 主要不同点 | 数据仓库 | 数据挖掘 |
---|---|---|---|
1 | 提出的时间 | 1991年 | 1989年 |
2 | 提出的学者 | W. H. Inmon (恩门) | 第11届国际人工智能联合会 |
3 | 概念的内涵 | 综合集成的历史数据 | 挖掘数据中隐藏知识的算法或工具 |
4 | 解决的问题 | 数据本身的组织存储问题 | 数据中隐藏知识的自动发现问题 |
5 | 使用的技术 | 数据库及其相关技术 | 机器学习、模式识别等人工智能技术 |
结论:数据仓库不是为数据挖掘而生的,反过来数据挖掘也不是为数据仓库而活的。它们是支持决策的两个相对独立的知识体系。
(二)数据仓库与数据挖掘的联系
数据仓库(DW)和数据挖掘(DM)都是为决策支持而提出的,其联系可以概括为以下几个方面。
(1)DW 为 DM 提供了更好的、更广泛的数据源。因为 DW 存有来自企业内部和外部较长时间的历史数据。
(2)DW 为 DM 提供了新的数据支持平台。DW 的只读方式,集成更新专门的机制(ETL)保证 DM 效率更高。
(3)DW 为 DM 提供了方便。无需自己动手抽取集成数据。
(4)DM 为 DW 提供了更好的决策支持工具。DW 无决策工具。
(5)DM 为 DW 的数据组织提出了更高的要求。DW 不仅满足 OLAP 需要,还应满足 DM 需要 (6)DM 为 DW 提供了广泛的技术支持。 一个中心(决策支持),两个基本点(DW,DM)。