第十四章 数据仓库与数据挖掘
- 决策支持系统的发展
- 决策支持系统及其演化
- 操作型数据(Operalional Data)是指由企业的基本业务系统所产生的数据,操作型数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境,一般被称为联机事务处理(0nLine Transaction Processing,0LTP)环境,OLTP环境中的企业各种基本业务应用系统称为操作型系统。
- 决策支持系统(Decision Support System,DSS):是综合利用大量数据,有机组合众多模型(数学模型和数据处理模型),通过人机交互,辅助各级决策者实现科学决策的系统。
- 基于数据仓库的决策支持系统
- 基于数据仓库的决策支持系统。这种体系结构以数据仓库为核心,数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数据源。企业内部的操作型系统和一些外部数据源构成了数据仓库的数据源。
- 在这种体系结构中,数据仓库是核心,操作型系统是基本数据源,决策支持系统是数据的需求者。其中主要存在两类数据:原始数据和导出数据。原始数据一般来自于企业操作型系统,因此,也可以称之为操作型数据。导出数据则是为了提高数据查询和管理效率,根据操作型数据计算得到的数据,常用于支持分析型应用。因此,一般将这种数据称为分析型数据。
- 决策支持系统及其演化
- 数据仓库技术概述
- 数据仓库的概念与特性
- 数据仓库是一个面向主题的,集成的,非易失的,且随时间变化的数据集合。用来支持管理人员的决策。
- 特性:面向主题、集成、仓库不可更新、随时间变化
- 数据仓库的体系结构与环境
- 从数据层次角度来看,典型的数据仓库的数据体系结构主要包括操作型数据、操作型数据存储(0perational Data Store),数据仓库(Data Warehouse)和数据集市(Data Mart),也可以包括个体层(Individual)数据。
- 从功能结构上看,整个体系中的功能可以分为数据处理,数据管理和数据应用三个层次。数据处理功能主要完成各层数据之间的流转功能,主要包括数据集成和数据维护等功能;数据管理对数据仓库中的数据进行安全控制,监控和元数据管理等功能:数据应用层次根据企业情况,可以包括各种类型的信息型应用或分析应用。
- 数据仓库的数据组织
- 在这个结构中,数据仓库中的数据分为早期细节级、当前细节级、轻度综合级和高度综合级四个级别。来自操作型环境中的源数据经过集成后,进入当前细节级。根据系统的需要,可能需要对当前细节级的数据进行轻度的综合(汇总)或进一步的高度综合,从而得到轻度综合级数据和高度综合级数据。老化以后的细节数据将进人早期细节级。
- 粒度:系统中存在不同综合级别的数据,一般将综合级别称为粒度。粒度越大,表示综合程度越高;粒度越小,表示综合程度越低。
- 数据分区,数据分区的方式可以分成系统层分区和应用层分区两种,两者之间存在一定的区别:
①系统层分区是数据库系统提供的机制,各个分区在逻辑上是一个表,在物理上属于不同的分区。数据库管理系统知道各分区间的逻辑关系,也就是说数据库管理系统管理逻辑上的表和物理上的分区之间的关系;
②应用层分区由应用代码实现,不同的分区在逻辑上和物理上都属于不同的表,如何分区由开发者和程序员控制,数据库管理系统并不知道分区间存在什么逻辑关系
- 元数据
- 操作性数据存储(Operational data storage)
- 人们提出这个数据存储层的最初目的是支持一些特殊的应用功能。主要包括即时(up-to-second) 0LAP(0nLine Analytical Processing)和全局型OLTP应用。
- 根据数据源到ODS的数据传送更新频率的高低,ODS被分为:
- ODSⅠ:第一类ODs数据更新频率是秒级的,即操作型系统中的数据发生改变以后,儿乎是立即传送到0DS中,这类ODS建设难度很大。
- ODSⅡ:第二类0DS的数据更新频率是小时级,如4小时更新一次,这类ODS建设难度低。
- ODSⅢ:第三类ODS的数据更新频率是天级,一般隔夜后将数据更新到ODS中。
- 第四类ODS是根据数据来源方向和类型区分的,第四类ODS的数据不仅包含来自操作型环境的数据,也包含由数据仓库层和数据集市层的应用反馈给0DS的一些决策结果或一些报表信息,这样可以由这类ODS向企业内外部提供相关的一些信息服务。
- 数据仓库的概念与特性
- 设计与建造数据仓库
- 数据仓库设计的需求与方法
- 数据体系的设计
- 应用体系的设计
- 数据仓库的数据模型
- 数据仓库设计步骤
- 数据集成( Data Inegration)是将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程,是实施数据仓库的重要步骤。
- ETL(Extract Transform Load)是实现数据集成的主要技术,即填充更新数据仓库的数据抽取、转换、装载的数据采集过程。用户只有从数据源中抽取出所需数据,再经过数据清洗,并加载到按照先前所设计的数据仓库中去以后,才能对数据仓库中的数据进行报表分析、多维分析和数据挖掘等
- 一般常见的方法还有ELT(Extract Load Transform),越大量的资料,越复杂的转换逻辑越倾向于使用ELT。
- 数据仓库设计的需求与方法
- 数据仓库的运行与维护
- 数据仓库数据的更新维护
- 维护策略
- 实时维护
- 延时维护
- 快照维护
- 捕捉数据源的变化
- 触发器
- 修改数据源应用程序
- 通过日志文件
- 快照比较法
- 导出数据的刷新
- 一是根据维护对象的数据源对其进行重新计算
- 二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量维护
- 维护策略
- 数据仓库监控与元数据管理
- 数据仓库数据的更新维护
- 联机分析处理与多维数据模型
- OLAP简介
- 多维分析的基本概念
- 在数据仓库应用中,数据的多维分析是指针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次,采用各种数据分析技术,对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据。
- 多维模型的数据视图或数据集为多维空间中的点集,这样的数据视图被称为多维视图。多维视图中的属性分为维属性和度量属性,一个多维视图MDV的模式一般是(d1,d2,…,dn,m1,m2.,…,mm),前面n个维属性构成一个多维空间,后面m个度量属性是多维空间中的指标集。例如,(地区,月份,销售额)就是一个多维数据模式。
- 多维分析的基本操作
- 钻取(Drill-Down)与卷起(Roll-Up)。钻取与卷起是OLAP分析的两个最基本操作。所谓钻取是指对应于某一维逐步向更细节层方向观察数据,而卷起则反之。钻取和卷起为OLAP用户提供了足够灵活、多角度的观察数据的方法。
- 切片(Slice)和切块(Diee)。在多维数据结构中,切片和切块实现局部数据的显示。帮助用户从众多混杂的数据中进行选择。
- 旋转。旋转是改变一个报告或页面显示的维方向,通过旋转可以得到不同视角的数据最简单的旋转就是数据交叉。
- OLAP的实现方式
- 基于多维数据库的0LAP(MOLAP)
- 基于关系数据库的0LAP(ROLAP)
- 混合型的OLAP(HOLAP)
- 数据挖掘技术
- 数据挖掘可以简单地理解为从大量数据中提取或挖掘知识
- 数据挖掘步骤
- 数据准备
- 数据选取,确定操作对象
- 数据预处理
- 数据变换
- 数据挖掘
- 确定挖掘的任务或目的
- 选择实现算法(考虑因素:数据特点、用户或实际运行系统的要求)
- 结果的解释评估
- 数据准备
- 关联规则挖掘
- 分类挖掘
- 聚类挖掘
- 时间序列分析
- 错题笔记
- OLTP是对数据库联机的日常操作,通常是对一条记录的查询和修改,要求快速响应用户的请求,对数据的安全性、完整性及事物吞吐量要求很高。而0LAP是对数据的查询和分析操作,通常是对海量历史数据的查询和分析,要访问的数据量非常大,查询和分析操作十分复杂。又因为0LAP为宏观分析,0LTP为微观操作,所以前者面向中上层和决策者使用,而后者面向企业的中下层业务人员使用。
- 由于有样本集和测试集之分,又有已有的类别标签,所以属于监督学习。分类:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。分类属于监督学习。聚类:根据在数据中发现的描述对象及其关系的信息,将数据对象分组,组内的对象相互之间是相似的,而不同组中的对象则不同。组内的相似性越大,组间差别越大,聚类就越好,属于无监督学习。关联规则挖掘:发现隐藏在大型数据集中的有意义的联系。多维分析是指各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询多维分析处理。
- 操作型数据对性能要求较高、无冗余。操作型数据与分析型数据的区别如以下所示:
- 数据仓库有四个特点:
- ①面向主题,操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据按照一定的主题域进行组织。主题是一个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关;
- ②集成的,面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关干整个企业的一致的全局信息;
- ③稳定的,操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业诀策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新;
- ④反映历史变化,操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。