数据仓库的基本概念、基本特征、体系结构

个人看书学习心得及日常复习思考记录,个人随笔。

数据仓库的基本概念、基本特征

数据仓库的定义:数据仓库是一个面向主题的集成的不可更新的随时间不断变化的数据集合,用以更好地支持企业或组织的决策分析处理。

数据仓库中数据的4个基本特征:

  • 数据仓库中的数据是面向主题的
  • 数据仓库中的数据是集成的
  • 数据仓库中的数据是不可更新的
  • 数据仓库中的数据是随时间不断变化的

如前所述,数据仓库产生的原因 ,传统数据库系统主要面向以操作型处理为主的联机事务处理应用,无法满足决策时的分析型处理要求。

主题、主题域、面向主题

主题:抽象概念,在较高层次上将企业信息系统中数据进行综合、归类分析利用的抽象每一个主题基本对应一个宏观分析领域,在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。对应某一分析领域的分析对象。

主题是对应某一分析领域的分析对象,所以主题的抽取应由分析的要求而定。概括各种分析领域的分析对象,可综合得到其他主题。每个主题有着各自独立的逻辑内涵,对应一个分析对象。

主题域:通常为关联关系较为紧密的数据主题的集合。以业务需求为导向,将这些数据主题划分到不同的主题域。主题域的确定必须以业务需求为导向并且以数据为驱动共同完成。

面向主题的数据组织方式是基于分析要求将数据组织成一个完备的分析领域(主题域),主题域应具备:

  • 独立性,该主题域可以与其他主题域存在交叉部分,但其必须具备独立内涵,即要求有明确的界限。
  • 完备性,对某一主题的分析处理要求,应能在该主题内找到该分析处理所要求的一切内容,如果对该主题分析处理要求涉及现存主题以外的数据,则应将这些数据增加到该主题中,逐步完善该主题。

主题是一个逻辑上的概念,在实现时如果其数据项过多,则可采用各种划分策略来将其划分。

举例说明:

注意:从数据角度的前提是已经经过分析、梳理列出所有可能的数据主题,此处数据主题是细粒度的,是从微观到宏观。

主题域、主题、实体间关系:
在这里插入图片描述

面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。

面向主题的数据组织分为两步:抽取主题、确定每个主题所应包含的数据内容。

“传统的面向应用的数据组织方式” 与 “面向主题的数据组织方式” 区别

传统的面向应用的数据组织方式:将数据按照应用的需求进行划分和组织。每个应用都有自己独立的数据存储和管理系统,数据之间存在较强的耦合性。这种方式下,数据被分散存储在不同的数据库中,不同应用之间的数据共享和交互较为困难。例如,一个企业可能有多个应用系统,如人力资源管理系统、财务管理系统和客户关系管理系统,每个系统都有自己的数据库和数据模型。

面向主题的数据组织方式:将数据按照主题进行组织和集中管理。主题可以是企业的业务领域、业务过程或者业务对象等。这种方式下,数据被集中存储在一个或者少数几个数据库中,不同应用可以共享和访问这些数据。主题导向的数据组织方式可以提高数据的一致性、准确性和可用性,同时也方便了数据的分析和挖掘。例如,一个企业可以建立一个统一的数据仓库,将各个应用系统的数据集成到其中,供企业内部的各个部门使用。

数据仓库中的数据是集成的

数据仓库中的数据是按照主题组织的,主题所涉及的数据往往分散于多个操作型数据库中,或是保存在数据文件中等,因此数据仓库中的数据是从其他数据源中抽取得到的(颗粒归仓)。由于很多数据分散于不同的数据源中,会有重复甚至是不一致的地方(数据不一致问题),因此数据在进入数据仓库前,首先要进行清洗、转换并加以整合,要统一原始数据中所有矛盾之处,如:字段的同名异义、异名同义、单位不统一、字长不一致等,原始数据结构从面向应用转变为面向主题,再进行数据综合和计算

  • 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
  • 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取 数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

数据仓库中的数据是不可更新的

操作型数据库中的数据通常是根据业务的变化不断更新。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作

数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。

只有当数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。数据仓库中一般有大量的查询操作,但修改和删除操作较少,通常只需要定期加载和刷新

数据仓库的特点使得数据仓库管理系统(DWMS)可比数据库管理系统(DBMS)简单一些,因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。在数据仓库中,数据库管理系统中与事务相关的并发控制、完整性检查控制可简化甚至可省去。例如:不再需要元组一级的封锁机制,可省去大量的加封解锁操作。但是由于数据仓库的查询数据量往往很大,所以就对数据查询提出了更高的要求,它要求采用各种复杂的索引技术;同时由于数据仓库面向的是商业企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出更高的要求。

数据仓库中的数据是随时间不断变化的

前述数据仓库中的数据不可更新是针对具体的数据应用而言,数据仓库用户在进行数据分析时一般不进行数据更新操作从数据集成加载进数据仓库到最终被删除的整个数据生存周期中,数据仓库中所有的数据并不是永远不变的
具体表现三个方面:

  • 数据仓库随时间变化不断增加新的数据。数据仓库系统必须不断捕捉联机事务处理数据库(OLTP)中变化的数据,追加到数据仓库中去,也就是要不断地生成OLTP数据库的快照,经统一集成后增加到数据仓库中去。
  • 数据仓库会将不需要的数据转存到其他存储设备(一般会基于数据生命周期以及数据冷热冰分级)。数据仓库的数据也有存储期限,一旦超过了这一期限,过期数据就要被退役或归档。只是数据仓库内的数据时限要远远长于操作型环境中的数据时限。在操作型环境中一般只保存有60-90天的数据,而在数据仓库中则需要保存较长时限的数据(如5~10年),以适应决策支持系统(DSS)进行趋势分析的要求。
  • 数据仓库中包含有大量的综合数据,这些数据要随着时间的变化不断地进行重新综合。如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。
    因此,数据仓库中数据的主码一般都包含时间项,以标明数据的历史时期

数据仓库数据的 4个特征表明,数据仓库实际上是一种数据存储,它将各种异构数据源中的
数据集成在一起并保持其语义一致,从而为企业决策提供支持
。数据仓库是一组与分析目标有关的数据集合,这些数据是从现有数据库及外部数据源集成得到的。

数据仓库的发展经历

简单报表阶段该阶段表现形式大部分为数据库和前端报表工具,系统主要目标是解决一些常态化工作中业务报表,以及针对决策分析所需数据汇总并生成简易化报表等。
数据集市阶段该阶段以业务需求为导向进行数据采集、整理,并以多维报表的形式展现支撑分析决策数据
数据仓库阶段:该阶段主要是按照一定的数据模型进行采集、整理,并且能够按照各业务部门需求,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为分析决策提供全面的数据支持

数据仓库的建设和数据集市的建设的重要区别就在于数据模型的支持。因此,数据模型的建设,对于我们数据仓库的建设,有着决定性的意义。

数据仓库的体系结构

数据仓库系统由数据源、集成工具、数据仓库与数据仓库服务器、联机分析处理(OLAP)服务器、元数据管理工具与元数据、数据集市、前端分析工具等组成。
在这里插入图片描述

数据源:数据仓库系统基础及源泉,主要包括企业内部数据和外部数据,通常存放于操作型数据库(关系型数据库管理系统)

集成工具:主要包括数据抽取(extracting)、清洗(cleaning)、转换(transformation)、加载(load)、维护工具,简称为ETL工具,完成数据集成工作

  • 数据抽取:指从数据源中选择数据仓库所需数据。针对不同平台、不同结构、不同类型的数据库,设计抽取。
  • 数据清洗:对抽取得到的数据进行清洗,保证其数据质量,以便保证其数据一致性(同名异义、异名同义),统一计量单位、估算默认值等等。
  • 数据转换:将清洗后的数据按照数据仓库的主题组织。
  • 数据加载:将数据装载至数据仓库。

一般而言,ETL工具还负责建立元数据。元数据主要说明数据仓库中数据的来源、加工过程等(自动化)。

数据仓库服务器:负责管理数据仓库中的数据,存储企业级的数据,为整个企业的数据分析提供一个完整、统一的视图。一般由关系型数据库管理系统扩展而成。

OLAP服务器:对分析需要的数据按多维数据模型进行再次重组,以支持用户多角度、多层次的数据分析。其主要实现结构:

  • ROLAP结构:该结构采用关系数据库管理系统或扩展的关系型数据库管理系统来存储和管理数据,用OLAP服务器提供聚集计算、查询优化等功能。各种粒度等数据均以关系表的形式存储在数据库。
  • MOLAP结构:该结构采用多维数组来存储数据。多维数组存储可对数据直接定位、计算速度快、无需索引,但在数据稀疏情况下需要进行数据压缩,以减少存储空间。
  • HOLAP结构:该结构将ROLAP结构和MOLAP结构结合,不仅具备ROLAP结构的可扩展性,而且还具备MOLAP结构计算速度快。
  • 特殊SQL服务器:为了满足联机分析处理需求,一些关系型数据库或数据仓库厂家在原来系统基础上扩展,只读环境下星形模型或雪片模型基础上进行SQL查询提供支持。

前端分析工具:主要包括各种数据分析工具,如查询报表工具、OLAP工具、数据挖掘工具等。
其中OLAP工具主要针对OLAP服务器进行数据分析,而查询报表工具和数据挖掘工具可在数据仓库和OLAP服务器上进行分析。各种数据分析工具除了可从数据仓库中获取数据,还可以从数据集市中获取数据

元数据管理对于数据仓库的可持续发展是必不可少的。

综上所述,在数据仓库系统中,数据从数据源到最终分析结构呈现给用户,其过程:

  1. 抽取适当的源数据。数据仓库不是简单的生产系统业务数据堆积(不是数据垃圾堆),只能选取对现在和将来决策分析有用的业务数据进行抽取。
  2. 数据加工过程。转换、清洗等过程,数据仓库中的数据是面向分析和决策的,按照主题进行组织,必须将业务数据进行重组,数据仓库中主题的数据模式往往与业务系统中的数据模式存在差异。
  3. 建立海量、高效的企业级数据仓库。企业级数据仓库必须建立于海量数据基础之上,服务于大量并发用户,并且满足数据处理速度、查询速度快的要求。
  4. 基于特定的分析主题,建立专门的数据集市。仅依靠数据仓库进行分析,其速度不一定能满足需求,为了支撑某些常用分析的速度快,有必要为这些分析问题分别单独做数据重组和优化,建立数据集市以加快分析速度。
  5. 前端展现应用。最终用户界面必须简易化且功能强大,具备权限控制且易于维护。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/455387.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

26-Java访问者模式 ( Visitor Pattern )

Java访问者模式 摘要实现范例 访问者模式(Visitor Pattern)使用了一个访问者类,它改变了元素类的执行算法,通过这种方式,元素的执行算法可以随着访问者改变而改变访问者模式中,元素对象已接受访问者对象&a…

Unity2019.2.x 导出apk 安装到安卓Android12+及以上的系统版本 安装出现-108 安装包似乎无效的解决办法

Unity2019.2.x 导出apk 安装到安卓Android12及以上的系统版本 安装出现-108 安装包似乎无效的解决办法 导出AndroidStudio工程后 需要设置 build.gradle文件 // GENERATED BY UNITY. REMOVE THIS COMMENT TO PREVENT OVERWRITING WHEN EXPORTING AGAINbuildscript {repositor…

python-0007-django模版

介绍 模版是对js,html等资源的封装 新建 在项目路径下新建模版文件夹templates(可以为其他名称),要是想细分业务的话,还可以在templates路径下继续建文件夹。如下图: 注册模版 在项目的settings找到T…

超越营销:交易性邮件如何塑造现代沟通

在我们的电子邮件自动化系列文章中,我们继续探讨交易性邮件的重要性。这些邮件对于向收件人传递实时更新和可操作信息至关重要,是企业运营不可或缺的一部分。 运营触点 在现代沟通中,交易性邮件扮演着不可或缺的角色,尤其是在企…

String类及其常用方法

文章目录 1.String类的特性与使用1.1 String类的特性1.2 String对象的创建方式1.3 String 的使用(不同的拼接操作) 2.String常用方法2.1 String的常用方法一2.2 String常用方法二2.3 String常用方法三 1.String类的特性与使用 1.1 String类的特性 Stri…

使用Barrier共享鼠标键盘,通过macos控制ubuntu系统

之前文章写过如何使用barrrier通过windows系统控制ubuntu系统,该文章将详细介绍如何使用barrier通过macos系统控制ubuntu系统 一、macOS安装barrier macOS版本barrier链接 1、双击点开安装包 2、将安装包里的barrier拷贝到macOS的达达->应用程序中 3、在达达…

Spring启动“--”设置参数没生效

现象 在idea中启动SpringBoot项目时,使用“--”设置的启动参数没有生效,如修改端口号“--server.port8082” 原因 排查发现是因为在使用SpringApplication.run启动项目时,没有将args参数传入run方法。 修复方案 SpringApplication.run参数中…

当matplotlib遇见“赛博朋克”

本次分享一个Python可视化工具cyberpunk,轻松让图表变得“赛博朋克”。 案例1 import matplotlib.pyplot as plt import mplcyberpunkplt.style.use("cyberpunk") #调用cyberpunk styleplt.plot([1, 3, 9, 5, 2, 1, 1], marker=o) plt.plot([4, 5, 5, 7, 9, 8, 6…

Linux系统——Nginx脚本拦截拓展

可能会有些无聊的人对服务器的Nginx服务进行恶意访问网站、API接口,会影响到用户的体验,我们可以做一个简单的脚本对恶意访问的IP做一个有效的拦截,揪出这些IP地址,然后将其进行禁用。 在Nginx的conf目录下新建一个blockip.conf文…

Redis第8讲——Cluster集群模式详解

前面两篇文章介绍了Redis主从和哨兵模式,不难发现,它们都有一些共同的缺点,首先在主从切换的过程中会丢失数据;另一个就是只有一个master,只能单点写,并没有水平扩容能力。而且每个节点都保存了所有的数据&…

sqlite3——数据库——day2

今天学习了sqlite3数据库 sqlite3_open sqlite3_openint sqlite3_open(const char *filename, /* Database filename (UTF-8) */sqlite3 **ppDb /* OUT: SQLite db handle */); 功能:打开数据库文件(创建一个数据库连接) 参数:filename:数据库文件路径 ppDb:操作数…

Python使用lxml解析XML格式化数据

Python使用lxml解析XML格式化数据 1. 效果图2. 源代码参考 方法一:无脑读取文件,遇到有关键词的行再去解析获取值 方法二:利用lxml等库,解析格式化数据,批量获取标签及其值 这篇博客介绍第2种办法,以菜鸟教…

如何实现Git Push之后自动部署到服务器?

在平时个人开发的过程中是不是有这样的烦恼: 项目开发完成,Push之后 登录服务器,手动git pull,然后运行部署命令 这真的很烦诶! 那么能不能Git push之后,远端服务器自动 Git pull 然后运行部署命令呢&a…

信息系统项目管理师002:信息系统(1信息化发展—1.1信息与信息化—1.1.2 信息系统)

文章目录 1.1.2 信息系统1.信息系统及其特性2.信息系统生命周期 记忆要点总结 1.1.2 信息系统 信息系统是由相互联系、相互依赖、相互作用的事物或过程组成的具有整体功能和综合行为的统一体。在经济与社会活动中,经常使用“系统”的概念,例如&#xff0…

python的函数与类的定义

目录 1.函数 1.函数的定义 2.输入参数与输出参数的类型 3.输入和输出多个参数 1.普通参数 2.含有任意数量的参数 3.关键字参数 4.普通参数与多个参数的结合 2.类 1.类的定义 2.类的实例化 3.继承 1.函数 1.函数的定义 def 函数名(输入参数): 文档字符串 函数体 …

Ubuntu20下C/C++编程开启TCP KeepAlive

1、在linux下,测试tcp保活,可以使用tcp自带keepalive功能。 2、几个重要参数: tcp_keepalive_time:对端在指定时间内没有数据传输,则向对端发送一个keepalive packet,单位:秒 tcp_keep…

HTML静态网页成品作业(HTML+CSS+JS)——体育足球介绍设计制作(3个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,使用Javacsript代码实现图片轮播,共有3个页面。 二、作品…

借助ChatGPT提高编程效率指南

PS: ChatGPT无限次数,无需魔法,登录即可使用,网页打开下面 一、借助ChatGPT提高编程效率指南 随着计算机技术的飞速发展,编程已经成为了现代社会中一个非常重要的技能。对于许多人来说,编程不仅是一项工作技能,而且是…

HCIP —— BGP 路径属性 (上)

目录 BGP 路径属性 1.优选Preferred-Value属性值最大的路由 2.优选Local-preference 属性数值大的路由 3.本地始发的BGP路由优先于其他对等体处学习到的路由。 4..优选AS_PATH属性值最短的路由 BGP 路径属性 BGP的路由选路是存在优选规则的,下图为华为官网提供…

【MySQL探索之旅】MySQL数据表的增删查改(初阶)

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ &…