数据仓库 基础教程

数据仓库 基础教程

1. 数据仓库概述

Data Warehousing Tutorial

数据仓库(Data Warehouse,简称DW或者DWH)是通过集成来自多个异构数据源的数据来构建的。它支持分析报告、结构化和/或特别查询和决策制定。本教程采用循序渐进的方法来解释数据仓库的所有必要概念。


“数据仓库”一词最早是由Bill Inmon在1990年提出的。根据Inmon的说法,数据仓库是面向主题的、集成的、时变的、非易失性的数据集合。这些数据有助于分析人员在组织中做出明智的决策。

由于事务的发生,操作数据库每天都要经历频繁的变化。假设业务主管想要分析任何数据(如产品、供应商或任何消费者数据)的先前反馈,那么该主管将没有可用的数据来分析,因为先前的数据已经由于事务的变化而更新。

数据仓库在多维视图中为我们提供一般化和整合的数据。除了一般化和统一的数据视图外,数据仓库还为我们提供了在线分析处理(OLAP)工具。这些工具帮助我们在多维空间中进行交互式和有效的数据分析。这种分析的结果是数据泛化和数据挖掘。

将关联、聚类、分类、预测等数据挖掘功能与OLAP操作集成在一起,增强了多层次抽象知识的交互式挖掘。这就是为什么数据仓库现在已经成为数据分析和在线分析处理的重要平台。


理解数据仓库

  • 数据仓库是一个数据库,它与组织的操作数据库分开。
  • 数据仓库中不需要进行频繁的更新。
  • 它拥有统一的历史数据,这有助于组织分析其业务。
  • 数据仓库帮助管理人员组织、理解和使用他们的数据来制定战略决策。
  • 数据仓库系统有助于集成各种不同的应用系统。
  • 数据仓库系统有助于合并历史数据分析。

为什么要将数据仓库与操作数据库分开?

数据仓库与操作数据库需要分开的原因如下:

  • 操作数据库是为众所周知的任务和工作负载构建的,例如搜索特定记录、索引等。相较而言,数据仓库查询通常很复杂,它们呈现的是一种通用的数据形式。
  • 操作型数据库支持并发处理多个事务。操作数据库需要并发控制和恢复机制,以确保数据库的健壮性和一致性。
  • 操作数据库查询允许读取和修改操作,而OLAP查询只需要对存储的数据进行只读访问。
  • 操作数据库维护当前数据,而数据仓库维护历史数据。

数据仓库的特点

数据仓库的主要特性如下所述:

面向主题—数据仓库是面向主题的,因为它提供围绕主题的信息,而不是组织正在进行的操作。这些主题可以是产品、客户、供应商、销售、收入等。数据仓库并不关注正在进行的操作,而是关注用于决策制定的数据建模和分析。

集成式:通过集成关系数据库、平面文件等异构数据源的数据来构建数据仓库。这种集成增强了对数据的有效分析。

时变性−数据仓库中收集的数据以特定的时间段标识。数据仓库中的数据从历史角度提供信息。

非易失性−非易失性是指添加新数据时不擦除原有数据。数据仓库与操作数据库保持分离,因此操作数据库的频繁更改不会影响数据仓库。

数据仓库不需要事务处理、恢复和并发控制,因为它是物理存储的,与操作数据库是分开的。


数据仓库的应用

如前所述,数据仓库帮助业务主管去组织、分析和使用他们的数据进行决策。数据仓库是企业管理 计划-执行-评估“闭环”反馈系统的唯一组成部分。数据仓库广泛应用于以下领域:−

金融服务

银行服务

消费品服务

零售部门

控制生产


数据仓库的类型

信息处理、分析处理和数据挖掘是下面讨论的三种类型的数据仓库应用

信息处理−数据仓库可以对存储在其中的数据进行处理。数据可以通过查询、基本统计分析、使用交叉表、表格、图表或图形进行报告来处理。

分析处理−数据仓库支持对存储在其中的信息进行分析处理。可以通过基本的OLAP操作来分析数据,包括切片分析、向下钻取(drill down)、向上钻取(drill up,)和旋转(pivoting)。

数据挖掘−数据挖掘通过发现隐藏的模式和关联、构建分析模型、执行分类和预测来支持知识发现。这些挖掘结果可以通过可视化工具呈现出来。

OLAP VS OLTP

Sr.No.Data Warehouse (OLAP)Operational Database(OLTP)
1它涉及信息的历史处理。它涉及到日常的处理。
2OLAP系统由知识工作者(如执行人员、经理和分析师)使用。OLTP系统由文员、dba或数据库专业人员使用。
3它被用来分析业务。它是用来经营业务的
4它关注的是信息输出。它关注的是数据输入。
5它基于星型模式、雪花模式和事实星座模式。它基于实体关系模型。
6它关注的是信息输出。它是面向应用的。
7它包含历史数据。它包含当前数据。
8它提供了汇总和合并的数据。它提供了原始的和非常详细的数据。
9它提供了数据的汇总和多维视图。它提供了详细而扁平的数据关系视图。
10用户数量数以百计。用户数量以千为单位。
11访问的记录数以百万计。访问的记录数以10计。
12数据库大小从100GB到100tb。数据库大小为100mb ~ 100gb。
13这些都是高度灵活的。它提供了高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/731039.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

fataadmin导出Exel文件图片太大

// 导出图片过大处理 exportOptions: {ignoreColumn: [0, operate],onBeforeSaveToFile: function (data, fileName, type, charset, encoding, bom) {return $.fn.bootstrapTable.defaults.extend.savestatus;},onCellHtmlHyperlink: function ($cell, rowIndex, colIndex, hr…

C#开发-集合使用和技巧(一)常用集合和方法介绍

C#开发-集合使用和技巧 &#xff08;一&#xff09;常用集合和方法介绍常用集合和方法介绍 C#开发-集合使用和技巧1. 集合基础集合介绍集合跟数组对比 2.我们常用的集合类型列表List<T>键值对集合Dictionary<TKey,TValue>队列Queue<T>其他一些集合类型堆栈St…

修改vscode的主题颜色

1、首选项--主题--颜色主题 2、选择一个喜欢的颜色主题 这样就可以了。

工作实践:11种API性能优化方法

一、索引优化 接口性能优化时&#xff0c;大家第一个想到的通常是&#xff1a;优化索引。 确实&#xff0c;优化索引的成本是最小的。 你可以通过查看线上日志或监控报告&#xff0c;发现某个接口使用的某条SQL语句耗时较长。 此时&#xff0c;你可能会有以下疑问&#xff…

Mistral AI最新力作——Mistral Large媲美GPT-4

Mistral AI自豪地宣布&#xff0c;他们的最新力作——Mistral Large&#xff0c;已经正式面世。这款尖端的文本生成模型不仅在多语言理解上表现出色&#xff0c;更在推理能力上达到了顶级水平。Mistral Large能够处理包括文本理解、转换和代码生成在内的复杂多语言推理任务。 M…

go-admin-ui开源后台管理系统华为云部署

1.华为云开通8000与9527端口 2.编译 编译成功 3.发布到远程服务器 4.登陆华为云终端 5.安装Nginx 6.查看服务启动状态 7.添加网站 添加与修改配置www-data 改为 www 自定义日志输出格式 添加网站配置文件go_admin_ui.conf 添加如下内容: location 下的root指向网站文件夹 修…

former系列在时间序列预测任务上的研究综述

总&#xff1a;基于Transformer的LSTF解决方案 现有基于Transformer的LSTM解决方案设计要素总结如下&#xff1a; 从图中可以看出&#xff0c;Transformer在时序中应用具体包含以下几个步骤&#xff1a; 1&#xff09;时序分解&#xff1a;对于数据处理&#xff0c;TSF中0均…

zookeeper + kafka消息队列

zookeeper kafka 消息队列 一、消息队列简介 1、什么是消息队列 消息队列&#xff08;Message Queue&#xff09;是一种用于跨进程或分布式系统中传递消息的通信机制。消息队列在异步通信、系统解耦、负载均衡和容错方面具有重要作用。 &#xff08;1&#xff09;特性 异步…

“打造智能售货机系统,基于ruoyi微服务版本生成基础代码“

目录 # 开篇 1. 菜单 2. 字典配置 3. 表配置 3.1 导入表 3.2 区域管理 3.3 合作商管理 3.4 点位管理 4. 代码导入 4.1 后端代码生成 4.2 前端代码生成 5. 数据库代码执行 6. 点位管理菜单顺序修改 7. 页面展示 8. 附加设备表 8.1 新增设备管理菜单 8.2 创建字…

GBDT算法详解

GBDT算法详解 梯度提升决策树&#xff08;Gradient Boosting Decision Trees&#xff0c;GBDT&#xff09;是机器学习中一种强大的集成算法。它通过构建一系列的决策树&#xff0c;并逐步优化模型的预测能力&#xff0c;在各种回归和分类任务中取得了显著的效果。本文将详细介…

【mysql 安装启动失败】 没有网下 libssl.so.10 not found 如何解决?

问题描述&#xff1a; libssl.so.10 > not found libcrypto.so.10 > not found [rootmysql tools]# ls -l /usr/sbin/mysqld -rwxr-xr-x. 1 root root 64290024 Sep 14 2022 /usr/sbin/mysqld [rootmysql tools]# ldd /usr/sbin/mysqldlinux-vdso.so.1 (0x00007fff97105…

Blazor 组件:创建、生命周期、嵌套和 UI 集成

在本文中&#xff0c;您将获得以下问题的答案。 什么是 Blazor 组件&#xff1f;如何使用组件&#xff1f;Blazor 组件的生命周期是什么&#xff1f;我们可以从一个组件调用另一个组件吗&#xff1f;如何创建 Blazor 组件&#xff1f;在组件中哪里写 C# 代码&#xff1f; 什么…

碳化硅陶瓷膜的生产工艺和应用

一、生产工艺 碳化硅陶瓷膜的生产工艺多样&#xff0c;其中浸渍提拉法和喷涂法为两大主流技术。 浸渍提拉法 浸渍提拉法是一种广泛应用的制备方法。其过程主要包括&#xff1a;先将陶瓷颗粒或者聚合物前体分散在水或有机溶剂中&#xff0c;形成均质稳定的制膜液。随后&#xff…

深入探索C++中的AVL树

引言 在数据结构和算法的世界里&#xff0c;平衡二叉搜索树&#xff08;Balanced Binary Search Tree, BST&#xff09;是一种非常重要的数据结构。AVL树&#xff08;Adelson-Velsky和Landis发明的树&#xff09;就是平衡二叉搜索树的一种&#xff0c;它通过自平衡来维护其性质…

ELK+Filebeat+kafka+zookeeper构建海量日志分析平台

ELK是什么&#xff08;What&#xff09;&#xff1f; ELK组件介绍 ELK 是ElasticSearch开源生态中提供的一套完整日志收集、分析以及展示的解决方案&#xff0c;是三个产品的首字母缩写&#xff0c;分别是ElasticSearch、Logstash 和 Kibana。除此之外&#xff0c;FileBeat也是…

海外版coze前端代码助手

定位 解决前端同事的开发问题 参数配置 测试 支持 最屌的大模型及语音播报。 体验地址 海外版前端代码助手 需要魔法才能体验油

索尼MXF文件断电变2G恢复方法(PXW-Z280V)

PXM-Z280V算是索尼比较经典的机型&#xff0c;也是使用MXF文件格式的机型之一。近期接到很多例索尼MXF量突然不正常的案例&#xff08;如变成512字节或者2G&#xff09;&#xff0c;下面来看下这个案例。 故障存储: 128G存储卡 /文件系统&#xff1a;exFAT 故障现象: 客户反…

Centos SFTP搭建

SFTP配置、连接及挂载教程_sftp连接-CSDN博客1、确认是否安装yum list installed | grep openssh-server 2、创建用户和组 sudo groupadd tksftpgroup sudo useradd -g tksftpgroup -d /home/www/tk_data -s /sbin/nologin tksftp01 sudo passwd tksftp013. 配置SFTP注意&a…

设置浏览器互不干扰

目录 一、查看浏览器文件路径 二、 其他盘新建文件夹Cache 三、以管理员运行CMD 四、执行命令 一、查看浏览器文件路径 chrome://version/ 二、 其他盘新建文件夹Cache D:\chrome\Cache 三、以管理员运行CMD 四、执行命令 Mklink /d "C:\Users\Lenovo\AppData\Loca…

国产化ETL产品必备的特性(非开源包装)

ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行抽取、清洗&#xff08;净化&#xff09;、转换、装载、标准、集成&#xff08;汇总&#xff09;...... 最后加载到数据仓库或数据集市中&#xff0c;成为联机分析处理、数据挖掘的基础。…