数据仓库发展历史

数据仓库发展历史

一、演变

数据仓库是企业中用于存储、整合和分析数据的关键组件。随着时间的推移,数据仓库经历了三代演化:从需求驱动到平台化、从平台化到智能(AI)化

二、第一代(过时)

第一代数据仓库演化:需求驱动的分层架构

第一代数据仓库的核心思想是根据需求分析和业务模型构建分层架构,使用工具如Hive实现数据的汇聚和整合,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C704aQx5-1689948599302)(Aspose.Words.dc4cd3c6-b194-456b-9f3d-aa2c39c07080.001.png)]

一代数据仓库大多通过HiveSQL进行开发,新的业务需求来临时会重新设计该需求所需要的表结构进而满足业务需求

第一代数据仓库的优点和缺点。

优点:

  1. 结构化和规范化:第一代数据仓库采用分层架构,将数据按照一定的规则和结构进行组织,使数据具有一定的结构性和规范性。这有助于提高数据的可管理性和可维护性。
  2. 易于控制和管理:通过分层架构,数据仓库可以更好地进行控制和管理。不同的层次可以根据业务需求进行划分,每个层次都有明确的职责和用途,从而更好地管理和维护数据。
  3. 易于访问和查询:通过数据集市层,其他应用可以方便地访问和查询数据。这样的架构可以提供一致性的数据视图,使得数据分析和报表生成更加高效和方便。

缺点:

  1. 需求变更困难:第一代数据仓库在面对需求变更时存在一定的困难。每当有新的需求出现时,需要重新设计和调整各个层次的业务表结构,这涉及到较多的工作量和时间投入。
  2. 增加开发和维护成本:由于需要对各个层次的业务表进行调整和修改,第一代数据仓库的开发和维护成本相对较高。这对于资源有限的企业来说可能是一个挑战。

示例:假设一个电子商务企业拥有一个第一代数据仓库,其中包括原始数据层、数据清洗和转换层、数据集市层。

当业务部门需要生成一份按产品类别划分的销售报表时,数据仓库团队需要重新调整和设计数据集市层的业务表结构,以满足新的报表需求。

三、第二代(成熟)

第二代数据仓库演化:平台化的自助数据处理

第二代数据仓库的核心思想是平台化,例如观远科技、海致BDP等公司的BI产品。它提供了自助数据处理的能能力,用户可以根据自己的需求使用拖拉拽的方式生成新表,任意组合原始数据表来形成符合业务需求的分层表,如下图:

![ref1]

平台一般也内置了多种报表展示模板(折线图、饼图、桑吉图、地图等),用户只需要选择样式和数据表即可直观的查看数据,如下图:

![ref1]

第二代数据仓库的优点和缺点

优点:

  1. 灵活性和自助性:平台化的方法为用户提供了更大的灵活性和自助性。用户可以根据需要自由组织和转换数据,无需依赖专门的团队进行数据模型的调整。他们可以根据自己的需求随时创建新的表格和视图,而不会对已有的数据结构产生影响。
  2. 减少开发和维护成本:由于用户可以自主创建和管理数据表,第二代数据仓库减少了对数据仓库团队的依赖,从而降低了开发和维护成本。这对于资源有限的企业来说是一个重要的优势。
  3. 更快的时间到价值:平台化的自助数据处理可以帮助用户更快地实现数据驱动的价值。用户可以根据自己的需求和创意快速构建数据模型和报表,从而更快地获得有关业务的见解和洞察。

缺点:

  1. 数据质量风险:在自助数据处理的过程中,用户可能缺乏足够的数据质量意识,从而导致生成的分层表在数据准确性和一致性方面存在风险。因此,对数据质量的管理和监控仍然是一个重要的挑战。
  2. 数据安全和权限控制:由于用户可以自由地创建和访问数据表,数据安全和权限控制变得更加复杂。确保敏感数据的安全性和保密性仍然是一个重要的考虑因素。

示例:假设一个人力资源部门需要分析员工的绩效数据和培训记录,以优化人力资源管理。通过使用第二代数据仓库平台,人力资源团队可以轻松地创建一个分层表,将员工绩效数据与培训记录进行关联,并生成按照员工绩效评级和培训成绩等指标进行分析的表。这样,人力资源团队可以更好地了解员工的绩效和培训情况,为员工发展和绩效管理提供更准确的数据支持。

通过上述示例,我们可以看到第二代数据仓库平台化方法的优点。它提供了灵活性和自助性,使用户能够根据自己的需求和创意进行数据处理和分析。它还降低了开发和维护成本,并加快了时间到价值的转化。然而,我们也要意识到它可能存在的数据质量和安全风险,因此在实际应用中需要采取相应的管理和控制措施。

四、第三代(趋势)

第三代数据仓库的趋势,即通过语音对话或文字交互方式进行数据操作和查询。这种方式结合了自然语言处理(NLP)和人工智能(AI)的技术,使得用户可以通过直接对话或书写指令来操作和查询数据,而无需手动编写复杂的查询语句或使用特定的数据分析工具。

第三代数据仓库的优点包括:

  1. 自然交互:通过语音对话或文字交互,用户可以以更自然、直观的方式与数据仓库进行交互。这使得非技术专业人员也能够方便地获取数据并进行分析,降低了使用门槛。
  2. 快速查询和分析:使用语音或文字指令可以更快速地进行数据查询和分析。用户可以直接提出问题或指示,并迅速获取结果,提高了工作效率。
  3. 提供智能建议和洞察:基于自然语言处理和人工智能技术,第三代数据仓库可以分析用户的意图和查询,并提供智能建议、洞察和可视化结果。这样,用户可以更深入地理解数据,并做出更有价值的决策。
  4. 减少技术依赖:第三代数据仓库的自然语言交互方式使得非技术专业人员也能够轻松地操作数据,减少了对技术团队的依赖,提高了数据的可普及性和可用性。

尽管第三代数据仓库在交互方式和用户体验方面带来了许多优点,但仍然存在一些挑战:

  1. 数据理解和准确性:确保系统正确理解用户的指令并返回准确的结果是一个挑战。自然语言处理技术仍然面临着理解语义、处理歧义等问题。
  2. 数据安全和隐私:通过语音对话或文字交互操作数据涉及到数据安全和隐私的问题。确保数据的保密性和权限控制仍然是一个重要的考虑因素。
  3. 技术成熟度和可用性:目前,第三代数据仓库的技术和产品仍处于不断发展和演进的阶段。市场上的可用产品和解决方案相对较少,技术的成熟度和稳定性有待提高。

示例:假设一个销售团队需要快速了解销售数据并做出决策。他们可以使用第三代数据仓库,通过语音对话或文字交互方式与数据仓库进行交互。

  1. 语音对话:销售团队成员可以使用语音助手或智能音箱与数据仓库进行对话。他们可以直接提问,如:“上个月我们的销售额是多少?”或者“最畅销的产品是什么?”数据仓库会通过语音识别技术将问题转化为文本,并利用自然语言处理技术解析问题的意图,然后从数据仓库中提取相应的销售数据,并通过语音回复销售团队成员。
  2. 文字交互:销售团队成员可以使用智能数据分析平台或类似的工具,通过文字输入与数据仓库进行交互。他们可以输入查询指令,如:“最近三个月的销售趋势图表”或者“按产品类别划分的销售额报告”。数据仓库将解析输入的指令,从相应的数据表中提取数据,并生成相应的可视化报告或图表,以满足销售团队的需求。

这样,销售团队可以通过直接的语音对话或文字交互方式,快速获取关键的销售数据和见解,从而支持他们做出更加及时和准确的决策。第三代数据仓库的示例突出了自然交互和智能建议的特点,使得用户能够更直观地与数据仓库进行交互,并从中获得有价值的信息。

总体而言,第三代数据仓库通过语音对话或文字交互方式为用户提供了更直观、便捷的数据操作和查询方式。它可以改善用户体验,降低技术门槛,并提供智能建议和洞察。然而,仍然需要关注数据理解的准确性、数据安全和隐私等问题。随着技术的进一步发展,第三代数据仓库有望在未来得到更广泛的应用。

五、数据仓库分层理论应用(建模)

数据仓库分层理论是一种用于组织和管理数据仓库的方法,它将数据按照不同的层次进行分层,并赋予每个层次特定的职责和用途。数据仓库分层理论有助于提高数据仓库的复用性、可维护性和可扩展性。

注意无论是第一代、第二代还是第三代数据仓库,都需要数据仓库的分层理论作为基础, 以下是关于这三代数据仓库与分层理论的总结:

第一代数据仓库:

  • 基于需求分析和业务模型构建分层架构。
  • 使用分层理论可以确保数据的结构性、规范性和管理性。
  • 分层架构将数据按照不同的层次进行组织和管理,提高了数据的可控性和可维护性。

第二代数据仓库:

  • 平台化的自助数据处理方法,用户可以自由组织和转换数据。
  • 分层理论仍然适用于第二代数据仓库,以确保数据的组织性和一致性。
  • 分层理论为用户提供了指导,帮助他们合理地组织数据,形成符合业务需求的分层表。

第三代数据仓库(趋势):

  • 通过语音对话或文字交互方式进行数据操作和查询。
  • 分层理论仍然是第三代数据仓库的基础,确保数据的组织性、一致性和可靠性。
  • 分层理论提供了数据仓库的整体架构,帮助数据仓库在语音对话和文字交互中提供更准确、可靠的结果。

综上所述,数据仓库的分层理论在这三代数据仓库中依然具有重要作用。分层理论确保数据的结构化、一致性和可管理性,帮助用户更好地组织和使用数据,从而实现更好的数据分析和决策支持。无论是哪一代的数据仓库,理解和应用分层理论都是必不可少的。

数据库分层理论详细参考:数据仓库设计理论

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/42812.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第四讲:MySQL中DDL一些基本数据类型及表的创建、查询

目录 1、创建表:2、DDL一些基本数据类型: 1、创建表: 部分单词及解析: 1、tables:表 2、comment:评论,解释 3、gender:性别 4、neighbor:邻居 1、创建表:(注:在自定义数据库操作,…

【itext7】itext7操作PDF文档之添加表单控件(单行文本框、多行文本框、单选框、复选框、下拉框、按钮)

这篇文章,主要介绍itext7操作PDF文档之添加表单控件(单行文本框、多行文本框、单选框、复选框、下拉框、按钮)。 目录 一、itext操作PDF表单 1.1、添加单行文本框 1.2、添加多行文本框 1.3、添加单选框 1.4、添加复选框 1.5、添加下拉框…

Pytorch迁移学习使用Resnet50进行模型训练预测猫狗二分类

目录 1.ResNet残差网络 1.1 ResNet定义 1.2 ResNet 几种网络配置 1.3 ResNet50网络结构 1.3.1 前几层卷积和池化 1.3.2 残差块:构建深度残差网络 1.3.3 ResNet主体:堆叠多个残差块 1.4 迁移学习猫狗二分类实战 1.4.1 迁移学习 1.4.2 模型训练 1.…

(css)滚动条样式

(css)滚动条样式 效果: /*滚动条整体样式*/ ::-webkit-scrollbar {width: 2px;/*高宽分别对应横竖滚动条的尺寸*/height: 10px; } ::-webkit-scrollbar-thumb {/*滚动条里面小方块*/border-radius: 10px;width: 2px;height: 60px;background: linear-gradient(0deg,…

CentOS7系统MBR、GRUB2、内核启动流程报错问题

目录 🥩Linux启动流程 🥩MBR修复 🍭1、模拟损坏 🍭2、重启测试 🍭3、修复MBR 🍭4、测试系统 🥩GRUB2修复 🍭1、模拟损坏 🍭2、修复GRUB2 🍭3、测试系统 &…

03. 自定义镜像 Dockerfile

目录 1、前言 2、构建镜像的方式 2.1、docker commit 2.1.1、先查看下当前的容器 2.1.2、生成该容器镜像 2.1.3、查看镜像列表 2.2、Dockerfile 2.2.1、创建Dockerfile文件 2.2.2、编写Dockerfile文件 2.2.3、构建镜像 2.2.4、使用该镜像生成容器 3、Dockerfile 3…

GO内存模型(同步机制)

文章目录 概念1. 先行发生 编译器重排同步机制init函数协程的创建channelsync 包1. sync.mutex2. sync.rwmutex3. sync.once atomic 参考文献 概念 1. 先行发生 The happens before relation is defined as the transitive closure of the union of the sequenced before and …

【微信小程序】使用iView组件库中的icons资源

要在微信小程序中使用iView组件库中的icons资源,需要先下载并引入iView组件库,并按照iView的文档进行配置和使用。 以下是一般的使用步骤: 下载iView组件库的源码或使用npm安装iView。 在小程序项目的app.json文件中添加iView组件库的引入配…

PHP中常用数组排序算法

一:冒泡排序 1:算法步骤 比较相邻项的值,如果前者比后者大,交换顺序。 进行一轮比较后,最后一个值为最大的值。 进行下一轮比较,比上次少比较一项。 以此类推,比较剩下最后一项的时候&#…

【Linux进程】进程控制(上) {进程创建:fork的用法,fork的工作流程,写时拷贝;进程终止:3种退出情况,退出码,常见的退出方法}

一、进程创建 1.1 fork的初步认识和基本使用 在linux中fork函数是非常重要的函数&#xff0c;它从已存在进程中创建一个新进程。新进程为子进程&#xff0c;而原进程为父进程。 #include <unistd.h> pid_t fork(void);返回值&#xff1a;子进程中返回0&#xff0c;父进…

ORB-SLAM2学习笔记5之EuRoc、TUM和KITTI开源数据运行ROS版ORB-SLAM2生成轨迹

文章目录 0 引言1 数据预处理1.1 EuRoc数据1.2 TUM数据1.3 KITTI数据 2 代码修改2.1 单目2.2 双目2.3 RGB-D 3 运行ROS版ORB-SLAM23.1 单目3.2 双目3.3 RGB-D ORB-SLAM2学习笔记系列&#xff1a; 0 引言 ORB-SLAM2学习笔记1已成功编译安装ROS版本ORB-SLAM2到本地&#xff0c;本…

SQL高级教程第三章

SQL CREATE DATABASE 语句 CREATE DATABASE 语句 CREATE DATABASE 用于创建数据库。 SQL CREATE DATABASE 语法 CREATE DATABASE database_name SQL CREATE DATABASE 实例 现在我们希望创建一个名为 "my_db" 的数据库。 我们使用下面的 CREATE DATABASE 语句&…

2023云曦期中复现

目录 SIGNIN 新猫和老鼠 baby_sql SIGNIN 签到抓包 新猫和老鼠 看到反序列化 来分析一下 <?php //flag is in flag.php highlight_file(__FILE__); error_reporting(0);class mouse { public $v;public function __toString(){echo "Good. You caught the mouse:&…

5.1.tensorRT基础(2)-正确导出onnx的介绍,使得onnx问题尽量少

目录 前言1. 正确导出ONNX总结 前言 杜老师推出的 tensorRT从零起步高性能部署 课程&#xff0c;之前有看过一遍&#xff0c;但是没有做笔记&#xff0c;很多东西也忘了。这次重新撸一遍&#xff0c;顺便记记笔记。 本次课程学习 tensorRT 基础-正确导出 onnx 的介绍&#xff0…

飞书ChatGPT机器人 – 打造智能问答助手实现无障碍交流

文章目录 前言环境列表1.飞书设置2.克隆feishu-chatgpt项目3.配置config.yaml文件4.运行feishu-chatgpt项目5.安装cpolar内网穿透6.固定公网地址7.机器人权限配置8.创建版本9.创建测试企业10. 机器人测试 前言 在飞书中创建chatGPT机器人并且对话&#xff0c;在下面操作步骤中…

基于DeepFace模型设计的人脸识别软件

完整资料进入【数字空间】查看——baidu搜索"writebug" 人脸识别软件(无外部API) V2.0 基于DeepFace模型设计的人脸识别软件 V1.0 基于PCA模型设计的人脸识别软件 V2.0 更新时间&#xff1a;2018-08-15 在观看了吴恩达老师的“深度学习课程”&#xff0c;了解了深…

2023/7/23周报

目录 摘要 论文阅读 1、题目和现存问题 2、问题阐述及相关定义 3、LGDL模型框架 4、实验准备 5、实验过程 深度学习 1、GCN简单分类任务 2、文献引用数据分类案例 3、将时序型数据构建为图数据格式 总结 摘要 本周在论文阅读上&#xff0c;对基于图神经网络与深度…

【蓝牙AVDTP A2DP协议】

蓝牙AVDTP A2DP 一.AVDTP1.1 AVDTP概念1.2 Source Sink整体框架1.3 AVDTP术语1.3.2 Stream1.3.2 SRC and Sink1.3.3 INT and ACP1.3.4 SEP&#xff1a; 1.4 AVDTP体系1.4.1 体系概括1.4.2 Transport Services 1.5 Signaling Procedures1.5.1 General Requirements1.5.2 Transac…

关于Arduino IDE库文件存放路径问题总结(双版本)

在开发过程中,如果不注意,库文件存放路径很乱,如果在转移系统环境时,容易忘记备份。编译过程中出现多个可用引用包的位置,为了解决这些问题,要明白各文件夹的默认路径在哪,区别在哪,如有了解不对的地方请指正。 IDE安装目录(默认C盘,自定义可以其他盘符下)IDE升级可…

2023华为OD统一考试(B卷)题库清单(持续收录中)以及考点说明

目录 专栏导读2023 B卷 “新加题”&#xff08;100分值&#xff09;2023Q2 100分2023Q2 200分2023Q1 100分2023Q1 200分2022Q4 100分2022Q4 200分牛客练习题 专栏导读 本专栏收录于《华为OD机试&#xff08;JAVA&#xff09;真题&#xff08;A卷B卷&#xff09;》。 刷的越多&…