计算机三级数据库技术备考笔记(十四)

第十四章 数据仓库与数据挖掘

  • 决策支持系统的发展
    • 决策支持系统及其演化
      • 操作型数据(Operalional Data)是指由企业的基本业务系统所产生的数据,操作型数据及相应数据处理所处的环境,即用于支持企业基本业务应用的环境,一般被称为联机事务处理(0nLine Transaction Processing,0LTP)环境,OLTP环境中的企业各种基本业务应用系统称为操作型系统。
      • 决策支持系统(Decision Support System,DSS):是综合利用大量数据,有机组合众多模型(数学模型和数据处理模型),通过人机交互,辅助各级决策者实现科学决策的系统。
    • 基于数据仓库的决策支持系统
      • 基于数据仓库的决策支持系统。这种体系结构以数据仓库为核心,数据仓库将企业决策支持所需的数据集成在一起,构成一个集成的、一致而稳定的数据源。企业内部的操作型系统和一些外部数据源构成了数据仓库的数据源。

      • 在这种体系结构中,数据仓库是核心,操作型系统是基本数据源,决策支持系统是数据的需求者。其中主要存在两类数据:原始数据和导出数据。原始数据一般来自于企业操作型系统,因此,也可以称之为操作型数据。导出数据则是为了提高数据查询和管理效率,根据操作型数据计算得到的数据,常用于支持分析型应用。因此,一般将这种数据称为分析型数据。
  • 数据仓库技术概述
    • 数据仓库的概念与特性
      • 数据仓库是一个面向主题的,集成的,非易失的,且随时间变化的数据集合。用来支持管理人员的决策。
      • 特性:面向主题、集成、仓库不可更新、随时间变化
    • 数据仓库的体系结构与环境

      • 从数据层次角度来看,典型的数据仓库的数据体系结构主要包括操作型数据、操作型数据存储(0perational Data Store),数据仓库(Data Warehouse)和数据集市(Data Mart),也可以包括个体层(Individual)数据。
      • 从功能结构上看,整个体系中的功能可以分为数据处理,数据管理和数据应用三个层次。数据处理功能主要完成各层数据之间的流转功能,主要包括数据集成和数据维护等功能;数据管理对数据仓库中的数据进行安全控制,监控和元数据管理等功能:数据应用层次根据企业情况,可以包括各种类型的信息型应用或分析应用。
    • 数据仓库的数据组织

      • 在这个结构中,数据仓库中的数据分为早期细节级、当前细节级、轻度综合级和高度综合级四个级别。来自操作型环境中的源数据经过集成后,进入当前细节级。根据系统的需要,可能需要对当前细节级的数据进行轻度的综合(汇总)或进一步的高度综合,从而得到轻度综合级数据和高度综合级数据。老化以后的细节数据将进人早期细节级。
      • 粒度:系统中存在不同综合级别的数据,一般将综合级别称为粒度。粒度越大,表示综合程度越高;粒度越小,表示综合程度越低。
      • 数据分区,数据分区的方式可以分成系统层分区和应用层分区两种,两者之间存在一定的区别:
        ①系统层分区是数据库系统提供的机制,各个分区在逻辑上是一个表,在物理上属于不同的分区。数据库管理系统知道各分区间的逻辑关系,也就是说数据库管理系统管理逻辑上的表和物理上的分区之间的关系;
        ​②应用层分区由应用代码实现,不同的分区在逻辑上和物理上都属于不同的表,如何分区由开发者和程序员控制,数据库管理系统并不知道分区间存在什么逻辑关系
    • 元数据
    • 操作性数据存储(Operational data storage)
      • 人们提出这个数据存储层的最初目的是支持一些特殊的应用功能。主要包括即时(up-to-second) 0LAP(0nLine Analytical Processing)和全局型OLTP应用。
      • 根据数据源到ODS的数据传送更新频率的高低,ODS被分为:
        • ODSⅠ:第一类ODs数据更新频率是秒级的,即操作型系统中的数据发生改变以后,儿乎是立即传送到0DS中,这类ODS建设难度很大。
        • ODSⅡ:第二类0DS的数据更新频率是小时级,如4小时更新一次,这类ODS建设难度低。
        • ODSⅢ:第三类ODS的数据更新频率是天级,一般隔夜后将数据更新到ODS中。
        • 第四类ODS是根据数据来源方向和类型区分的,第四类ODS的数据不仅包含来自操作型环境的数据,也包含由数据仓库层和数据集市层的应用反馈给0DS的一些决策结果或一些报表信息,这样可以由这类ODS向企业内外部提供相关的一些信息服务。
  • 设计与建造数据仓库
    • 数据仓库设计的需求与方法
      • 数据体系的设计
      • 应用体系的设计
    • 数据仓库的数据模型
    • 数据仓库设计步骤
      • 数据集成( Data Inegration)是将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程,是实施数据仓库的重要步骤。

      • ETL(Extract Transform Load)是实现数据集成的主要技术,即填充更新数据仓库的数据抽取、转换、装载的数据采集过程。用户只有从数据源中抽取出所需数据,再经过数据清洗,并加载到按照先前所设计的数据仓库中去以后,才能对数据仓库中的数据进行报表分析、多维分析和数据挖掘等
      • 一般常见的方法还有ELT(Extract Load Transform),越大量的资料,越复杂的转换逻辑越倾向于使用ELT。
  • 数据仓库的运行与维护
    • 数据仓库数据的更新维护
      • 维护策略
        • 实时维护
        • 延时维护
        • 快照维护
      • 捕捉数据源的变化
        • 触发器
        • 修改数据源应用程序
        • 通过日志文件
        • 快照比较法
      • 导出数据的刷新
        • 一是根据维护对象的数据源对其进行重新计算
        • 二是根据数据源的变化量在维护对象原有数据的基础上进行数据添加和修改,即增量维护
    • 数据仓库监控与元数据管理
  • 联机分析处理与多维数据模型
    • OLAP简介
    • 多维分析的基本概念
      • 在数据仓库应用中,数据的多维分析是指针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次,采用各种数据分析技术,对数据进行剖析,以使用户能从不同角度和不同层次观察和分析数据。
      • 多维模型的数据视图或数据集为多维空间中的点集,这样的数据视图被称为多维视图。多维视图中的属性分为维属性和度量属性,一个多维视图MDV的模式一般是(d1,d2,…,dn,m1,m2.,…,mm),前面n个维属性构成一个多维空间,后面m个度量属性是多维空间中的指标集。例如,(地区,月份,销售额)就是一个多维数据模式。
    • 多维分析的基本操作
      • 钻取(Drill-Down)与卷起(Roll-Up)。钻取与卷起是OLAP分析的两个最基本操作。所谓钻取是指对应于某一维逐步向更细节层方向观察数据,而卷起则反之。钻取和卷起为OLAP用户提供了足够灵活、多角度的观察数据的方法。
      • 切片(Slice)和切块(Diee)。在多维数据结构中,切片和切块实现局部数据的显示。帮助用户从众多混杂的数据中进行选择。
      • 旋转。旋转是改变一个报告或页面显示的维方向,通过旋转可以得到不同视角的数据最简单的旋转就是数据交叉。
    • OLAP的实现方式
      • 基于多维数据库的0LAP(MOLAP)
      • 基于关系数据库的0LAP(ROLAP)
      • 混合型的OLAP(HOLAP)
  • 数据挖掘技术
    • 数据挖掘可以简单地理解为从大量数据中提取或挖掘知识
    • 数据挖掘步骤
      • 数据准备
        • 数据选取,确定操作对象
        • 数据预处理
        • 数据变换
      • 数据挖掘
        • 确定挖掘的任务或目的
        • 选择实现算法(考虑因素:数据特点、用户或实际运行系统的要求)
      • 结果的解释评估
    • 关联规则挖掘
    • 分类挖掘
    • 聚类挖掘
    • 时间序列分析
  • 错题笔记
    • OLTP是对数据库联机的日常操作,通常是对一条记录的查询和修改,要求快速响应用户的请求,对数据的安全性、完整性及事物吞吐量要求很高。而0LAP是对数据的查询和分析操作,通常是对海量历史数据的查询和分析,要访问的数据量非常大,查询和分析操作十分复杂。又因为0LAP为宏观分析,0LTP为微观操作,所以前者面向中上层和决策者使用,而后者面向企业的中下层业务人员使用。
    • 由于有样本集和测试集之分,又有已有的类别标签,所以属于监督学习。分类:通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y。分类属于监督学习。聚类:根据在数据中发现的描述对象及其关系的信息,将数据对象分组,组内的对象相互之间是相似的,而不同组中的对象则不同。组内的相似性越大,组间差别越大,聚类就越好,属于无监督学习。关联规则挖掘:发现隐藏在大型数据集中的有意义的联系。多维分析是指各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询多维分析处理。
    • 操作型数据对性能要求较高、无冗余。操作型数据与分析型数据的区别如以下所示:

    • 数据仓库有四个特点:
      • ①面向主题,操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据按照一定的主题域进行组织。主题是一个抽象概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关;
      • ②集成的,面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关干整个企业的一致的全局信息;
      • ③稳定的,操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业诀策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新;
      • ④反映历史变化,操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/544684.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

COMSOL多孔介质流仿真

使用Comsol进行多孔介质流仿真_哔哩哔哩_bilibili 目录 多孔介质 饱和多孔介质中的流动 达西定律 Brinkman方程:用于过渡区 裂隙流 变饱和多孔介质流 理查兹方程 多孔介质多相流 多物理场耦合 多孔介质中的传热 多孔弹性接口 多孔介质稀物质传递 多孔介质…

c# 无处不在的二分搜索

我们知道二分查找算法。二分查找是最容易正确的算法。我提出了一些我在二分搜索中收集的有趣问题。有一些关于二分搜索的请求。我请求您遵守准则:“我真诚地尝试解决问题并确保不存在极端情况”。阅读完每个问题后,最小化浏览器并尝试解决它。 …

NSL-KDD数据集详细介绍及下载

链接:https://pan.baidu.com/s/1hX4xpVPo70vwLIo0gdsM8A?pwdq88b 提取码:q88b 一般认为数据质量决定了机器学习性能的上限,而机器学习模型和算法的优化最多 只能逼近这个上限。因此在数据采集阶段需要对采集任务进行规划。在数据采集之前, 主要是从数据…

第十二讲 查询计划 优化

到目前为止,我们一直在说,我们得到一个 SQL 查询,我们希望可以解析它,将其转化为某种逻辑计划,然后生成我们可以用于执行的物理计划。而这正是查询优化器【Optimizer】的功能,对于给定的 SQL ,优…

.net框架和c#程序设计第三次测试

目录 一、测试要求 二、实现效果 三、实现代码 一、测试要求 二、实现效果 数据库中的内容&#xff1a; 使用数据库中的账号登录&#xff1a; 若不是数据库中的内容&#xff1a; 三、实现代码 login.aspx文件&#xff1a; <% Page Language"C#" AutoEventW…

DB schema表中使用全局变量及在DB组件中查询

DB schema表中使用全局变量及在DB组件中查询 规则如下&#xff1a; 使用如下&#xff1a; 如果在unicloud-db组件上不加判断条件&#xff0c;就会报错&#xff0c;并进入到登录页。 那么就会进入到登录页&#xff0c;加上了判断条件&#xff0c;有数据了就不会了。 因为在sc…

TQ15EG开发板教程:在MPSOC上运行ADRV9371(vivado2018.3)

首先需要在github上下载两个文件&#xff0c;本例程用到的文件以及最终文件我都会放在网盘里面&#xff0c; 地址放在本文最后。首先在github搜索hdl选择第一个&#xff0c;如下图所示 GitHub网址&#xff1a;https://github.com/analogdevicesinc/hdl/releases 点击releases…

【Maven工具】

maven Maven是一个主要用于Java项目的构建自动化工具。它有助于管理构建过程&#xff0c;包括编译源代码、运行测试、将编译后的代码打包成JAR文件以及管理依赖项。Maven使用项目对象模型&#xff08;POM&#xff09;文件来描述项目配置和依赖关系。 Maven通过提供标准的项目…

分布式系统中的唯一ID生成方法

通常在分布式系统中&#xff0c;有生成唯一ID的需求&#xff0c;唯一ID有多种实现方式。我们选择其中几种&#xff0c;简单阐述一下实现原理、适用场景、优缺点等信息。 目录 数据库多主复制UUID工单服务器雪花算法总结 数据库多主复制 数据库通常有自增属性&#xff0c;在单机…

解决vue启动项目报错:npm ERR! Missing script: “serve“【详细清晰版】

目录 问题描述问题分析和解决情况一解决方法情况二&#xff08;常见于vue3&#xff09;解决方法情况三解决方法 问题描述 在启动vue项目时通常在控制台输入npm run serve 但是此时出现如下报错&#xff1a; npm ERR! Missing script: "serve" npm ERR! npm ERR! T…

80% 的人都不会的 15 个 Linux 实用技巧

熟悉 Linux 系统的同学都知道&#xff0c;它高效主要体现在命令行。通过命令行&#xff0c;可以将很多简单的命令&#xff0c;通过自由的组合&#xff0c;得到非常强大的功能。 命令行也就意味着可以自动化&#xff0c;自动化会使你的工作更高效&#xff0c;释放很多手工操作&…

纸制品ERP怎么样

在纸制品行业中&#xff0c; ERP系统的应用已经成为提升企业竞争力的关键因素。本文将探讨万达宝ERP系统在制造成本控制、商品生命周期管理以及自动对接主流平台方面的作用&#xff0c;并分析其在业务流程优化、高效调节各类关系以及多种模式生产方面的特点和益处。 制造成本控…

【数据结构(六)】队列

❣博主主页: 33的博客❣ ▶️文章专栏分类:数据结构◀️ &#x1f69a;我的代码仓库: 33的代码仓库&#x1f69a; &#x1faf5;&#x1faf5;&#x1faf5;关注我带你学更多数据结构知识 目录 1.前言2.概念3.队列的使用4.循环队列5.双端队列6.经典习题6.1队列实现栈6.2栈实现队…

【学习笔记十】EWM自动产品包装配置

一、确定包装物料建议的程序 1.定义内向交货处理的凭证类型 2.确定包装物料建议的程序确定原理 使用可以确定包装材料建议的过程来指定业务代码。系统使用这些业务代码查找包装规格。包装期间&#xff0c;系统可建议包装材料。如果系统确定包装规格并建议包装材料&#xff0c;…

Maven创建项目

目录 1.创建项目 2.从Maven Repository: Search/Browse/Explore (mvnrepository.com)链接&#xff0c;下载API 3.1.0 3.在main文件内创建webapp文件夹&#xff0c;再webapp文件夹内创建WEB-INF文件夹&#xff0c;在WEB-INF文件夹内创建web.xml 4.网络编程 5.打包 6.部署 …

Python学习笔记16 - 函数

函数的创建和调用 函数调用的参数传递 函数的返回值 函数的参数定义 变量的作用域 递归函数 斐波那契数列 总结

网络编程套接字(二)之UDP服务器简单实现

目录 一、服务端UdpServer 1、udp_server.hpp 1、服务器的初始化 2、服务器的运行 2、udp_server.cc 二、客户端UdpClient udp_client.cc 三、完整代码 一、服务端UdpServer 1、udp_server.hpp 首先&#xff0c;我们在该文件中&#xff0c;将服务器封装成一个类&#…

网络抓包工具使用

一、下载安装 &#xff08;1&#xff09; linux&#xff1a; ① 使用 yum install tcpdump -y 安装 **tcpdump**工具 ② 编译安装 yum -y install gcc-c yum -y install flex yum -y install bison官网下载tcpdump和libpcap 官网地址:https://www.tcpdump.org/index.html#lat…

网红天水海英麻辣烫改名:还是商标的问题!

近日火爆网络的天水海英麻辣烫改名&#xff0c;改成“哈海英麻辣烫”&#xff0c;并打了TM&#xff0c;表示此商标名称商标局已经受理并下发通知书&#xff0c;普推知产老杨检索分析&#xff0c;改名的主要原因还是商标。 对于餐饮店和麻辣烫核心类别就在43类别及30类方便食品&…

表格单列相同字段值合并

用specName(el.specName row.specName)和id的区别(el.id row.id)&#xff0c;使用id的时候id是唯一值&#xff0c;判断的时候不会出现重复情况&#xff0c;使用specName的时候&#xff0c;如果有重复的值&#xff0c;会出现合并错位的情况。 解决方案&#xff1a;先按照specT…