第十一章数据仓库和商务智能10分

【数据仓库-后端,商务智能-前端】
基本算法:关联关系(牵手-谈恋爱),集群关系(杭州人爱吃酸甜口),决策树,线性回归,贝叶斯,神经网络,时间序列
用法:精准营销,客户价值分析,旅客生命周期价值分析,风险,聚类和集群,实施需求和匹配,社会地位参数,
忠诚度和客户粘度,时间序列。

11.1 引言

数据仓库(Data Warehouse,DW),商务智能(Business Inteligence,BI)

11.1.2 目标和原则【非常重要】

一个组织建设数据仓库的目标通常有:
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。

数据仓库建设应遵循如下指导原则:
1)聚焦业务目标
确保数据仓库用于组织最优先级的业务并解决业务问题。
2)以终为始。
让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
3)全局性的思考和设计,局部性的行动和建设。
让最终的愿景指导体系架构,通过集中项目快速迭代构建增量交
付,从而实现更直接的投资回报。
4)总结并持续优化,而不是一开始就这样做。
以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不
替换细节数据。
5)提升透明度和自助服务。
上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向
利益相关方公开集成的数据及其流程信息。
6)与数据仓库一起建立元数据。
数据仓库成功的关键是能够准确解释数据。能回答一些基本问题,如“这个数字为
什么是 X”“这个怎么计算出来的”“这个数据哪里来的”。元数据的获取应该作为软件开发周期的一部分,元数据的管
理也应该作为数据仓库持续运营的一部分。
7)协同。
与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律。
为每种数据消费者提供正确的工具和产品。

11.1.3 基本概念

1.商务智能商务智能两层含义。

第一层含义,商务智能指的是一种理解组织诉求和寻找机会的 数据分析活动 。数据分析的结果用来提高组织决策的成功率。当人们说数据是竞争优势的关键要素时,他们其实是在说商务智能的内在逻辑:如果一个组织向自己的数据“正确提问”,他就能获得关于产品、服务及客户方面的洞见,为实现自己的战略目标做出更好的决策。
第二层含义,商务智能指的是支持这类数据分析活动的 技术集合。决策支持工具、商务智能工具的不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用,它们被用于从预算到高级分析的方方面面。

2.数据仓库

数据仓库有两个重要组成部分:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。

4.数据仓库建设的方法【一定会考】

大部分关于数据仓库构建的讨论,都受到两位有影响力的思想领袖 Bill Inmon 和 Ralph Kimball 的影响,他们各有不同的数据仓库建模和实施方法。Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据。而 Kimball 则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维模型(参见第 5 章)。虽然 Inmon 和 Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:
1)数据仓库存储的数据来自其他系统。
2)存储行为包括以提升数据价值的方式整合数据。
3)数据仓库便于数据被访问和分析使用。
4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。
5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。

【OLTP 尽量少用索引】

【数仓侧重点是 BI,但也可以做 AI,数据湖侧重 AI】
【数仓是ETL,数据湖是ELT】
【数仓是结构化数据,数据湖即可结构化也可非结构化数据】
【进入数仓数据是知道业务场景的,进入数据湖的数据业务场景不明确】
【数仓对已经发生的事情的一个总结和展现,数据湖对未来的一个预测和数据的挖掘】

Q:数仓目标是 BI
A:错,数仓侧重点是 BI。
多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数
据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少)组成。
Q:数据集市是必须要的产品嘛?
A:错,数据集市是数仓的一小部分,
Q:主数据是必须要的嘛?
A:错,数据源、ETL、核心数据仓库是必须要的。

7.数据仓库架构组件

(1)源系统
(2)数据集成
(3)中央数据仓库

数据结构的设计元素包括:
①基于性能考虑而设计的业务主键和代理主键之间的关系。
②创建索引和外键以支持维度表。
③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。

8.加载处理的方式

数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。历史数据通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载。“持续不断的数据更新”需要始终如一地规划和执行,以保证数据仓库中包含最新的数据。
在这里插入图片描述

Q:有几种方法识别增量?
A4 种:时间戳增量加载、日志表增量加载、数据库交易日志、消息增量。
Q:处理数据量最大的方法
A:全量加载。

11.2活动

11.2.3 开发数据仓库和数据集市

通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据
2)技术
3)商务智能工具

11.3 工具

11.3.3 商务智能工具的类型

常见的 OLAP 操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视。
1)切片(Slice)。切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值。
2)切块(Dice)。切块操作是数据立方体上两个以上维度的切片,或者是两个以上的连续切片。
3)向下/向上钻取(Drill down/up)。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括(向上)到最详细(向下)。
4)向上卷积(Roll-up)。卷积涉及计算一个或多个维度的所有数据关系。为此,需要先定义计算关系或公式。
5)透视(Pivot)。透视图会更改报表或页面的展示维度。

三种经典的 OLAP 实现方法如下:
1)关系型联机分析处理(ROLAP)。ROLAP 通过在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。
星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。MOLAP 通过使用专门的多维数据库技术支持 OLAP。
3)混合型联机分析处理(HOLAP)。它是 ROLAP 和 MOLAP 的结合。HOLAP 实现允许部分数据以 MOLAP 形式存储,而另一部分数据存储在 ROLAP 中。控件的实现方式各不相同,设计师对分区的组合也各有不同。

11.4 方法

驱动需求的原型,自助式商务智能,可查询的审计数据。

11.6 数据仓库/商务智能治理

11.6.5 度量指标(3 个)

3 个度量指标:使用指标、主题域覆盖率、响应时间和性能指标。

1.使用指标

数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。这些度量指标表示组织内有多少人正在使用数据仓库。为每个工具授权多少个用户账户是一个很好的开始,特别是对于审计员而言。但是,实际有多少用户连接到该工具是一个更好的度量指标,并且每个时间段由用户社区申请的查询(或与查询相当)数量对于容量规划是更好的技术指标。允许多个分析指标,如审核用户、已生成的用户查询量和使用用户。

2.主题域覆盖率

主题域覆盖百分比衡量每个部门访问仓库的程度(从数据拓扑的角度来看),还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。
将操作源映射到目标是另一种自然的扩展,它强制和验证已经收集的血缘关系和元数据,并可以提供渗透分析,确定哪些部门在使用哪些源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。

3.响应时间和性能指标

大多数查询工具会测量响应时间。通过工具检索响应或性能指标。此数据指标代表用户的数量和类型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/550289.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Adobe AE(After Effects)2015下载地址及安装教程

Adobe After Effects是一款专业级别的视觉效果和动态图形处理软件,由Adobe Systems开发。它被广泛用于电影、电视节目、广告和其他多媒体项目的制作。 After Effects提供了强大的合成和特效功能,可以让用户创建出令人惊艳的动态图形和视觉效果。用户可以…

使用大模型来实现医疗领域的隐私信息保护

大模型隐私主要分为训练阶段、推理阶段以及用户与大模型交互过程中的隐私泄露,目前的研究重点在大模型训练阶段。传统隐私保护技术主要包括联邦学习、差分隐私、同态加密等,这些技术在大模型背景下的应用挑战不断加剧:(1)联邦学习应用于大模型…

ArkTs

一、概述 ArkTs是由TypeScript扩展而来,在继承TypeScript语法的基础上进行了一系列优化,使开发者能够以更简洁、更自然的方式开发应用。 TypeScript语法: 线上网站:https://www.typescriptlang.org/zh/play 二、TS变量 变量声明: 常量声明: const b…

【高端电流检测IC储能产品应用方案】耐压45V侧轨的电流检测芯片FP137 应用于电脑电源,开关电源以及多口快充充电器,户外移动电源,适配器,电池充电器等

近年来,随着电子产品的飞速发展,对电流检测精度和可靠性的要求也越来越高。特别是在电脑电源、开关电源以及多口快充充电器、户外移动电源、适配器、电池充电器等领域,对电流检测技术的需求更是日益增长。 电流检测芯片是一种关键的电子元器…

强化学习(三)基于动态规划 Dynamic Programming 的求解方法

文章目录 1. 动态规划与强化学习的联系2. 利用动态规划求解最优价值函数2.1 案例背景2.2 策略评估(预测)2.3 策略迭代(控制) 在前文《强化学习的数学框架:马尔科夫决策过程 MDP》中,我们用马尔可夫过程抽象…

STM32 软件I2C方式读取MT6701磁编码器获取角度例程

STM32 软件I2C方式读取MT6701磁编码器获取角度例程 📍相关篇《STM32 软件I2C方式读取AS5600磁编码器获取角度例程》🌿《Arduino通过I2C驱动MT6701磁编码器并读取角度数据》🔰MT6701芯片和AS5600从软件读取对比,只是读取的寄存器和…

Adobe AE(After Effects)2024下载地址及安装教程

Adobe After Effects是一款专业级别的视觉效果和动态图形处理软件,由Adobe Systems开发。它被广泛用于电影、电视节目、广告和其他多媒体项目的制作。 After Effects提供了强大的合成和特效功能,可以让用户创建出令人惊艳的动态图形和视觉效果。用户可以…

【OpenGL实验】在python、Qt5、pyOpenGL程序的若干要点

实验效果图: 代码 目录 一、说明二、关于QGLWidget2.1 三个方便的虚函数2.2 析构函数2.3 QGLWidget析构函数 三、关于QGLWidget的三个虚函数分工3.1 initializeGL:数据准备、数据绑定分离3.2 resizeGL:视角改变函数3.3 paintGL:…

苍穹外卖分类管理

分析 需求分析 SQL的写法 1 在mapper中写 2 在xml中写 Mapper public interface CategoryMapper {/*** 插入数据* param category*/AutoFill(OperationType.INSERT)Insert("insert into category(type, name, sort, status, create_time, update_time, create_user, upd…

docker安装并跑通QQ机器人实践(2)-签名服务器bs-qsign搭建

在前文中,我们详尽阐述了QQ机器人的搭建过程及其最终实现的各项功能展示。接下来,我们将转向探讨该项目基于Docker构建服务的具体实践。本篇将以QQ机器人签名服务——qsign为起点,逐步展开论述。 1 获取和运行 xzhouqd/qsign:8.9.63 镜像 1.…

【K8s】:在 Kubernetes 集群中部署 MySQL8.0 高可用集群(1主2从)

【K8s】:在 Kubernetes 集群中部署 MySQL8.0 高可用集群(1主2从) 一、准备工作二、搭建nfs服务器2.1 安装 NFS 服务器软件包(所有节点执行)2.2 设置共享目录2.3 启动 NFS 服务器2.4 设置防火墙规则(可选&am…

【ROS2】搭建ROS2-Humble + Vscode开发流程

【ROS2】搭建ROS2-Humble Vscode开发流程 文章目录 【ROS2】搭建ROS2-Humble Vscode开发流程1.基本环境配置2.搭建Vscode开发环境 1.基本环境配置 基本的环境配置包括以下步骤: 安装ROS2-Humble,可以参考这里安装一些基本的工具,可以参考…

Webrtc 信令服务器实现

webrtc建联流程图 由上图可知,所谓的信令服务器其实就是将peer的offer/candidate/answer传给对端而已。这样的话实现方式就有很多种了,目前普遍的方式HTTP/HTTPS,WS/WSS。像webrtc-demo-peerconnection就是实现HTTP这种方式。本文使用WS&…

APIGateway的认证

APIGateway的支持的认证如下: 我们从表格中可以看到,HTTP API 不支持资源策略的功能,另外是通过JWT的方式集成Cognito的。 对于REST API则是没有显示说明支持JWT认证,这个我们可以通过Lambda 自定义的方式来实现。 所以按照这个…

LangChain-Chatchat 开源知识库来了

LangChain-Chatchat 开源知识库来了 LangChain-Chatchat 架构设计LangChain-ChatChat 具体实现过程 一键本地离线部署软件环境硬件环境支持三种部署方式 LangChain-Chatchat 是基于 ChatGLM 等大语言模型与 LangChain 等应用框架实现,开源、可离线部署的 RAG 检索增…

Django数据导出与导入问题

执行: python manage.py loaddata data.json 的常见错误: * 1. UnicodeDecodeError: utf-8 codec cant decode byte 0xff in position 0: invalid start byte* 2. raise JSONDecodeError("Unexpected UTF-8 BOM (decode using utf-8-sig)",...django.core.serializer…

vue的就地更新与v-for的key属性

vue的就地更新 Vue中的就地更新到底是怎么回事,为什么会存在就地更新的现象? 注意下面的例子,使用v-for指令时,没有绑定key值,才有就地更新的现象,因为Vue默认按照就地更新的策略来更新v-for渲染的元素列表…

windows Webrtc +VS2019 (M124)下载编译以及调通测试demo

下载depot tools 设置梯子 git config --global http.proxy 127.0.0.1:10000 git config --global https.proxy 127.0.0.1:10000 下载 $ git clone https://chromium.googlesource.com/chromium/tools/depot_tools.git 设置depot_tools目录为环境变量 下载webrtc # 设置系统代…

CommunityToolkit.Mvvm笔记1---Instruction

CommunityToolkit.Mvvm是一个官方社区套件(Windows Community Toolkit),延续了MVVMLight的风格,是一个现代、快速和模块化的 MVVM 库。 它是 .NET 社区工具包的一部分。 第一:入门安装 1,用NuGget安装,搜索Community…

.NET 发布,部署和运行应用程序

.NET应用发布 发布.Net应用有很多种方式,下面列举三种发布方式: 单文件发布跨平台发布Docker发布 单文件发布 右键工程,选择“发布”,部署模式选择“独立”,目标运行时选择自己想要部署到的系统,我这里用…