大数据设计为何要分层,行业常规设计会有几层数据

大数据设计通常采用分层结构的原因是为了提高数据管理的效率、降低系统复杂度、增强数据质量和可维护性。这种分层结构能够将数据按照不同的处理和应用需求进行分类和管理,从而更好地满足不同层次的数据处理和分析需求。行业常规设计中,数据通常按照以下几个层次进行划分:

ODS(Operational Data Store)操作型数据存储
DWD(Data Warehouse Detail)数据仓库明细层
DIM(Dimensional Data Mart)维度数据集市
DWS(Data Warehouse Summary)数据仓库汇总层
TDM(Temporary Data Mart)临时数据集市
ADS(Application Data Store)应用数据存储
TMP(Temporary Storage)临时存储层
在这里插入图片描述

1.ODS(Operational Data Store)操作型数据存储:ODS层主要用于存储原始的、经过简单处理的业务数据,通常是从各个业务系统中提取的数据,保留了数据的原始状态和结构,是数据仓库中的第一层。ODS层的数据主要用于日常业务的操作和处理。

当设计大数据架构时,操作型数据存储是整个数据处理流程中的第一步。ODS的主要目的是在保持数据的原始状态的同时,提供一个中间层,用于将来自各个业务系统的数据整合、清洗和标准化,以支持后续的数据分析、报表生成和业务应用等需求。

ODS的概念

  1. 原始数据存储:ODS作为大数据架构中的第一层,主要负责存储来自不同业务系统的原始数据。这些数据通常是实时或近实时地从业务系统中抽取而来,保留了数据的原始格式和结构。
  2. 简单处理:尽管ODS层存储了原始数据,但通常也会进行一些简单的处理,例如去除重复记录、填充缺失值、解析数据等,以保证数据的一致性和可用性。
  3. 提供数据服务:除了存储和处理数据外,ODS还可以作为数据服务的提供者,为其他系统和业务流程提供数据访问接口,使其能够实时获取到最新的业务数据。

ODS的设计思路

  1. 数据集成:ODS的设计需要考虑如何有效地集成来自不同业务系统的数据。这可能涉及到数据抽取、转换和加载(ETL)过程,以确保数据能够被正确地捕获、整合和存储。
  2. 数据质量保证:在数据进入ODS之前,需要进行一定程度的数据质量检查和修复,以确保数据的准确性、完整性和一致性。这包括检测并处理重复数据、缺失值、错误格式等问题。
  3. 数据标准化:为了支持后续的数据分析和应用,ODS中的数据通常需要进行标准化,以确保不同来源的数据能够在语义上一致。这可能涉及到数据格式的统一、命名规范的制定等方面。
  4. 实时性需求:根据业务需求,ODS可能需要实现实时数据处理和更新,以确保业务系统能够及时获取到最新的数据。因此,需要考虑如何实现高效的数据抽取和加载机制,以及实时处理的技术方案。
  5. 扩展性和性能:随着业务的发展和数据量的增长,ODS需要具备良好的扩展性和性能,以应对不断增长的数据存储和处理需求。因此,在设计ODS时需要考虑到数据分区、索引优化、集群部署等方面。
  6. 安全性:由于ODS层存储了原始的业务数据,因此需要采取必要的安全措施,保护数据的机密性和完整性,防止数据泄露和不当使用。
  7. 数据访问接口:ODS需要提供适当的数据访问接口,以便其他系统和应用程序能够方便地访问和使用其中的数据。这可能包括API接口、数据库连接等方式。

DWD(Data Warehouse Detail)数据仓库明细层
DWD层用于存储经过清洗、转换、集成等处理后的详细数据,通常包括事实表和维度表,是数据仓库中的核心层。DWD层的数据通常被用于复杂的数据分析、报表生成等任务。

DWD的概念

  1. 数据清洗与转换:DWD层接收来自ODS层的数据,并对其进行清洗和转换。这包括去除错误、重复、不完整或不一致的数据,以及将数据转换成适合分析和报表生成的格式。

  2. 数据集成与统一:DWD层负责将来自不同业务系统的数据进行集成和统一,以确保数据在整个数据仓库中的一致性和可比性。这可能涉及到数据合并、标准化、规范化等操作。

  3. 建模与标记:在DWD层中,数据通常会按照维度建模的方式进行组织和标记。这包括将数据划分为事实表(包含业务事实数据)和维度表(包含描述性维度数据),以支持多维分析。

  4. 历史数据管理:DWD层也负责管理历史数据,包括记录数据的变化历史、跟踪数据的版本信息等,以支持时间序列分析和趋势分析。

  5. 数据质量保证:在DWD层,还需要实施一系列数据质量控制措施,以确保数据的准确性、完整性和一致性。这可能包括数据验证、异常检测、数据修复等操作。

DWD的设计思路

  1. 业务需求分析:在设计DWD层时,首先需要深入了解业务需求,明确需要分析的业务指标和报表需求,以便确定数据模型和转换规则。
  2. 数据建模:基于业务需求,设计合适的数据模型,包括事实表和维度表的定义,以及它们之间的关联关系。这需要考虑业务过程、数据粒度、数据关系等因素。
  3. 数据清洗与转换:实施数据清洗和转换操作,包括去重、填充缺失值、数据格式转换、计算衍生指标等,以保证数据的质量和一致性。
  4. 数据集成与统一:将来自不同来源的数据进行集成和统一,确保数据的一致性和可比性。这可能涉及到数据合并、标准化、规范化等操作。
  5. 数据质量管理:实施数据质量管理措施,包括数据验证、异常检测、数据修复等操作,以确保数据的准确性和完整性。
  6. 性能优化:针对DWD层的性能优化,可以采取一系列措施,包括数据分区、索引优化、查询优化等,以提高数据处理和查询的效率。
  7. 历史数据管理:对于需要保留历史数据的业务需求,需要设计合适的历史数据管理策略,包括数据的版本控制、变化跟踪等操作。
  8. 安全性管理:在设计DWD层时,也需要考虑数据的安全性管理,包括数据权限控制、数据加密、访问审计等方面。

DIM(Dimensional Data Mart)维度数据集市
DIM层是在DWD层基础上构建的,用于存储维度化的数据,通常包括各种维度表。维度数据集市主要用于支持多维分析、OLAP(联机分析处理)等业务需求。

DIM的概念:

  1. 维度化数据存储:维度数据集市主要用于存储与业务相关的维度数据,例如时间、地域、产品、客户等。这些维度数据通常是具有层级结构的,并且对于分析和报表生成非常重要。
  2. 支持多维分析:维度数据集市是支持多维分析(OLAP)的关键组成部分。通过将事实数据与各种维度数据关联起来,可以进行复杂的多维度分析,发现数据间的关联和趋势。
  3. 提供一致的维度视图:维度数据集市提供了一致的维度视图,以便不同部门和用户可以使用相同的维度定义和标准化的数据。这有助于确保数据分析的一致性和可比性。
  4. 支持业务智能应用:维度数据集市是许多业务智能应用的基础,包括报表、仪表盘、数据挖掘等。通过将维度数据与事实数据关联起来,可以为用户提供丰富的分析和可视化功能。

DIM的设计思路:

  1. 确定维度:首先需要确定需要存储的维度数据。这可能涉及到与业务部门的沟通,了解业务需求和关键维度,例如时间、地域、产品、客户等。
  2. 设计维度模型:基于确定的维度,设计相应的维度模型。维度模型通常由维度表和事实表组成,其中维度表包含维度数据,而事实表包含度量数据。
  3. 建立维度表:根据维度模型设计维度表,包括定义维度的属性、层级关系等。维度表的设计需要考虑到数据的完整性、一致性和易用性。
  4. 填充维度数据:将维度数据填充到维度表中。这可能涉及到从不同数据源中抽取、转换和加载维度数据的过程,确保数据的准确性和完整性。
  5. 维护维度数据:维度数据可能会随着时间的推移而发生变化,因此需要建立相应的维度数据维护机制,包括更新、插入、删除等操作,以保持数据的最新和一致。
  6. 建立维度关系:将维度表与事实表进行关联,建立维度关系。这有助于进行多维分析,发现数据间的关联和趋势。
  7. 性能优化:为了提高维度数据集市的查询性能,可以采取一系列性能优化措施,包括索引优化、分区管理、数据压缩等。
  8. 安全性管理:在设计维度数据集市时,也需要考虑数据的安全性管理,包括数据权限控制、数据加密、访问审计等方面。

DWS(Data Warehouse Summary)数据仓库汇总层
DWS层用于存储经过聚合、汇总等处理后的数据,通常包括汇总后的事实表。DWS层的数据通常被用于生成汇总报表、支持决策分析等任务。

DWS的概念:

  1. 数据聚合与汇总:DWS层主要用于存储经过聚合、汇总等处理后的数据,以提供高层次的数据视图和分析能力。这些汇总数据通常是从DWD层中的详细数据中计算而来,可以是按时间、地域、产品等维度进行汇总的。
  2. 提供决策支持:DWS层为决策者和管理人员提供了更高层次的数据视图,帮助他们更好地理解业务趋势、做出决策。通过预先计算和汇总数据,可以加速查询和分析过程,提高决策效率。
  3. 支持报表和仪表盘:DWS层提供了汇总的数据视图,可以用于生成各种报表、仪表盘和可视化图表,为用户提供直观的数据分析和监控能力。
  4. 优化查询性能:通过事先计算和汇总数据,可以减少查询时的计算量,提高查询性能。这对于大规模数据和复杂查询场景尤为重要。
  5. 支持复杂分析需求:DWS层提供了高层次的数据聚合和汇总,支持复杂的数据分析需求,包括趋势分析、比较分析、排名分析等。

DWS的设计思路:

  1. 确定汇总需求:首先需要明确业务需求,确定需要汇总的指标和维度。这可能涉及与业务部门的沟通,了解他们的分析和决策需求。
  2. 设计汇总模型:基于确定的汇总需求,设计相应的汇总模型。这包括定义需要汇总的指标、选择适当的汇总级别和维度等。
  3. 选择汇总方法:根据汇总模型选择合适的汇总方法,包括求和、计数、平均值等。同时,还需要考虑如何处理不同维度之间的关系,以及如何处理空值和异常值。
  4. 建立汇总表:根据汇总模型设计汇总表,包括定义表结构、选择合适的数据类型、确定索引等。这有助于提高查询性能和数据的访问效率。
  5. 填充汇总数据:将从DWD层中抽取的详细数据进行汇总,并填充到汇总表中。这可能涉及到定期的数据抽取、转换和加载过程,确保汇总数据的准确性和完整性。
  6. 维护汇总数据:汇总数据可能随着时间的推移而发生变化,因此需要建立相应的数据维护机制,包括更新、插入、删除等操作,以保持数据的最新和一致。
  7. 性能优化:为了提高汇总数据集市的查询性能,可以采取一系列性能优化措施,包括索引优化、分区管理、数据压缩等。
  8. 安全性管理:在设计DWS层时,也需要考虑数据的安全性管理,包括数据权限控制、数据加密、访问审计等方面。

TDM(Temporary Data Mart)临时数据集市
TDM层是临时性的数据存储层,用于存储临时性的数据,通常是一些中间计算结果或者临时性的数据文件。

TDM的概念:

  1. 临时数据存储:TDM层主要用于存储在数据处理过程中产生的临时数据,例如中间计算结果、临时数据文件等。这些数据通常是在数据清洗、转换、计算等阶段产生的,是数据处理过程中的中间产物。
  2. 支持数据流程:TDM层为数据处理流程提供了临时的数据存储功能,帮助管理数据处理过程中的中间结果。这有助于确保数据处理流程的连续性和可靠性。
  3. 减少重复计算:通过将中间计算结果存储在临时数据集市中,可以避免重复计算相同的数据,提高数据处理效率。
  4. 支持数据调试和分析:TDM层存储了数据处理过程中的中间结果,可以帮助开发人员进行数据调试和分析,发现数据处理中的问题和异常。

TDM的设计思路:

  1. 确定临时数据需求:首先需要明确数据处理流程中产生的临时数据的类型和需求。这可能涉及到与数据工程师、分析师等相关人员的沟通,了解数据处理流程和中间数据的特点。
  2. 设计临时数据模型:根据确定的临时数据需求,设计相应的临时数据模型。这包括定义临时数据的结构、格式、存储方式等。
  3. 选择存储技术:根据临时数据的特点和需求,选择合适的存储技术。这可能涉及到文件系统、数据库、内存数据库等不同的存储方式。
  4. 建立临时数据存储:根据设计的临时数据模型和选择的存储技术建立临时数据存储。这可能涉及到建立临时数据表、设置存储参数、优化存储性能等操作。
  5. 填充临时数据:将数据处理过程中产生的临时数据填充到临时数据存储中。这通常是在数据处理流程的中间阶段完成的,确保中间数据的可用性和一致性。
  6. 数据清理和维护:定期清理和维护临时数据存储,删除不再需要的临时数据,释放存储空间,确保系统的稳定性和性能。
  7. 安全性管理:在设计TDM层时,也需要考虑数据的安全性管理,包括数据权限控制、数据加密、访问审计等方面。

ADS(Application Data Store)应用数据存储
ADS层用于存储与特定应用程序相关的数据,通常包括应用程序的配置信息、日志数据等。

ADS的概念

  1. 与应用程序相关的数据存储:ADS层主要用于存储与特定应用程序相关的数据,例如应用程序的配置信息、用户会话数据、日志数据等。
  2. 提供给应用程序访问的数据接口:ADS提供了数据访问接口,供应用程序读写数据。这样,应用程序可以将数据存储在ADS中,或者从ADS中检索数据。
  3. 与业务逻辑紧密相关:ADS中存储的数据通常与应用程序的业务逻辑密切相关。这些数据可能包括用户信息、商品信息、订单信息等,用于支持应用程序的正常运行和业务功能实现。

ADS的设计思路

  1. 确定存储需求:首先需要明确应用程序的存储需求,确定需要存储哪些类型的数据。这可能涉及到与应用程序开发团队的沟通,了解应用程序的功能和数据存储需求。
  2. 设计数据模型:根据确定的存储需求,设计相应的数据模型。这包括定义存储的数据结构、字段、关系等。
  3. 选择存储技术:根据数据模型和性能要求选择合适的存储技术。这可能涉及到关系型数据库、NoSQL数据库、内存数据库等不同的存储方式。
  4. 建立数据存储:根据设计的数据模型和选择的存储技术建立数据存储。这可能涉及到创建数据库表、设置索引、优化性能等操作。
  5. 数据填充和初始化:在应用程序启动或初始化阶段,将必要的数据填充到数据存储中。这可能包括初始化配置信息、创建用户账户、加载基础数据等。
  6. 数据访问接口设计:设计数据访问接口,供应用程序读写数据。这可能涉及到API接口设计、数据库连接配置等。
  7. 安全性管理:在设计ADS层时,也需要考虑数据的安全性管理,包括数据权限控制、数据加密、访问审计等方面。
  8. 性能优化:为了提高ADS层的性能,可以采取一系列性能优化措施,包括索引优化、缓存机制、数据分区等。

TMP(Temporary Storage)临时存储层
TMP层用于存储临时性的数据,通常是一些处理过程中的临时文件或者缓存数据。

TMP的概念:

  1. 临时性存储:TMP层主要用于临时存储在数据处理过程中产生的数据,例如中间计算结果、临时文件、缓存数据等。这些数据通常是在数据处理过程中需要暂时存储或传递的,而不是长期存储的。
  2. 支持数据处理流程:TMP层为数据处理流程提供了临时的数据存储功能,帮助管理数据处理过程中的中间结果。这有助于确保数据处理流程的连续性和可靠性。
  3. 临时性数据传递:TMP层也可以用于临时性数据传递,例如在不同数据处理任务之间传递数据,或者在不同节点之间传递数据。这有助于提高数据处理的效率和灵活性。

TMP的设计思路

  1. 确定临时存储需求:首先需要明确数据处理过程中产生的临时数据的类型和需求。这可能涉及到与数据工程师、分析师等相关人员的沟通,了解数据处理流程和中间数据的特点。
  2. 选择临时存储技术:根据临时存储需求选择合适的临时存储技术。这可能涉及到文件系统、数据库、内存数据库等不同的存储方式。
  3. 建立临时存储空间:根据选择的临时存储技术建立临时存储空间。这可能涉及到创建临时文件夹、设置存储参数、优化存储性能等操作。
  4. 填充临时数据:将数据处理过程中产生的临时数据填充到临时存储空间中。这通常是在数据处理流程的中间阶段完成的,确保中间数据的可用性和一致性。
  5. 临时数据传递:如果需要在不同数据处理任务之间传递数据,或者在不同节点之间传递数据,可以利用临时存储空间进行临时性数据传递。
  6. 数据清理和维护:定期清理和维护临时存储空间,删除不再需要的临时数据,释放存储空间,确保系统的稳定性和性能。
  7. 安全性管理:在设计TMP层时,也需要考虑数据的安全性管理,包括数据权限控制、数据加密、访问审计等方面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/513401.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

java框架学习——注解/元注解概述及使用案例

前言: 整理下学习笔记,打好基础,daydayup!!! 注解 注解(Annotation)是java代码里的特殊标记。作用为:让其他程序根据注解信息来决定怎么执行该程序,如:Override,Test等。同时可以根…

安装pillow库的方法最终解答!

安装pillow库,记录留痕。 Pillow库是一个非常强大的图像处理库。它提供了广泛的图像处理功能,让我们可以轻松地操作图像,实现图像的转换、裁剪、缩放、旋转等操作。此外,Pillow还支持多种图像格式的读取和保存,包括JP…

「每日跟读」句型公式 第2篇

「每日跟读」句型公式 第2篇 1. I’m thinking about____ 我在考虑____ I’m thinking about my future career (我正在思考我未来的职业) I’m thinking about our marriage (我在考虑我们的婚姻) I’m thinking about taking a vacation (我在考虑度一个假) I’m think…

【RedHat9.0】Timer定时器——创建单调定时器实例

一个timer(定时器)的单元类型,用来定时触发用户定义的操作。要使用timer的定时器,关键是要创建一个定时器单元文件和一个配套的服务单元文件,然后启动这些单元文件。 定时器类型: 单调定时器:即…

回溯算法 DFS

目录 回溯算法和dfs的区别回溯算法基本框架例题:【1,2,3】的全排列代码详解完整代码 DFS 本文思路、代码均参考于:https://labuladong.online/algo/essential-technique/backtrack-framework-2/#%E4%B8%80%E3%80%81%E5%85%A8%E6%8E%92%E5%88%…

【数字图像处理】图像的最近邻插值、双线性插值和双三次插值

图像最近邻插值、双线性插值和双三次插值 用 O ( X , Y ) O(X,Y) O(X,Y)表示 H W H\times W HW的原始图像, G ( X ^ , Y ^ ) G(\hat{X},\hat{Y}) G(X^,Y^)表示 H ^ Y ^ \hat{H}\times\hat{Y} H^Y^的目标图像。 最近邻插值 最近邻插值法令目标图像在 ( x ^ , y…

深入理解直播美颜SDK背后的深度学习原理

直播美颜SDK技术背后涉及了深度学习原理的应用,今天我将为大家讲解美颜SDK其中的深度学习算法,还有一些基本原理与关键技术。 一、深度学习在直播美颜中的应用 直播美颜SDK的核心是基于深度学习的算法模型。这些模型通常由多个卷积神经网络组成&#xf…

SCI一区 | Matlab实现BES-TCN-BiGRU-Attention秃鹰算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测

SCI一区 | Matlab实现BES-TCN-BiGRU-Attention秃鹰算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测 目录 SCI一区 | Matlab实现BES-TCN-BiGRU-Attention秃鹰算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测预测效果基本介绍模型描述程序…

VS2022配置boost库-Windows为例

1. boost库下载 1)下载boost库源码:https://www.boost.org/ 2)以1.81版本为例,安装包如下 3)下载后解压 比如我是放在E盘下面的boost文件夹 2. 安装配置 1)打开VS2022命令行 2)切换安装…

智慧城市治理:构建全域覆盖的城市时空感知体系

TSINGSEE青犀AI算法中台是一款平台型产品,专注于提供各行业中小场景部署解决方案。平台具备接入广、性能强、支持跨平台、芯片国产化等特点,可提供丰富的视图接入能力和智能分析能力。 平台采用了多项IT高新技术,包括视频编解码技术、嵌入式…

蓝桥杯刷题-04-岛屿个数-DFS

#include <iostream> #include<bits/stdc.h> #define int long long using namespace std; const int N2e510; typedef pair<int,int>pii;map<pii, int>st;//记录从{x&#xff0c;y}的距离是多少 int a[N];//存储原始路径vector<pii>edge[N];//存…

C语言 | Leetcode C语言题解之第6题Z字形变换

题目&#xff1a; 题解&#xff1a; char * convert(char * s, int numRows){int n strlen(s), r numRows;if (r 1 || r > n) {return s;}int t r * 2 - 2;char * ans (char *)malloc(sizeof(char) * (n 1));int pos 0;for (int i 0; i < r; i) { // 枚举矩阵的…

回溯算法|46.全排列

力扣题目链接 class Solution { public:vector<vector<int>> result;vector<int> path;void backtracking (vector<int>& nums, vector<bool>& used) {// 此时说明找到了一组if (path.size() nums.size()) {result.push_back(path);re…

Acwing.1388 游戏(区间DP对抗思想)

题目 玩家一和玩家二共同玩一个小游戏。 给定一个包含 N个正整数的序列。 由玩家一开始&#xff0c;双方交替行动。 每次行动可以在数列的两端之中任选一个数字将其取走&#xff0c;并给自己增加相应数字的分数。&#xff08;双初始分都是 0分&#xff09; 当所有数字都被…

做好产品定位的3个重点

产品定位对于项目而言至关重要&#xff0c;正确的产品定位有助于项目锁定目标市场&#xff0c;精准满足客户需求。通过差异化产品策略&#xff0c;让产品在众多竞品中脱颖而出&#xff0c;形成独特竞争优势&#xff0c;从而有助于产品价值的实现。 因此做好产品定位迫在眉睫&am…

【智能算法】猎豹优化器(CO)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献 1.背景 2022年&#xff0c;MA Akbari等人受到自然界中猎豹捕猎行为启发&#xff0c;提出了猎豹优化器&#xff08;The Cheetah Optimizer&#xff0c;CO&#xff09;。 2.算法原理 2.1算法思想 CO法对猎…

软件测试学习(一)

1.软件测试的定义 软件是控制计算机硬件工作的工具。 软件基本组成&#xff1a;客服端、服务器、数据库 软件产生过程&#xff1a;需求产生->需求文档->设计效果图->产品开发->产品测试->部署上线 软件测试的定义&#xff1a;使用技术手段来验证软件产品是否…

Java编程使用CGLIB动态代理介绍与实战演示

文章目录 前言技术积累核心概念主要功能适用场景与JDK动态代理的对比 实战演示定义待代理的目标类实现MethodInterceptor接口使用代理对象 测试结果写在最后 前言 在Java编程中&#xff0c;CGLIB (Code Generation Library) 是一个强大的高性能代码生成库&#xff0c;它通过生…

5.Python数据分析—Pandas数据结构详讲

5.Python数据分析—Pandas数据结构详讲 摘要个人简介简介Series定义和特点创建方法属性和方法 DataFrame定义和特点创建方法数据获取和操作 索引对象种类和应用作用和管理 摘要 Pandas是一个开源的Python数据分析库&#xff0c;提供了高性能、易用的数据结构和数据分析工具。它…

向量数据库实战介绍

本文将介绍三种常用的向量数据库&#xff1a;faiss, Milvus和Qdrant&#xff0c;并给出一个具体的使用例子。 向量数据库&#xff08;Vector Database&#xff09;是一种专门用于存储、管理、查询、检索向量的数据库&#xff0c;主要应用于人工智能、机器学习、数据挖掘等领域。…