大数据存储解决方案和处理流程——解读大数据架构(四)

文章目录

  • 前言
  • 数据存储解决方案
    • 数据集市
    • 运营数据存储(Operational Data Store)
    • 数据中心
  • 数据处理
    • 数据虚拟化和数据联合
    • 虚拟化作为 ETL 或数据移动的替代品
    • 数据目录
    • 数据市场

前言

在数字时代,数据已成为公司的命脉。但是,仅仅拥有数据是不够的,数据真正的价值在于如何有效地管理、存储和处理。

管理数据的组件就像复杂机器中的齿轮,每个都有自己的职责,但又同步工作实现共同的目标。

本文将从一些最实用的存储解决方案开始说起,包括数据集市、可实操的数据存储方案和数据中心。以及有效管理和利用数据所涉及的广泛流程,还会讨论主数据管理数据虚拟化数据目录数据市场等概念。

数据存储解决方案

数据集市

如下图所示,数据集市是数据仓库的子集,通常被设计为一个集中的数据存储库,经过优化以满足组织内某个部门或业务线(如财务、人力资源或营销)的特定需求。由于其保存的为特定的数据,数据量不大,数据集市可以为用户提供比数据仓库更精简、更易于访问的数据视图:

对于用户来说,从完整的包含大量数据的数据仓库中查询数据可能具有挑战性,为了应对这一挑战,数据集市通过从数据仓库中提取和整合相关数据并以更加用户友好的方式呈现。这样,部门内的用户可以轻松查找和检索他们需要的数据。

数据集市的主要优势之一是它们可以由各个部门创建和维护,而不是仅仅依赖大数据部门。此外,每个数据集市的结构都可以不同,以满足其服务部门的需求。这使得业务用户可以更好地控制数据;他们可以根据自己的独特需求进行定制,并使用与其领域最相关的数据结构。

针对部门定制的数据集市使用户能够更快、更轻松地访问日常运营和决策过程所需的数据。他们可以执行分析查询、生成报表并深入了解其部门的绩效,而无需查询整个数据仓库。

此外,数据集市促进数据治理和安全。每个部门都可以为其数据集市定义和实施访问策略,确保只有授权的个人才能访问特定的数据集。这有助于保护敏感信息并确保遵守数据隐私法规。

运营数据存储(Operational Data Store)

ODS 的范围比数据集市更广泛,可提供企业范围内的实时数据视图。数据集市提供了对特定领域有深入价值的数据,而 ODS 则提供了公司运营的各方面数据。

ODS 的目的是以实时或近实时的方式集成公司不同数据源的数据,供用户查询生成报表。一般,ODS 中的数据结构与其在数据源中的结构类似。然而,在集成过程中,ODS 可以清理、规范化数据并将业务规则应用于数据,以确保数据完整性,ODS 数据集成一般一天进行一次,不会有太高的频率。

我们可以(近)实时的填充 ODS,然后将 ODS 作为数据仓库的暂存区,在通过 ETL 将 ODS 中的数据加载至 DW 中,如下图所示:

ODS 和数据仓库的区别如下:

ODSDW
适用于对原始详细数据的低级别查询对转换或者聚合后的数据进行查询分析
目的生成(近)实时的报表生成历史或趋势的分析报表
数据保存时间短时间内的公司数据的完整历史记录
决策支持支持当前或近实时数据的运营和战术决策提供有关战略决策的反馈,从而实现整体的改进
数据加载频率可能每隔几分钟或每小时加载一次数据可能每天、每周、每月或每季度加载数据

案例说明
假设你正在为一家名为 ShoesForLess 的虚构零售连锁店生成库存报表,如果你只有一家零售店,并有一个数据库来跟踪订单,只需针对该数据库生成库存报表即可。但由于你有许多零售商店,每个商店都在自己的数据库中跟踪订单,因此获得最新准确库存报告的唯一方法是合并这些数据库中的订单数据,这对于让客户知道哪些商品缺货以及在供应不足时快速补货非常重要。对于这种情况,数据仓库的实时性不够。

现在假设客服接到客户的电话,询问是否有特定款式和尺码的鞋子。该客服查询 ODS 以检索有关该类型鞋子(例如,“男士跑鞋,尺码 43”)的可用性的实时数据,并返回当前库存水平。

另一方面,如果商店的经理想要了解过去一年该鞋款的销售趋势,他们可以使用 DW 进行聚合查询,对过去一年中每个月“男士跑鞋”的销售额进行求和。这提供了销售趋势的高级视图,可以为战略营销和库存决策提供相关信息。

数据中心

数据中心是一种集中式数据存储和管理系统,可帮助组织收集、集成、存储、管理和共享来自各种来源的数据,并提供对分析、报告和决策工具的轻松访问。最重要的是,数据中心消除了使用数百或数千个点对点接口在系统之间交换数据的需要。虽然数据仓库和数据湖的主要(通常是唯一)目标是为分析提供数据,但数据中心作为运营系统之间的通信和数据交换手段也很有价值:

数据中心一般与数据湖和数据仓库结合使用,数据湖存储大量原始、未处理的数据,而数据仓库存储针对分析查询优化过的结构化、转换过的数据,数据中心通过充当数据交换、协作和治理的中介来补充这些系统。
下表是数据中心和其他数据系统的比较:


数据中心数据湖关系型数据仓库数据目录数据市场
作用数据存储、集成、分发数据存储、处理、分析数据存储、处理、分析元数据管理、数据发现数据购买、销售、共享
数据存储原始或轻度处理的数据原始数据和处理后的数据高度结构化、经过处理的数据仅元数据各种格式,取决于提供商
数据结构结构化、半结构化、非结构化结构化、半结构化、非结构化结构化的仅元数据结构化、半结构化、非结构化
数据处理稍微处理,主要是整合和分发数据按需加工处理、数据分析频繁 ETL、复杂的查询不处理依赖于提供商
数据共享内置第三方第三方内置
数据所有权在公司或相关团体内在公司或相关团体内在公司或相关团体内在公司或相关团体内多个公司间
使用场景数据加载、集成、分发大数据分析、机器学习、人工智能复杂的查询分析、报表、决策数据发现、数据血缘、执行数据治理策略数据货币化、获取新数据集、数据发现

数据中心存储源数据的副本,专注于管理和分发,而数据目录不存储实际数据,主要关注元数据管理、数据血缘、数据治理策略的执行和便于数据查询。

数据中心可以充当不存储数据的数据市场的数据源,专注于管理和分发公司内的数据。它是一个中央平台,使用比数据湖或 RDW 更多的存储系统。数据湖通常使用对象存储来存储数据,而RDW则使用关系存储;数据中心可以结合关系数据库、NoSQL 数据库和数据湖等存储系统。

在数据处理方面,数据湖使用计算来清理数据并将其放回到数据湖中。 RDW 进行频繁的数据处理,包括 ETL 操作,以清理、规范化和结构化数据便于查询分析。然而,对于数据中心,通常使用外部工具或应用程序在中心外转换和分析数据。

总之,数据中心是一种灵活且通用的解决方案,用于加载、管理、集成和分发来自各种类型和来源的数据。相比之下,数据湖专注于存储和处理大量原始数据,以用于分析和机器学习,而数据仓库则针对结构化数据存储进行优化,以用于复杂的分析、报告和决策。

数据处理

存储数据只是数据存储解决方案的一小部分,为了真正发挥数据的潜力,还必须了解如何有效地管理数据,接下来将讨论数据处理,将发现帮助我们操纵、管理和利用数据资产的策略和技术。

主数据管理
在大数据领域中,主数据管理(Master Data Management,MDM)是一种管理和维护组织内部关键业务数据的方法和策略。主数据通常是指对于整个组织来说至关重要且具有高度价值的数据,如客户信息、产品信息、供应商信息等。MDM旨在确保这些核心数据的一致性、准确性和完整性,并使其能够在组织内部各个系统和业务流程中被可靠地共享和使用。
MDM的关键目标包括:

  1. 数据一致性:确保不同系统和部门中的主数据保持一致,避免数据冲突和重复。
  2. 数据准确性:保证主数据的质量,消除错误和不准确的数据。
  3. 数据完整性:确保主数据的完整性,包括必要的字段和属性的完整性。
  4. 数据集成:将主数据整合到一个单一的、可信赖的数据源中,以支持全面的数据分析和决策。

MDM通常涉及制定一套数据管理策略、标准和流程,以及使用专门的技术工具和平台来支持主数据的管理和维护。通过MDM,组织可以更好地理解和利用自己的核心数据资产,提高数据质量和业务效率,支持更好的决策制定和业务创新。

数据虚拟化和数据联合

数据虚拟化是一种将数据整合到一个逻辑视图中的技术,而不需要将数据物理复制或移动到中心存储中。它通过创建一个虚拟的数据层,可以实时地访问和查询各种数据源中的数据,包括关系型数据库、非关系型数据库、数据仓库、云存储等。这样的虚拟视图使得用户可以像访问单一数据源一样,方便地获取并分析数据,而无需关心数据的实际存储位置和格式。

数据联合是一种将多个数据源的数据集成在一起的技术,但与数据虚拟化不同,数据联合通常涉及将数据从不同源复制到一个中心位置进行集成。这个中心位置可以是数据仓库、数据湖或者其他数据存储系统。数据联合通过数据复制和同步来维护多个数据源之间的一致性,并提供一个统一的数据视图,使得用户可以在一个位置方便地访问和分析数据。

虚拟化作为数仓的替代品
在某些情况下,特别是当数据源很多或不断变化时,数据虚拟化可以作为数据仓库的替代方案。使用此方法时,无需在中央位置复制和存储数据。

下图展示了数据虚拟化产品的工作原理,步骤一为用户查询相关数据,步骤二为数据虚拟化引擎,数据虚拟化就相当于在源数据存储层进行了一层统一的封装:

数据虚拟化解决方案的主要优点是它优化了构建速度,它的构建时间只是构建数据仓库所需时间的一小部分,因为不需要设计和构建 DW 和 ETL 来将数据复制到其中,也不需要花费太多时间进行测试。复制数据(与 DW 一样)意味着更高的存储和治理成本、构建和维护 ETL 流程的成本以及更多的数据不一致,因此使用虚拟化可以节省大量资金。

数据虚拟化支持联合查询,我们可以在其中发出单个查询,从多个源和多种格式检索数据,并将结果组合到单个结果集中。

然而,数据虚拟化和联合查询存在一些主要缺点。如果你正在考虑使用数据虚拟化解决方案来取代 DW,需要考虑以下问题:

  • 我需要什么级别的性能?这是我可以用于需要亚秒级响应时间的仪表板的解决方案,还是更适合运营报表?
  • 数据虚拟化解决方案对源系统的性能影响有多大?用户的查询是否会受源系统服务器资源的影响?
  • 我是否需要在包含我要使用的数据源的每台服务器上安装某些内容?
  • 该解决方案是在使用数据源本身存储的索引,还是创建自己的索引?它是否使用每个数据源的数据库统计信息进行查询?
  • 出于安全目的,我可以限制哪些用户可以访问每个数据源吗?
  • 该解决方案如何处理近似重复的问题?
  • 数据将在哪里以及如何被清理?
  • 如果源系统发生更改,报表查询会中断吗?
  • 虚拟化软件的成本是多少,使用起来有多复杂?

虚拟化作为 ETL 或数据移动的替代品

如果正在构建数据仓库,是否应该将所有源数据移至数据仓库中,还是将源数据保留在原处并在其中一些数据之上创建虚拟化层更好?

移动数据的最常见原因是计划聚合或转换一次数据,然后多次查询结果。另一个情况是,需要经常连接多个来源的数据集并且需要超快的查询性能。在这些场景中,一般推荐数据仓库解决方案。

下表对比了数据移动和虚拟化:


开发和运营成本解决问题的时间安全数据时效性和质量合规
数据移动构建和维护 ETL 成本高需要时间来构建和运行作业创建数据副本使其更容易受到黑客攻击ETL管道使数据“过时”; ETL 可能会引入数据错误将数据移入和移出合规性边界可能会导致数据治理问题
数据虚拟化成本低允许快速迭代和原型设计数据保存在一个安全的地方,最大限度地减少攻击面所查询的数据始终是“新鲜”且来自源头的准确数据拥有少量数据副本和较少移动有助于满足合规性要求

数据虚拟化具有多种优势,首先,它提供了全面的数据血缘,确保可以清楚地了解数据从源到应用层的路径。其次,数据虚拟化软件通过统一的SQL接口呈现所有数据。这使得用户可以轻松访问,无论来源如何,来源可以是平面文件、电子表格、大型机、关系数据库或其他类型的数据存储库,但是虚拟化工具一般无法支持所有数据源。

下边是可能选择数据虚拟化的一些原因:

  • 移动数据存在监管限制
  • 公司外部的用户想要访问公司数据
  • DW之外的数据库中有经常变化的所需数据
  • 想要查询来自不同数据存储的数据并将其连接在一起
  • 希望用户通过虚拟沙箱进行自助分析
  • 想要快速构建一个解决方案来移动源数据

数据目录

数据目录是一个集中存储库,通常位于云中,用于存储和组织有关公司的所有数据源、表、schema、列以及其他数据资产(例如报表和仪表板、ETL 流程和 SQL 脚本)的元数据。它充当用户发现、理解和管理位于应用程序数据库、数据湖、关系数据仓库、运营数据存储、数据集市和任何其他数据存储形式中的数据的单一数据来源。

数据目录通常包含有关每个数据资产的以下信息:

  • 有关源的信息,例如位置、类型和连接详细信息
  • 如果在 RDW 内,则表和schema 信息(例如结构、关系和组织)以及列信息(例如数据类型、格式、描述和列之间的关系)
  • 如果在数据湖等对象存储中,则文件属性(存储、文件夹名称、文件名)
  • 数据血缘,包括有关数据所经历的任何转换、聚合和集成的信息
  • 数据治理和合规性详细信息,例如数据质量、所有权和政策
  • 搜索和发现工具,供用户搜索、过滤和查找相关数据

数据目录通过提供数据存储相关的可视化来帮助我们更有效地管理数据,这反过来又促进了团队之间更好的协作和更明智的决策。它还可以更轻松地跟踪数据血缘、执行数据策略并保持对数据资产的清晰了解,从而帮助确保数据质量、安全性和合规性。

市场上有许多用于创建数据目录的产品,其中一些已经存在了近十年。最受欢迎的产品是 Informatica 的 Enterprise Data Catalog、Collibra Data Catalog 和 Microsoft Purview。这些产品具有附加功能,例如数据治理和合规性、业务术语表和数据质量指标。

数据市场

数据市场(有时称为数据交换)是一个在线平台,数据提供者和数据消费者聚集在一起购买、出售和交换数据集。这些市场旨在帮助数据消费者(如企业、研究人员和开发人员)发现、评估和购买数据,以用于分析、机器学习、商业智能和决策等目的。提供者通常包括收集或生成有价值数据集的公司、政府和个人。

数据市场通常包括数据目录。许多市场会评估和提高数据集的质量,以确保它们准确、完整、一致且易于使用。有些提供用于清理、转换和丰富数据的工具和服务,这可以节省用户准备分析的时间和精力(当集成来自多个来源的数据或处理不完整或不一致的数据时,这尤其有价值)。消费者进行购买后,市场可能会提供工具来帮助他们访问数据并将其集成到他们的工作流程、应用程序中,或系统。有些甚至允许用户通过组合来自多个来源的数据或根据特定标准过滤数据来自定义数据集,以便他们可以准确访问所需的数据。

数据市场应采取强有力的安全措施来保护用户数据,确保遵守数据保护法规并维护敏感信息的机密性。有些提供了轻松混淆私人或敏感数据的方法。数据市场的定价结构和许可协议明确定义了使用条款,并确保数据提供商和消费者都遵守法律。

许多数据市场还提供内置分析和数据可视化工具,使用户可以直接在平台内分析和可视化(或简单预览)数据。其他常见功能和工具包括:

  • 数据集的评价
  • 其他数据集的推荐
  • 相关资料文档、收藏夹列表等
  • 协作和社区
  • 培训和支持

从提供商的角度来看,数据市场提供了一种将数据资产货币化的方法,从而产生新的收入来源。这对于拥有大量数据但没有资源或专业知识来自行分析和货币化的组织来说尤其有利。

随着对数据驱动洞察的需求不断增长以及更加多样化的数据集不断出现,数据市场越来越受欢迎。由于市场在 2020 年代初期才开始出现,因此可用于创建数据市场的产品并不像用于数据目录的产品那么多。最受欢迎的是 Snowflake Marketplace、Datarade 和 Informatica 的云数据市场。提供商和消费者都可以从更高效、更透明的数据交换中受益,这可以促进新的数据驱动产品和服务的创新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/544744.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

读《AI营销画布》品牌企业成长的逻辑(四)

前言 曾几何时,为了销售和品牌这两个扯的一世不可开交,也因为这个在企业里,形成了二个主张派,一派是以为销售为目标;一派是以品牌为目标。最后,,,,也就形成了不同的意见&…

c# .net 香橙派 Orangepi GPIO高低电平、上升沿触发\下降沿触发 监听回调方法

c# .net 香橙派GPIO高低电平、上升沿触发\下降沿触发 监听回调方法 通过gpio readall 查看 gpio编码 这里用orangepi zero3 ,gpio= 70为例 当gpio 70 输入高电平时,触发回调 c# .net 代码 方法1: Nuget 包 System.Device.Gpio ,微软官方库对香橙派支持越来越好了,用得…

学习JavaEE的日子 Day38 网络编程

Day38 网络编程(了解即可) 1. 计算机网络 2. 网络编程 实现多台计算机之间实现数据的共享和传递,网络应用程序主要组成为:网络编程IO流多线程 3. 网络模型 两台计算机之间的通信是根据什么规则来走的(OSI & TCP/IP) 此处简单了解该模型就行《TCP/IP…

Windows瘦客户机系统默认英文?一招改成中文界面

前言 最近发现有很多小伙伴给电脑安装了Windows瘦客户机系统,但开机之后发现系统是英文的,看都看不懂。 今天就给小伙伴们带来更改Windows Thin系统语言的办法。 首先,咱们都知道,更改系统显示语言基本上都是在系统设置或者控制…

Java——类和对象

目录 一.类定义和使用 1.简单认识类 2.类的定义格式 3.注意事项 二.课堂练习 1.定义一个狗类 2.定义一个学生类 3.注意事项: 三.类的实例化 1.什么是实例化 2.注意事项 3.类和对象的说明 四.this引用 1.为什么要有this引用 2.什么是this引用 五.对…

第16章 数据管理组织与角色期望知识点梳理

第16章 数据管理组织与角色期望知识点梳理(附带页码) ◼ 数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效地工作。意识、所有权和问责制度是激励和吸引人们参加数据管理积极性、政策和流程的关键。P432 ◼ 如何了解组织的企…

【Docker】docker原理及使用-1

Docker目录 1️⃣概念2️⃣使用容器的好处2️⃣docker和普通软件启动方式的区别2️⃣docker和传统虚拟机的区别 1️⃣下载安装2️⃣安装步骤 1️⃣必须要掌握的核心概念1️⃣命令2️⃣例子2️⃣练习题目2️⃣进入一下python环境(简洁) 1️⃣解释一下 redis1️⃣docker底层隔离机…

AI大模型探索之路-应用篇12:AI大模型应用之向量数据库选型

目录 前言 一、什么是向量数据库? 二、向量数据库的应用场景 1. 图像检索 2. 推荐系统 3. 自然语言处理 三、向量数据库在AI大模型中的应用 1. 训练数据的索引和检索 2. 特征存储和管理 3. 模型中间结果的存储 4. 长上下文的记录和检索 5. 本地知识库的构…

基于springboot实现购物推荐网站系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现购物推荐网站系统演示 摘要 随着信息互联网购物的飞速发展,一般企业都去创建属于自己的电商平台以及购物管理系统。本文介绍了东大每日推购物推荐网站的开发全过程。通过分析企业对于东大每日推购物推荐网站的需求,创建了一个计算机管…

Python求利率

要求 编写程序计算在给定利率、指定年数的情况下投资的未来值。这个计算公式如下。 使用文本域输入投资额、年份和利率。当用户单击“calculate”按钮时,在文本域中显示未来的投资值,如图所示。 代码实现 import tkinter as tkdef calculate():amou…

Spring Batch

Spring是一个开放源代码的J2EE应用程序框架,由Rod Johnson发起,是针对bean的生命周期进行管理的轻量级容器(lightweight container)。 Spring解决了开发者在J2EE开发中遇到的许多常见的问题,提供了功能强大IOC、AOP及W…

使用Python爬虫代理IP快速增加博客阅读量

目录 前言 二、Python爬虫代理IP技术简介 1.什么是爬虫? 2.什么是代理IP? 3.为什么使用代理IP? 三、使用Python爬虫代理IP增加博客阅读量的步骤 1.获取代理IP地址 2.模拟多次访问 3.定时任务 四、注意事项 五、总结 前言 随着互联…

金融机构与金融市场监管

金融机构与金融市场监管 中国的金融监管机构银行业监管的必要性银行业监管的基本目标银行业监管的基本内容商业银行的设立审批制度银行业日常监督管理流动性要求资产质量监管合理的内部控制制度风险集中和风险暴漏的监管银行资本风险资本的计算资本充足率的计算 中国的金融监管…

Mobile Tools v2.0 + Example Game

重要提示!如果您已经拥有我们的资产之一,您可以升级到此资产,根据资产的不同,您将获得15%至40%的折扣。 主要功能 包含一个完整游戏,已集成所有功能(广告、成就、排行榜、应用内购买、评价游戏弹出窗口、本地化、每日奖励、交叉促销和通知)。 包括以下独立资产(170美元…

探索数据结构:顺序串与链式串的深入理解

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 贝蒂的主页:Betty’s blog 1. 串的定义 串是一种特殊的顺序表,即每一个元素都是单独一…

关于机器学习/深度学习的一些事-答知乎问(四)

如何评估和量化深度学习的可解释性问题? 针对深度学习模型,评估指标能够全面衡量模型是否满足可解释性。与分类的评估指标(准确度、精确度和召回率)一样,模型可解释性的评估指标应能从特定角度证明模型的性能。但是&a…

AI服务平台replicate

Replicate是一个提供优秀AI模型和工具的平台,旨在帮助用户实现各种人工智能任务。该平台汇集了来自各个领域的顶尖模型,涵盖了文本到图像生成、语言模型、图像编辑、超分辨率等多个领域。用户可以通过Replicate平台快速获取和应用先进的模型,…

基于Springboot的毕业生信息招聘平台

基于SpringbootVue的毕业生信息招聘平台的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页展示 空中宣讲会 招聘岗位 求职信息 论坛信息 招聘咨询 …

代码随想录算法练习Day13:有效的字母异位词

题目: 给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。 注意:若 s 和 t 中每个字符出现的次数都相同,则称 s 和 t 互为字母异位词。 题目链接:242.有效的字母异位词 卡哥的视频讲解&#xff…

kali工具----网络映射器(Network Mapper)系统指纹

系统指纹识别 现在一些便携式计算机操作系统使用指纹识别来验证密码进行登录。指纹识别是识别系统的一个典型模式,包括指纹图像获取、处理、特征提取和对等模块。如果要做渗透测试,需要了解要渗透测试的操作系统的类型才可以。本节将介绍使用Nmap工具测试…