读书笔记--构建数据湖仓阅读有感

      企业为什么要开展数据治理?为什么在数据治理过程中提出数据湖仓构建?数据湖如果没有分析基础设施的建设,就会形成数据沼泽或臭水沟,因为没有人用,也不知道数据之间的关系。我们知道数据因业务运行而产生,后续数据收集汇总后,数据需要用来分析和使用,进而形成分析服务,用于支持企业的战略决策和价值挖掘,用于商业战略决策,而分析数据需要不同类型数据的融合关联,以及提供数据挖掘的分析基础设施环境,否则数据还是以原始数据方式存放,没有合适的信息和工具供数据科学家或用户便捷使用,因此提出了数据湖仓,数据湖仓综合了数据仓库的数据结构和管理特性,同时借鉴了数据湖的低成本存储和多种类型数据的组织存储支持特性等。

一、四个术语比较

1.数据库:按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。(来自百度百科)
2.数据仓库:用于将分散在各APP的数据复制一份到另一个独立物理位置进行存放数据的仓库,主要包括元数据、数据模型、数据血缘、汇总、KPI等分析基础设施,供数据科学家或终端用户分析预测使用。
3.数据湖:用于存放所有类型原始数据集合的场所,确保数据的原汁原味。
4.数据湖仓:是数据仓库+数据湖的变种,但支持结构化数据、文本数据和非结构化数据的管理,支持数据结构和管理特性,同时支持数据湖的低成本存储、开放性和标准化访问集成。
后三者开放性对比分析如下。

二、数据湖仓支持的数据类型有哪些

1.结构化数据:组织执行日常业务活动形成的基于事务处理的数据。
2.文本数据:公司内部函件文件、电子邮件、会议纪要、对话生成的数据等。
3.非结构化数据:物联网设备生成的语音、图像、视频数据和模拟实验形成的模拟数据等。
上述数据类型的融合关联是数据分析挖掘过程的一大难点,详见第五部分。

三、数据湖仓的整体架构

数据湖仓是建立在数据湖基础上,解决了数据在哪里、数据关联性、数据是否最新、数据是否准确等挑战问题而设计形成的。数据湖仓架构图如下。

上图中间部分就是分析基础设施,分析基础设施有提供卡片目录的元数据、数据模型,以及分类标准、KPI、数据血缘(数据谱系)、汇总数据、ETL、文本ETL、数据体量、数据粒度、键、粒度、数据源等,同时包括用于分析的工具方法,如SQL/R/Python语言环境、BI工具、实时App、数据科学与统计分析和机器学习工具等。
文本ETL:context情景分析,同义解析,分类辨析,近义词辨析,客群解析,关键词解析等
分类标准:用于将原始文本转换为数据库,比如按照汽车品牌、树木类型,各大洲,职业类型等。
分析基础设施的受众群体主要有数据科学家和终端用户。
1.数据开发工程师和数据科学家:主要负责寻找组织内数据新模式发现、趋势分析、统计分析、隐藏在底层的价值挖掘等。
2.终端用户:主要通过分析基础设施实现快速可视化呈现和明确报表计算,以及低粒度的数据统计分析等。

四、数据湖仓支持开源开放

什么是开源开放呢?
开源包括代码开放、社区开放和创造力开放,开源充分利用开源的广度深度优势。
开放包括开源软件、开放API、开放文件格式和开放工具等。
数据湖仓遵循的原则就是开源开放的湖仓环境,支持各种开放语言和开源库,非结构化数据支持Apache Parquet等标准的开放文件格式,同时提供超越SQL的支持python和R语言处理数据的数据框架API,具体组件架构见下图。

五、数据湖仓中的数据融合做什么

大数据分析环境一般只能处理一种类型数据,比如OLTP主要处理事务数据,数据仓库主要集成处理历史数据,文本环境主要处理文本数据。
数据湖仓由于存放了结构化、文本和非结构化数据,因此需要做数据融合处理,不同类型数据要进行数据融合分析处理,需要做业务和技术认知对齐、数据处理和算法的共识对齐,形成跨环境的通用信息。一般在融合过程中,需要用到通用连接器或通用标识符,比如时间、地理位置、货币、产品、名称、事件、身体测量数据、性别等。文本环境融合过程中的标识符有文档ID、分类标准,其他映射,词汇,context,关键词和关键词位置等。

六、数据可视化

数据为什么要进行可视化,只有将数据转化为人们易于理解的信息才能体现价值,可视化是实现目标的技术手段之一,通过可视化,能够发现数据中的隐藏趋势、异常情况、模式规律和强相关性信息等。
数据可视化、数据分析和数据解释之间的关系,数据分析是使用系统化的方法查找不同类型数据之间的趋势、分组或其他关系;数据可视化是使用图形化进行展示的过程,使得数据更好理解解释;数据解释是赋予数据意义的过程,三者相互支持、相互告知和相互影响。
数据可视化优势:易于沟通、赢得关注、带来可信度、印象深刻、消息增强。

七、数据治理和数据湖仓的关系

数据作为一种全新的生产要素,逐步得到了人们的重视,相当于新的黄金或石油,数据是驱动力。数据治理目的是为企业业务的战略决策提供支持,让与数据相关的需求与商业战略连成一体,数据治理通过跨越人、流程、技术和数据框架来实现,重点关注文化如何支撑商业目标的达成。数据治理和业务战略的一致性见下图。​​​​​​​

八、现代数据仓库是什么样子

现代数据仓库还是遵循数据仓库原来的定义,只是支持的技术、数据类型和技术架构都有巨大的变化,支持分布式、跨平台、多类型数据。总体应当还是面向主题域、集成、稳定、反映历史变化的数据仓库。

九、面向未来的数据是什么

面向未来的数据是预测未来并开放获取和组织数据的方法的过程,最大限度的减少由于丢失数据或缺乏相关数据而导致与目标的差距,这些目标包括目标研究、相关性分析、趋势预测、模式发现、基于数据的存证、过往事件分析和实验等。同时面向未来的数据不是企业收集的所有数据,而是具有对业务发展重要或相关性强的数据。构建需要五个阶段,分别为识别、消除淘汰、面向未来、组织和存储阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/268843.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

盒子 Box

UVa1587 思路&#xff1a; 1.输入每个面的长宽并将每个面较长的一边放在前面 2.判断是否存在三对面分别相等 3.判断是否存在三组四棱相等 #include <stdio.h> #include <stdlib.h> #define maxn 100int cmp(const void* e1, const void* e2) {return (int)(*(d…

Maya python清除命名空间

问题描述&#xff1a; Maya命名空间可能存在嵌套。 如上&#xff0c;直接删除 :female_actor02会出现异常。 因此需要先删除子命名空间&#xff0c;再删除父命名空间。 解决方法&#xff1a; def remove_namespace_node(namespace_name, ns_parent":"):""…

RabbitMQ入门指南(八):MQ可靠性

专栏导航 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、MQ数据持久化 1.交换机持久化 2.队列持久化 3.消息持久化 4.生产者确认机制 二、LazyQueue 1.LazyQueue模式介绍 2.管理控制台配置Lazy模式 3.代码配置Lazy模式 4.更新已有队列为lazy模式 总…

【计算机四级(网络工程师)笔记】操作系统运行机制

目录 一、中央处理器&#xff08;CPU&#xff09; 1.1CPU的状态 1.2指令分类 二、寄存器 2.1寄存器分类 2.2程序状态字&#xff08;PSW&#xff09; 三、系统调用 3.1系统调用与一般过程调用的区别 3.2系统调用的分类 四、中断与异常 4.1中断 4.2异常 &#x1f308;嗨&#xff…

RPC 实战与原理

文章目录 什么是 RPC&#xff1f;RPC 有什么作用&#xff1f;RPC 步骤为什么需要序列化&#xff1f;零拷贝什么是零拷贝&#xff1f;为什么需要零拷贝&#xff1f;如何实现零拷贝&#xff1f;Netty 的零拷贝有何不同&#xff1f; 动态代理实现HTTP/2 特性为什么需要服务发现&am…

DDD领域驱动设计系列-原理篇-战术设计

概述 上篇战略设计产出了领域及问题域领域模型&#xff1b;详见&#xff1a;DDD领域驱动设计系列-原理篇-战略设计-CSDN博客 战术设计篇聚焦如何落地&#xff0c;包含实际解决方案模型落地&#xff0c;架构分层&#xff08;Clean&#xff0c;CQRS&#xff09;&#xff0c;Rep…

04-C++ 类和对象-02

类和对象-02 1. this 指针 1.1 概念&#xff1a; 谁调用this所在的函数&#xff0c;this就存储谁的地址&#xff0c;即指向谁 。 1.2 特点&#xff1a; 在当前类的非静态成员函数中调用本类非静态成员时&#xff0c;默认有this关键字静态成员函数&#xff0c;没有this指针…

Neovim+ctag浏览、编辑源代码

Neovimctag浏览、编辑源代码 一 配置安装vim及 ctags vim应该可以不用装&#xff0c;直接装neovim&#xff0c;这里我是先装了vim再装的neovim Ctags必须装&#xff0c;后面用neovim telescope索引函数时才有效 vim复制系统粘贴板&#xff1a;vim输入模式下&#xff0c;按shi…

低功耗16位MCU:R7F100GLL3CFA、R7F100GLN2DLA、R7F100GLN3CFA、R7F100GLN2DFA是新一代RL78微控制器

产品介绍&#xff1a; RL78/G23低功耗MCU可在41μA/MHz CPU运行频率下工作&#xff0c;功耗低&#xff0c;停止4KB SRAM保持时为210nA。该MCU设有snooze模式排序器&#xff0c;可显著降低间歇工作时的功耗。RL78/G23组具有1.6V至5.5V宽工作电压范围&#xff0c;频率高达32MHz。…

bean生命周期源码(三)

书接上文 文章目录 一、Bean的销毁逻辑1. 简介2. Bean销毁逻辑的注册3. Bean的销毁过程 一、Bean的销毁逻辑 1. 简介 前面我们已经分析完了Spring创建Bean的整个过程的源码&#xff0c;在创建bean的核心方法中doCreateBean这一个核心方法中&#xff0c;在方法的最后面有这么…

SpringCloudAlibaba Seata在Openfeign跨节点环境出现全局事务Xid失效原因底层探究

原创/朱季谦 曾经在SpringCloudAlibaba的Seata分布式事务搭建过程中&#xff0c;跨节点通过openfeign调用不同服务时&#xff0c;发现全局事务XID在当前节点也就是TM处&#xff0c;是正常能通过RootContext.getXID()获取到分布式全局事务XID的&#xff0c;但在下游节点就出现获…

ros2+gazebo+urdf:ros2机器人使用gazebo的urdf文件中的<gazebo>部分官网资料

原文链接SDFormat extensions to URDF (the gazebo tag) — Documentation 注意了ros2的gazebo部分已经跟ros1的gazebo部分不一样了&#xff1a; Toggle navigation SpecificationAPIDocumentationDownload Back Edit Version: 1.6 Table of C…

我在代码随想录|写代码Day-Day之总结篇

我是用笔手写的我觉得这样可以对个人记忆会更好,而且理解更深解释也更清楚 下面是手写笔记 总结部分----- 第一章 二分 二分模版 图片可能反了下不过没有关系 图形打印模版题 第二章 链表 链表基本操作和疑问 链表代码操作和解析----5大操作 删除部分 对结点的操作 反了反了…

关于个人Git学习记录及相关

前言 可以看一下猴子都能懂的git入门&#xff0c;图文并茂不枯燥 猴子都能懂的git入门 学习东西还是建议尽可能的去看官方文档 权威且详细 官方文档 强烈建议看一下GitHub漫游指南及开源指北&#xff0c;可以对开源深入了解一下&#xff0c;打开新世界的大门&#xff01; …

若依SQL Server开发使用教程

1. sys_menu表中的将菜单ID修改为自动ID,解决不能增加菜单的问题&#xff0c;操作流程如下&#xff1a; 解决方案如下 菜单栏->工具->选项 点击设计器&#xff0c;去掉阻止保存要求更新创建表的更改选项&#xff0c;点确认既可以保存了 2 自动生成代码找不表的解决方案…

C语言--直接插入排序【排序算法|图文详解】

一.直接插入排序介绍&#x1f357; 直接插入排序又叫简单插入排序&#xff0c;是一种简单直观的排序算法&#xff0c;它通过构建有序序列&#xff0c;对于未排序的数据&#xff0c;在已排序序列中从后向前扫描&#xff0c;找到相应位置并插入。 算法描述&#xff1a; 假设要排序…

idea 找不到 Free MyBatis plugin

idea 找不到 free mybatis plugin 可以使用mybatisX替换&#xff1a; 插件安装成功后&#xff0c;重启idea。

【English】水果单词小小汇总~~

废物研究生&#xff0c;只要不搞科研干啥都是开心的&#xff0c;啊啊啊啊啊科研要命。作为一个水果怪&#xff08;每天不吃水果就要命的那种哈哈哈哈&#xff09;突然发现竟然就知道什么apple、banana、orange&#xff01;惭愧惭愧&#xff0c;正好兴致正浓&#xff0c;来整理一…

Java HashMap在遍历时删除元素

文章目录 1. HashMap数据结构1.1 数组单向链表红黑树1.2 指定初始容量&#xff0c;省去多次扩容步骤1.3 获取map内容&#xff1a;Map.Entry 2. 遍历集合时删除元素3. computeIfAbsent()方法 1. HashMap数据结构 jdk是1.8版本 HashMap 线程不安全 ConcurrentHashMap 线程安全 1.…

jvm_下篇_补充_MAT从入门到精通

MAT从入门到精通 概述安装mac安装指定jdk配置内存 使用配置获取dump文件Overview下功能解释HistogramDominator TreeLeak SuspectsOverview功能说明结尾Thread_Overview OQLHeap Dump OverviewFind Object by address 概述 尽管JVM提供了自动内存管理的机制&#xff0c;试图降…