数据集成时表模型同步方法解析

01 背景介绍

数据治理的第一步,也是数据中台的一个基础功能 — 即将来自各类业务数据源的数据,同步集成至中台 ODS 层。业务数据源多种多样,单单可能涉及到的主流关系型数据库就有近十种。功能更加全面的数据中台通常还具有对接非关系型数据库、消息队列、日志源、文件源等功能。

数据湖通常是 OLAP 型的数据库,虽然中台系统很少会采用多种数据仓库技术,但在技术选型时,可选项也有很多。数据集成可实现多种异构数据库间的数据同步,想要提升数据中台的易用高效性,自动表模型同步则显得至关重要。

02 数据平台整体架构

整体来看数据平台共有 3 层:业务数据源、数据平台中的数据湖仓及数据应用。

在这里插入图片描述
数据源可包含:

  • 关系型或非关系型数据库;
  • 某个消息系统如 MQTT、Kafka 或 RabbitMQ;
  • 放置在文件服务器上的 CSV 、XML 或 JSON 文件;
  • 非结构化日志或是类似通过 syslog 这样的协议提供的数据
  • HTTP 接口,通常是 Restful API。

数据湖仓通过一系列数据处理,支撑数据应用。数据应用则包括数据 BI 分析工具、即席查询、开放 API、数据门户等功能板块。

其中,数据湖通常不是通过一步处理即可得到所需数据,所以数据湖也存在分层。比较常见的分层类别:ODS、DWD、DWS 和 ADS 层。有时也会将维度表的数据划分至 DIM 层,不同数据平台系统的分层会有所增减。

本期分享关注重点聚焦在 ODS 层。来自各数据源的数据会通过相应的数据集成技术,几乎不经过处理,直接存放至 ODS 层;数据平台对 ODS 层数据再经过多次处理即可得到数据应用所需数据。

  • ODS: Operational Data Store,运营数据层,贴源层
  • DWD: Data Warehouse Details,数据细节层
  • DWS: Data Warehouse Service,数据服务层
  • ADS: Application Data Service,应用数据层
  • DIM: Dimension Data Layer,维度数据层

03 各类数据源集成方式

3.1 数据库数据源的数据集成方式

数据库数据源有两种集成方式:批量同步和实时同步。

批量同步:通过定时执行任务来集成数据。几乎所有的数据库都实现了 JDBC 接口,可借助数据库提供的 JDBC 驱动,通过全量或增量方式从这个数据库中获取数据再导入到数据仓库 ODS 层。
在这里插入图片描述

实时同步:批量同步有一个定时任务,执行完该同步任务即结束;而实时同步方式的同步任务是一直在执行,一旦数据库数据源的数据发生变化,它立刻即能获取到该数据变化情况并同步至 ODS 层。

在这里插入图片描述

3.2 非数据库数据源的数据集成方式

这里主要介绍文件源、API 数据源、消息源和日志源。

文件源:有些业务系统的数据库可能不会开放给数据平台直接连接,而是将数据定时导出为 CSV 文件或类似文件,存放到 SFTP 或者是 S3 等文件服务器。数据平台集成引擎可定时从文件服务器上获取文件,解析数据并导入到 ODS 层。
在这里插入图片描述
API 数据源:通常是一个 Restful 接口,调用该接口即能获取到结构化/半结构化数据,比如 JSON、XML 等格式。数据集成引擎作为 HTTP 的客户端,定时调用 API 接口获取数据,并转换成数据记录,通过 JDBC 方式写入到数据湖。
在这里插入图片描述
消息源:部分业务系统会选择将数据写到消息服务器中,比如 MQTT、AMQP、 Kafka 等。数据中台集成引擎作为消息的“消费者”,负责连接到消息服务器、监听消息队列或 Topic 中的消息,获取来自业务系统的消息并将其转换成数据记录,最后通过 JDBC 方式写入到数据湖。
在这里插入图片描述
日志源:部分业务系统看、可通过 syslog 协议方式将日志写入 syslog 服务端。数据引擎此时可以被视作服务器端,在一个端口监听客户端请求。业务系统端作为 syslog 的客户端,将日志写入到数据引擎监听的端口,数据平台集成引擎收到数据后可解析并转换成数据记录,再通过 JDBC 方式写入到数据湖。
在这里插入图片描述

04 数据集成时模型的创建和同步

4.1 数据库数据源的模型映射

  • 来自数据库的数据源,其数据模型可以直接映射;

  • 字段名可以从源数据库获取;

  • 字段类型先通过 JDBC 驱动获取到 JDBC 的数据类型,再转换为数仓库的数据类型(这里以 PostgreSQL 为例);

  • 从 JDBC 数据类型到数据库的数据类型映射是可以一对多的,可以由自定义逻辑决定;
    在这里插入图片描述

  • 可将获取到的 JDBC 数据类型先转换为自定义的中间数据类型,然后映射为数仓数据库的数据类型。
    在这里插入图片描述

数据类型映射表:源库数据类型对应的 JDBC 数据类型由数据库对应的 JDBC 决定;JDBC 数据类型在 JDK 中的 java.sql.Types 类中定义;JDBC 数据类型对应的数仓库数据类型集成引擎决定。

在这里插入图片描述

4.2 非数据库数据源的模型映射

  • 对于数据源本身不具备 schema 信息的,无法自动映射;
  • 先手动定义模型元数据,再根据模型元数据在数据中创建表。

源数据类型可以是字符型、整形或日期型。数据仓库以 PostgreSQL 为例,字符串类型对应类型包括:text 、char、varchar 等。布尔类型在数仓中可以用 boolean 、varchar 或 bit 类型。整形可以是 int4、int8、int16。数据模型的确定取决于数据平台用户如何创建模型。

在这里插入图片描述

4.3 数据库数据源的数据模型的同步

举例说明,数据源是 MySQL 数据库,其中有一个 nation 表,包括了四个字段,字段类型有:int、char、varchar。此处示例表中的一条数据。

在这里插入图片描述

情景1:那么该数据模型如何同步至数据中台呢?

在数据集成时,数据集成引擎读取源表的数据,并在生成的每一条同步数据里面均包含模型信息。左侧为源数据库中的数据,它在生成的同步数据时将输出如右侧的 JSON 数据。它本身含有模型信息,包括表名、所有字段及字段类型。

图中采用的是中间数据类型,比如源库中 nationkey 字段是 int 类型,对应的中间类型是 int32;name 字段在源库中是 char(25) 类型,对应中间数据类型是 string 外加一个表示长度的 size 参数。该条同步数据也包含数据本身信息,在 payload 字段中。

数据平台集成引擎可以从同步数据中提取到源表模型信息,用于在数据仓库中创建该表的模型信息。数据平台集成引擎可根据该模型生成一个在数据库创建表的 DDL 语句。注意这里表名需添加数据源的前缀标识,因为 ODS 层可能有来自不同数据源的数据,表名可能重复。因此,在 ODS 层中创建表的时需加前缀来避免重复,同时还添加了部分控制字段。

从数据中提取模型信息示例:

在这里插入图片描述
生成建表语句示例:
在这里插入图片描述

情景2:在后续数据源模型发生变化时如何处理呢?

可将数据中的模型信息与数据中台中的模型进行对比,如果模型增加了字段,会生成一个表变更语句。表字段类型变化,可根据用户设定的策略做表变更或者保持不变,取决于用户的同步策略。如果字段删除了通常是不会删除的。在获取到的数据写入 ODS 之前,先执行这个建表语句或是表变更语句。数据仓库 ODS 层的模型同步完成以后,再把需要同步的数据写入到数仓的表里面。

4.4 非结构化数据源的数据模型的同步

这里以 API 接口获取到的数据为例:
在这里插入图片描述

当获取到类似左边这样的数据,我们无法直接从数据获取到它的数据类型信息。此时只能由数据平台的使用者手动来创建模型。有了模型后就可根据该模型来生成一条 DDL 语句,然后根据 DDL 语句在数据中台中创建该表。

4.5 数据模型创建的时机

以 KDP(数据服务平台) 所使用的 Kafka Connect JDBC 框架为例:使用 JDBC-reader 插件读取源数据库;数据记录转换为消息写入 Kafka 的 Topic 中;使用 JDBC-Writer 插件读取 Topic 中的消息,写入数仓数据库。

在这里插入图片描述

在 Writer 端解析数据模型,进行数仓中表的创建和变更:Writer 端获取到一条数据后,从数据中解析出模型信息;将模型和数仓库中的表结构比对;如果不存在,则创建;如果不一致则修改。
在这里插入图片描述

4.6 KDP 中的数据集成架构

KDP 使用 Kafka Connect 框架实现了数据库源、API 源、文件源、日志源的数据集成:使用各种 Kafka Connect 组件对接各种数据源,将获取的数据转换为统一 SourceRecord;ODS 层使用的是基于 Citus 插件的分布式 PostgreSQL,所以 sink 端可以使用 Kafka Connect JDBC 从 Kafka Topic 消费数据,写入 ODS 层;整个集成任务流由 SpringCloud DataFlow 调度执行。

在这里插入图片描述

KDP 使用 Debezium Connector 实现基于 CDC 的数据库源实时同步Debezium 提供的连接器对接各支持 CDC 的数据库;Debezium 本身是基于 Kafka Connect,将 CDC 事件转换为 SourceRecord 写入 Kafka Topic;Sink 端同样使用 Kafka Connect JDBC 消费数据,写入 ODS 层。

在这里插入图片描述

KDP 支持调用大数据组件如 Flink、Spark、Sqoop2 等,使用外部计算资源实现海量数据的同步:基于 SpringCloud Dataflow 框架;各 Task 作为大数据组件客户端提交任务到外部集群;外部集群执行数据集成任务。

在这里插入图片描述

05 数据集成时常见问题及方案

1、业务库中表模型增加、删除字段、字段类型长度变更时,数据仓库中表模型的变更如何处理
答:数据记录中携带表模型信息,检测到表模型不一致时,生成并执行表变更语句。

2、数仓数据库中存在多种类似的字段类型时如何选择?
答:由数据中台的集成引擎的逻辑来决定选择字段类型的策略。

3、Restful API 数据源等无法自动确定源数据模型的场景如何处理?
答:手动定义数据模型信息,一键生成并执行表创建/变更语句。

4、数据仓库中各层之间模型如何同步?
答:除了 ODS 层外,其它层的模型都是由中台用户定义。需要手动修改模型信息,可一键生成并执行表/创建变更语句。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/332537.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

elasticsearch[一]-索引库操作(轻松创建)、文档增删改查、批量写入(效率倍增)

elasticsearch[一]-索引库操作(轻松创建)、文档增删改查、批量写入(效率倍增) 1、初始化 RestClient 在 elasticsearch 提供的 API 中,与 elasticsearch 一切交互都封装在一个名为 RestHighLevelClient 的类中,必须先完成这个对象的初始化,…

Docker中创建并配置MySQL、nginx、redis等容器

Docker中安装并配置MySQL、nginx、redis等 文章目录 Docker中安装并配置MySQL、nginx、redis等一、创建nginx容器①:拉取镜像②:运行nginx镜像③:从nginx容器中映射nginx配置文件到本地④:重启nginx并重新配置nginx的挂载 二、创建…

苹果Find My可查找添加32件物品,伦茨科技ST17H6x芯片加速产品赋能

苹果最近更新的支持文档证实,从 iOS 16 开始,"Find My"可查找添加物品从16件增加到32件,AirTag 和“查找”网络中的物品利用“查找”网络的强大功能来发挥作用,这个网络由数亿台加密的匿名 Apple 设备构成。“查找”网络…

TCP高并发服务器简介(select、poll、epoll实现与区别)

select、poll、epoll三者的实现: select实现TCP高并发服务器的流程: 一、创建套接字(socket函数):二、填充服务器的网络信息结构体:三、套接字和服务器的网络信息结构体进行绑定(bind函数&…

14——3

先看一下什么叫转换率的最小值和最大值,看其样例 投入75个o,产出3个x 53个o,换2个x 59个o,换2个x 得出最少20个o换一个x;最多25个o换一个x 也就是说用不同的投入值除以一个相同的数字得到其对应的产出值 而这个相同…

【开源】基于JAVA语言的陕西非物质文化遗产网站

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 设计目标2.2 研究内容2.3 研究方法与过程2.3.1 系统设计2.3.2 查阅文献2.3.3 网站分析2.3.4 网站设计2.3.5 网站实现2.3.6 系统测试与效果分析 三、系统展示四、核心代码4.1 查询民间文学4.2 查询传统音乐4.3 增改传统舞…

阿里云ECS使用docker搭建mysql服务

目录 1.确保正确安装好docker 2.安装mysql镜像 3.创建容器(设置端口映射、目录映射) 1.确保正确安装好docker 安装教程: 阿里云ECS(CentOS镜像)安装docker-CSDN博客https://blog.csdn.net/qq_62262918/article/details/135686614?spm10…

小白数学建模 Mathtype 7.7傻瓜式下载安装嵌入Word/WPS以及深度使用教程

数学建模Mathtype的下载安装嵌入Word/WPS以及深度使用教程 一 Mathtype 的下载安装1.1 安装前须知1.2 下载压缩包1.3 安装注册 二 嵌入Word/WPS2.1 嵌入Word2.1.1 加载项嵌入 Word2.1.2 宏录制嵌入 Word 2.2 嵌入 WPS2.2.1 加载项嵌入 WPS2.2.2 宏录制嵌入 WPS 2.3 嵌入时报错解…

android 开发 W/TextToSpeech: speak failed: not bound to TTS engine

问题 笔者使用TTS(TextToSpeech)对于文本内容进行语音播报,控制台报错 android 开发 speak failed:not bound to TTS engine详细问题 笔者核心代码: import android.os.Bundle; import android.speech.tts.TextToSpeech; import android.speech.tts.…

GB/T28181-2022之图像抓拍规范解读和设计实现

技术背景 GB/T28181-2022相对2016版,对图像抓拍有了明确的界定,图像抓拍在视频监控行业非常重要, Android平台GB28181设备接入端,无需实时上传音视频实时数据的情况下,就可以抓图上传到指定的图像存储服务器上。 图像抓拍基本要…

Gin 框架之用户密码加密

文章目录 一、引入二、密码加密位置三、如何加密四、bcrypt 库加密4.1 介绍4.2 优点:4.3 使用 五、小黄书密码加密实践 一、引入 Gin是一个用Go语言编写的Web框架,而用户密码的加密通常是在应用程序中处理用户身份验证时的一个重要问题。 通常敏感信息…

军事智能中的深度强化学习不同于传统的深度强化学习

在军事智能中,“诡”和“诈”是两个最重要的概念。 “诡”变指的是智能体通过采取一些不可预测或复杂的变化策略来获得优势。诡变可能包括逃避对手的观察或引诱对手采取不利的行动。智能体可以使用诡变来欺骗对手,使其做出错误的决策或暴露其策略。 “诈…

单表查询练习

目录 题目: 制定约束: 添加表格信息: 所需查询的信息: 实验步骤: 第一步:制作表格 创建新的数据库 创建表格约束: 为表格加入数据: 第二步:查询信息 题目&…

C#,入门教程(21)——命名空间(namespace)与程序结构的基础知识

上一篇: C#,入门教程(20)——列表(List)的基础知识https://blog.csdn.net/beijinghorn/article/details/124094382 编写软件(大软件称为系统)与盖大楼一个道理。 假设咱们现在需要盖一座名为“天梯大厦”的…

STM32-调用 vTaskStartScheduler API 后出现 HardFault

STM32 移植 FreeRTOS 后调用 vTaskStartScheduler() 后出现 HardFault 异常。 原因分析: FreeRTOS 配置头文件 FreeRTOSConfig.h 中与中断有关的配置和通过系统接口 void NVIC_PriorityGroupConfig(uint32_t NVIC_PriorityGroup) 设置的中断分组冲突。 /* The lo…

含并行连结的网络(GoogLeNet)

目录 1.GoogLeNet 2.代码 1.GoogLeNet inception不改变高宽,只改变通道数。GoogLeNet也大量使用1*1卷积,把它当作全连接用。 V3耗内存比较多,计算比较慢,但是精度比较准确。 2.代码 import torch from torch import nn from t…

Nacos 极简入门

1. 概述 Nacos 是什么?其官方文档自我介绍如下: FROM 什么是 Nacos Nacos 致力于帮助您发现、配置和管理微服务。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据及流量管理。 Nacos 帮助您更敏捷和容易…

网易云音乐 API

网易云音乐 API 网易云音乐 API灵感来自环境要求安装运行Vercel 部署操作方法 可以在Node.js调用支持 TypeScript使用文档功能特性更新日志单元测试SDK贡献者License 网易云音乐 API 网易云音乐 Node.js API service 灵感来自 disoul/electron-cloud-music darknessomi/musi…

DDoS攻击规模最大的一次

有史以来DDoS攻击规模最大的是哪一次? Google Cloud团队在2017年9月披露了一次此前未公开的DDoS攻击,其流量达 2.54Tbps,是迄今为止有记录以来最大的DDoS攻击。 在同时发布的另一份报告中,分析高端威胁团体的谷歌安全团队谷歌威胁…

[笔记]深度学习入门 基于Python的理论与实现(四)

4. 神经网络的学习 这里说的‘学习’就是指从训练数据中自动获取最优权重参数的过程。为了进行学习,将导入损失函数这一指标。而学习的目的就是以该损失函数为基准,找出能使它的值达到最小的权重参数。为此,我们介绍利用了函数斜率的梯度法。…