数据中台到底是什么?

数据中台不是一套系统,也不是一套产品,而是一种机制。在传统IT架构中,不同部门,不同业务系统和不同的数据中心会产生大量数据。这些数据如同烟囱一样是垂直划分的,彼此之间无法连接,我们也把这种数据叫做数据孤岛。分散在各个孤岛上的数据彼此独立,无法很好的支撑企业的经营决策,也无法很好地应对快速变化的前端业务。因此,我们需要一套机制,利用这一套机制整合这些分散在各个孤岛上的数据,为企业经营决策、精细化运营提供支撑,这套机制就是数据中台。

 

数据中台不会生产数据,只会对数据进行治理。数据中台具备4个核心能力:数据汇聚整合、数据提纯加工、数据资产化,数据服务化。

1、数据汇聚整合

数据中台的构建,第一步就是让企业内部各个业务系统的数据实现互联互通,从物理上打破数据孤岛,数据中台主要通过元数据采集和数据集成来实现。

元数据是描述数据的数据,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息和数据都可以叫做元数据。比如数据库的Schema、Table、Column信息等。通过对元数据的采集,我们获取了对数据源数据的描述信息。

在对数据进行集成的过程中,数据中台支持数据的全量同步和增量同步两种方式。全量同步即读取整表数据或者读取整库数据并写入;增量同步通过不同的增量策略,来追加写数据。很多企业结合自身实践开源了一些优秀的集成工具,如DataX、Sqoop等。

在对数据进行集成的过程中,数据中台支持数据的全量同步和增量同步两种方式。全量同步即读取整表数据或者读取整库数据并写入;增量同步通过不同的增量策略,来追加写数据。很多企业结合自身实践开源了一些优秀的集成工具,如DataX、Sqoop等。

当我们手中已经有了同步后的数据,这些数据还没有价值,还需要对其进行加工处理,就像对原油提纯加工形成石油、橡胶等不同产品一样,我们也需要对这些数据进行提纯加工。

2、数据提纯加工

将原始数据通过清洗、转换、加工等手段,变成对我们有价值的数据,这个过程就是数据的提纯加工。数据中台对数据的加工支持离线开发和实时计算两种计算方式。

离线开发封装了大数据相关技术,包括数据加工、数据分析,同时也整合了任务的调度、监控、告警等。在数据开发过程中,经常需要配置作业的上游依赖作业,这样作业之间就会形成一个有向无环图(DAG)。数据中台将此过程进行了可视化设计,更加友好的面向离线开发的使用者,仅通过在画布中拖拽不同的数据组件即可完成整个数据流的构建过程,然后交由基于Spark的数据引擎进行处理。

实时计算是对流计算能力的封装,其起源于对数据加工时效性的要求,即数据的业务价值随着时间流逝而降低,因此必须尽快对其进行计算和处理。数据中台通过读取数据库的操作日志(BinLog),并将其导入到Kafka中,整个过程也是通过Spark的流处理来实现实时计算。

3、数据资产化

当数据已经有价值之后,我们还需要对其进行整理,将其分门别类,形成企业可以感知、使用、管控的数据资产。数据中台通过业务板块、数据域和逻辑表等维度,对数据资产进行了管理。业务板块是根据业务的属性进行划分而得到的一种比较大的分类标准,各个业务板块中的业务重叠度极低,如银行板块、燃气板块、商旅板块等。

数据域是数仓的顶层划分,是一个较高层次的数据归类标准,也是对企业业务的抽象提炼和集合。一个数据域对应一个宏观分析域,比如交易域、客户域等。

逻辑表是物理表的视图抽象。

4、数据服务化

我们有了数据资产之后,还需要将其用起来,即对上层的业务层面进行数据支撑。数据中台提供了应用层面和API层面两个层次的服务,同时对服务的访问控制、流量控制、审计等都做出了相应的处理。

数据中台建设方法论

1、理现状:梳理企业的系统建设,业务特点、现有IT系统架构的痛点。

2、立架构:所谓架构,即是根据现状形成的整体规划蓝图,呈列现状和规划状态。在立架构阶段需要进行业务架构、技术架构、应用架构和组织架构的建设。

3、建资产:通过数据集成、数据开发形成有价值的数据,再对其进行资产化管控,同时通过标签体系的建设,方便的支撑应用。

4、用数据:将数据用起来,将数据服务化,同时考虑数据质量和数据安全的问题。

5、做运营:数据中台的构建是一个持续,需要不断的进行PDCA戴明环的过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/942189.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI Agent 与 AI Workflow 的区别和深度解析:从自动化到智能化的演进

一、引言 在人工智能技术快速迭代的今天,我们正见证着 AI 应用模式的多元化发展。 其中,AI Agent 和 AI Workflow 作为两种截然不同的范式,正在重塑我们对 AI 应用的认知。 这两种模式就像是同一枚硬币的两面 - 一个追求灵活创新&#xff…

【MySQL】7.0 入门学习(七)——MySQL基本指令:帮助、清除输入、查询等

1.0 help ? 帮助指令,查询某个指令的解释、用法、说明等。详情参考博文: 【数据库】6.0 MySQL入门学习(六)——MySQL启动与停止、官方手册、文档查询 https://www.cnblogs.com/xiaofu007/p/10301005.html 2.0 在cmd命…

Refusal in Language Models Is Mediated by a Single Direction

开源代码:https://github.com/andyrdt/refusal_direction Abstract 会话型大语言模型针对指令遵循和安全性进行了微调,从而产生服从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中普遍存在,但其背后的机制仍然知之甚少。在这…

Web3.0安全开发实践:探索比特币DeFi生态中的PSBT

近年来,部分签名比特币交易(PSBT)在比特币生态系统中获得了显著关注。随着如Ordinal和基于铭文的资产等创新的兴起,安全的多方签名和复杂交易的需求不断增加,这使得PSBT成为应对比特币生态不断发展中不可或缺的工具。 …

springboot483基于springboot的校园失物招领系统(论文+源码)_kaic

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统校园失物招领系统信息管理难度大,容错率低&am…

VisionPro开发使用交互反馈系统(Affordance System)

XR Interaction Toolkit 提供了一个affordance system 可供性系统,使用户能够创建对交互状态的视觉和听觉反馈。一般的信息流从向Affordance State Provider场景中添加一个(通常是可交互的)并将其指向我们要监视其交互状态的可交互对象开始。…

Stable-diffusion-WebUI 的API调用(内含文生图和图生图实例)

前情提要 在之前尝试使用Diffusers库来进行stable-diffusion的接口调用以及各种插件功能实现,但发现diffusers库中各复杂功能的添加较为麻烦,而且难以实现对采样器的添加,safetensors格式模型的读取。在官网上找到了webui有专门的api接口&am…

重温设计模式--备忘录模式

文章目录 备忘录模式(Memento Pattern)概述定义: 作用:实现状态的保存与恢复支持撤销 / 恢复操作 备忘录模式UML图备忘录模式的结构原发器(Originator):备忘录(Memento)&…

WPS工具栏灰色怎么办

WPS离线不登录,开启工具栏等相关功能 当你在使用WPS的过程中,若因网络问题或其他特殊原因,导致无法登录使用WPS时,可根据以下步骤开启离线兼容模式,开启此模式后,可在未登录的状态下,激活并使用…

【C++基础】09、结构体

一、结构体(struct) C/C 数组允许定义可存储相同类型数据项的变量,但是结构体是 C 中另一种用户自定义的可用的数据类型,它允许存储不同类型的数据项。 结构体用于表示一条记录,假设现在想要跟踪图书馆中书本的动态,可能需要跟踪每…

安卓蓝牙扫描流程

目录 系统广播 流程图 源码跟踪 系统广播 扫描开启广播:BluetoothAdapter.ACTION_DISCOVERY_STARTED "android.bluetooth.adapter.action.DISCOVERY_STARTED";扫描关闭广播:BluetoothAdapter.ACTION_DISCOVERY_FINISHED "android.b…

Pytorch | 利用BIM/I-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击

Pytorch | 利用BIM/I-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集BIM介绍基本原理算法流程 BIM代码实现BIM算法实现攻击效果 代码汇总bim.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器: Pytorch | 从零构建AlexNet对CIFAR10进行分类 Py…

如何查看pad的console输出,以便我们更好的进行调试,查看并了解实际可能的问题。

1、以下是baidu AI回复: 2、说明: 1)如果小伙伴们经常做android开发的话,这个不陌生,因为调试都是要开启这个开发者模式。并启用USB调试模式。 2)需要连上USB线,有的时候会忘记,然…

外贸企业需要部署SD-WAN专线吗?

随着外贸行业对互联网和数字化技术依赖的加深,网络质量已成为影响企业运营效率和竞争力的重要因素。本文将深入探讨SD-WAN专线如何助力外贸企业优化业务运营。 外贸企业面临的网络挑战 1. 跨国访问速度缓慢 在访问海外服务器或目标网站时,外贸企业常常遭…

MySQL什么情况下会导致索引失效

MySQL什么情况下会导致索引失效 索引(Index)是数据库中一种用于快速查找和访问表中数据的结构,它类似于书的目录,通过索引可以快速定位到目标数据,而无需遍历整个表,索引的存在可以显著提高查询速度&#x…

两分钟解决:vscode卡在设置SSH主机,VS Code-正在本地初始化VSCode服务器

问题原因 remote-ssh还是有一些bug的,在跟新之后可能会一直加载初始化SSH主机解决方案 1.打开终端2.登录链接vscode的账号,到家目录下3.找到 .vscode-server文件,删掉这个文件4.重启 vscode 就没问题了

uniapp登录

第一步整登录 先整个appid APPID和APPSecret https://developers.weixin.qq.com/community/develop/article/doc/000ca4601b8f70e379febac985b413 一个账号只能整一个小程序 正确流程 调用uni.login https://juejin.cn/post/7126553599445827621 https://www.jb51.net/a…

I.MX6U 启动方式详解

一、启动方式选择 BOOT 的处理过程是发生在 I.MX6U 芯片上电以后,芯片会根据 BOOT_MODE[1:0]的设置 来选择 BOOT 方式。 BOOT_MODE[1:0]的值是可以改变的,有两种方式,一种是改写 eFUSE(熔 丝),一种是修改相应的 GPIO 高低电平。第一种修改 eFUSE 的方式只能修改一次,后面就…

项目代码第6讲:UpdownController.cs;理解 工艺/工序 流程、机台信息;前端的“历史 警报/工艺 记录”;每个机台各个管道的数据(温度、压力、气体)

一、UpdownController.cs 1、前端传入 当用户在下图的“记录查询”中的 两个界面选项 中,点击“导出”功能时,向后端发起请求,请求服务器下载文件的权限 【权限是在Program.cs中检测的,这个控制器里只需要进行“谁在哪个接口下载了文件”的日志记录】 【导出:是用户把…

WebRTC搭建与应用(五)-Coturn踩坑记

WebRTC搭建与应用(五)-Coturn踩坑记 近期由于项目需要在研究前端WebGL渲染转为云渲染,借此机会对WebRTC等有了初步了解,在此记录一下,以防遗忘。 第五章 WebRTC搭建与应用(五)-Coturn踩坑记 文章目录 WebRTC搭建与应用(五)-Coturn踩坑记前…