数据中台不是一套系统,也不是一套产品,而是一种机制。在传统IT架构中,不同部门,不同业务系统和不同的数据中心会产生大量数据。这些数据如同烟囱一样是垂直划分的,彼此之间无法连接,我们也把这种数据叫做数据孤岛。分散在各个孤岛上的数据彼此独立,无法很好的支撑企业的经营决策,也无法很好地应对快速变化的前端业务。因此,我们需要一套机制,利用这一套机制整合这些分散在各个孤岛上的数据,为企业经营决策、精细化运营提供支撑,这套机制就是数据中台。
数据中台不会生产数据,只会对数据进行治理。数据中台具备4个核心能力:数据汇聚整合、数据提纯加工、数据资产化,数据服务化。
1、数据汇聚整合
数据中台的构建,第一步就是让企业内部各个业务系统的数据实现互联互通,从物理上打破数据孤岛,数据中台主要通过元数据采集和数据集成来实现。
元数据是描述数据的数据,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息和数据都可以叫做元数据。比如数据库的Schema、Table、Column信息等。通过对元数据的采集,我们获取了对数据源数据的描述信息。
在对数据进行集成的过程中,数据中台支持数据的全量同步和增量同步两种方式。全量同步即读取整表数据或者读取整库数据并写入;增量同步通过不同的增量策略,来追加写数据。很多企业结合自身实践开源了一些优秀的集成工具,如DataX、Sqoop等。
在对数据进行集成的过程中,数据中台支持数据的全量同步和增量同步两种方式。全量同步即读取整表数据或者读取整库数据并写入;增量同步通过不同的增量策略,来追加写数据。很多企业结合自身实践开源了一些优秀的集成工具,如DataX、Sqoop等。
当我们手中已经有了同步后的数据,这些数据还没有价值,还需要对其进行加工处理,就像对原油提纯加工形成石油、橡胶等不同产品一样,我们也需要对这些数据进行提纯加工。
2、数据提纯加工
将原始数据通过清洗、转换、加工等手段,变成对我们有价值的数据,这个过程就是数据的提纯加工。数据中台对数据的加工支持离线开发和实时计算两种计算方式。
离线开发封装了大数据相关技术,包括数据加工、数据分析,同时也整合了任务的调度、监控、告警等。在数据开发过程中,经常需要配置作业的上游依赖作业,这样作业之间就会形成一个有向无环图(DAG)。数据中台将此过程进行了可视化设计,更加友好的面向离线开发的使用者,仅通过在画布中拖拽不同的数据组件即可完成整个数据流的构建过程,然后交由基于Spark的数据引擎进行处理。
实时计算是对流计算能力的封装,其起源于对数据加工时效性的要求,即数据的业务价值随着时间流逝而降低,因此必须尽快对其进行计算和处理。数据中台通过读取数据库的操作日志(BinLog),并将其导入到Kafka中,整个过程也是通过Spark的流处理来实现实时计算。
3、数据资产化
当数据已经有价值之后,我们还需要对其进行整理,将其分门别类,形成企业可以感知、使用、管控的数据资产。数据中台通过业务板块、数据域和逻辑表等维度,对数据资产进行了管理。业务板块是根据业务的属性进行划分而得到的一种比较大的分类标准,各个业务板块中的业务重叠度极低,如银行板块、燃气板块、商旅板块等。
数据域是数仓的顶层划分,是一个较高层次的数据归类标准,也是对企业业务的抽象提炼和集合。一个数据域对应一个宏观分析域,比如交易域、客户域等。
逻辑表是物理表的视图抽象。
4、数据服务化
我们有了数据资产之后,还需要将其用起来,即对上层的业务层面进行数据支撑。数据中台提供了应用层面和API层面两个层次的服务,同时对服务的访问控制、流量控制、审计等都做出了相应的处理。
数据中台建设方法论
1、理现状:梳理企业的系统建设,业务特点、现有IT系统架构的痛点。
2、立架构:所谓架构,即是根据现状形成的整体规划蓝图,呈列现状和规划状态。在立架构阶段需要进行业务架构、技术架构、应用架构和组织架构的建设。
3、建资产:通过数据集成、数据开发形成有价值的数据,再对其进行资产化管控,同时通过标签体系的建设,方便的支撑应用。
4、用数据:将数据用起来,将数据服务化,同时考虑数据质量和数据安全的问题。
5、做运营:数据中台的构建是一个持续,需要不断的进行PDCA戴明环的过程。