数据中台 | 数据资源管理平台介绍

01 产品概述

数据资源的盘查、集成、存储、组织、共享等全方位管理能力,无论对于企业的数字化转型,还是对企业数据资产的开发、运营、交易及入表,都具有极为关键的作用。今天,小兵就来为大家介绍我们自研数据智能平台中的核心产品一一数据资源管理系统。

图片

行业痛点:

  • 数据资源分散:企业各部门间存在数据壁垒,形成一个个数据孤岛,导致数据资源的分散与割裂。

  • 数据多源异构:除了数据孤岛外,技术平台与存储技术的多样性(如关系数据库、NoSQL数据库、文件系统、分布式存储等),造成了数据多源异构的现状。

  • 数据标准不一致:缺乏统一的数据定义和标准,同一概念在不同系统中可能有不同的表示方式。

  • 数据查找和应用困难:上面的三个问题造成数据难以查找和应用,这是数据进行后续开发、应用,乃至交易、入表必须首要解决的问题。

产品定位:

数据资源管理平台,面向用户大数场景下海量、多源、异构数据,帮助盘查企业数据资源,集成接入各类企业数据资源,建立企业数据资源目录,为企业提供统一的数据管理界面,为其他用户提供数据共享访问接口,对企业数据资源进行统一的管理。

产品价值:

(1)解决企业数据接入与管理问题:为用户提供数据资源集成和管理的工具,解决用户多源异构数据/非标准化接口等复杂情况数据接入和数据管理问题。

(2)降低技术门槛:数据采集功能全部使用可视化界面通过配置即可实现,降低数据集成的技术门槛。

(3)节省企业成本:存储方式多样化,可根据用户数据和业务情况量身设计存储方案,支持对存储的数据进行分层分类管理,降低数据资源存储和运营成本。

02 产品功能介绍

2.1 整体功能架构

图片

  • 外部数据源:支持多种类型数据源适配,包括结构化、半结构化和非结构化等数据类型,包MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源。

  • 数据盘查:目的是盘查清楚需要集成的数据情况、对接方式及IT环境等信息,为下一阶段数据集成做好准备。提供数据盘查模版,支持数据盘查信息的查询和维护功能。

  • 数据集成:同时支持数据表、API、EXCEL导入、ETL、实时数据(Kafka)等多种集成方式。可以根据需求选择全量集成模式和轻量集成模式。数据集成过程支持对数据进行按需提取、截取、清洗等数据处理。

  • 数据存储:支持根据数据属性和应用需求,按需选择多种存储架构,支持数据连接和内、外部数据源的配置管理。

  • 数据组织:对数据进行分层分类管理,支持数据表创建和维护,支持数据标签功能。

  • 数据仓库:经过分层分类梳理后的数据,以数据目录的形式进行展现,支持数据资源的查询、查看。

  • 数据服务:支持数据目录服务、API服务、中间库服务、消息分发服务等四种数据分发服务。

2.2 技术架构图

图片

源端适配各种类型数据源,目标端支持多种存储方式,通过数据资源管理平台实现数据盘查、集成、存储、组织、数仓目录展示、分发服务的闭环管理。

2.3 数据流图

图片

(1)不同类型、格式、存储方式的数据源,通过数据集成功能采集到数据资源管理平台;

(2)全量采集的原始数据或轻量采集的元数据通过适合的存储方式进行存储落地;

(3)数据服务以数据表、中间库、API、消息分发等形式对外共享数据。

2.4 数据盘查

数据盘查的目的:

数据盘查功能主要服务于后面的数据集成、数据组织、数据仓库等功能,需要摸清如下信息:

(1)数据情况

  • 客户有哪些数据?

  • 属于什么业务系统?

  • 数据类型有哪些?

  • 有多大的数据规模?

  • 这些数据存储在哪里?

  • 是否有安全方面的要求?

  • 有没有相关的数据字典和设计文档?

2)数据集成对接方式

  • 采用哪种方式对接?

  • 具体的对接信息

3)IT环境信息

  • 数据目前存储的服务器配置如何?

  • 服务器间的网络链路关系?

  • 网络带宽情况?

    功能介绍:

  • 支持数据盘查信息的查询、查看、录入、编辑、删除等管理功能;

  • 提供数据盘查模版,可以通过模版将盘查数据直接导入系统。

图片

数据盘查模版

2.5 数据集成

完成数据盘查工作后,便做好了数据集成前的准备工作,可以对盘查的数据进行数据集成,我们支持多种数据集成方式。

数据集成5种方式:

  • 数据表集成:数据表集成用于建立与管理相关数据源的连接关系,基于需求加载相应采集数据表单,采集相关数据表到数据中台的数据仓库中。

  • 自定义SQL集成:通过自定义查询的方式灵活组装数据集,支持动态参数功能按需接入数据。

  • Excel数据导入:通过上传文件的方式,支持Excel数据集导入数据到数据仓库中。

  • ETL:提供基于大数据ETL工具完成数据的抽取同步其他数据库数据的能力。包括任务维护、任务监控等。

        任务维护:提供数据同步任务查询、任务创建、参数配置、任务执行、任务禁用、任务删除等基础功能

        任务监控:提供任务过程监控功能,监控同步数据到数据智能平台。

  • API集成:支持对API数据源的配置管理(协议、URL、报文格式),对API管理维护包括:增删改查、测试连通性。可查看该数据源关联的作业明细。

数据集成2种模式:

  • 全量数据集成:将全量原始数据集成到数据资源管理平台,并进行本地存储,后续的分析和应用均直接使用本地数据。

  • 轻量数据集成:仅将元数据集成到数据资源管理平台,后续的分析、应用场景,都是通过数据引擎直接连接生产库进行分析和取数据;也支持根据需求过滤一部分符合要求的特定数据进行集成,用于满足业务。

图片

2.6 数据存储

大数据场景下,数据的种类、来源越来越多,数据的应用需求也越发复杂,数据的存储方案选型需要根据数据情况量身选定。

功能介绍:

  • 数据连接配置:主要负责适配主流的数据库连接器,提供数据连接器的配置管理功能。目前支持的主流连接器有mysql、oracle、postgreSQL、SQLserver、MariaDB、Hana、HBase、ES、Openguess、Hive、kafka、Mongodb等。

  • 内部数据源管理:提供平台内部数据源的连接配置功能,用于建立与管理内部数据源的连接关系。

  • 外部数据源管理:提供外部数据源的连接配置功能,用于建立与管理外部数据源的连接关系。

目前主流的存储技术包括关系型数据库 (RDBMS)、非关系型数据库 (NoSQL)、分布式文件系统 (DFS)、分布式存储、数据仓库 (Data Warehouse)、数据湖等。需要根据用户的数据情况、业务需求选择合适的存储技术或存储技术组合方案。下面举几个典型的场景进行说明:

(1)用户同时存在热数据与冷数据的场景

可以采用分级存储的解决方案,热数据采用分布式热磁存储或全闪存储,提升数据的读写性能,冷数据可以存储到归档存储(例如低端硬盘、蓝光、磁带库),确保数据长期安全存储的前提下,可以极大的降低存储成本。

(2)用户数据规模较小且以结构化数据为主的场景

以结构化数据为主的小规模数据,可以采用关系型数据库进行数据的存储。

(3)海量规模的数据存储场景

对于海量规模,且有高并发、高响应及高可用性的存储需求的数据,适合使用分布式存储架构,可以较好的支持高可用性和高效读写的应用场景,例如大数据分析、云计算平台、金融交易系统、容灾和备份等。

图片

2.7 数据组织

数据组织是根据数据本身属性以及数据未来的使用场景需求,对数据进行分层分类管理,支持数据表的创建和维护,支持数据打标签功能。经过数据组织后的分层分类数据进入数据仓库,以数据资源目录形式展示并提供查询、查看。

功能介绍:

  • 数据分层分类:支持根据不同的业务属性、数据来源、使用场景等来对数据进行分层和分类,支持以树状形式对数据进行一级、二级编目,所有编目动态生成、自动刷新,反映数据库内容的实时变化。

  • 数据标签:支持对数据库表、非结构化数据打标签,方便数据检索。

  • 数据表维护:支持数据表维护、数据查询、数据预览、数据表详情等数据表管理功能,可预览查看各数据集的数据样本。

2.8 数据仓库

数据经过分层分类后进入数据仓库,并提供数据资源目录进行数据的快速查询定位和查看。

数据资源目录:支撑各部门对数据资源目录的查询、查看。

原始库:数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。

资源库:是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。

主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。

知识库:对外支撑知识类数据的查询以及模型工程、标签工程等服务。

业务库:业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。

图片

2.9 数据服务

平台支持通过数据目录服务、API服务、中间库服务、消息分发等四种方式,对存储的数据进行分发和共享。

  • 数据目录服务:提供已发布数据的目录,可以直接下载需要的结构化数据和非结构化数据。

  • API服务:将数据发布成API接口,数据使用方通过API接口调用数据。

  • 中间库服务:定义一个中间库,平台将数据推送至中间库,数据使用方去中间库取数。

  • 消息分发服务:以Kafka为例,平台将数据推到Kafka消息队列,数据使用方从Kafka消息队列取数。

03 产品价值

图片

  • 多源异构数据集成

支持以全可视化方式接入多源异构数据,包括结构化、半结构化和非结构化等数据类型,包括MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源,同时支持数据表集成、自定义SQL集成、Excel数据集成、ETL集成、API集成等多种数据集成方式。

  • 数据存储方式多样化

可根据数据属性和数据应用的不同业务场景,选择存储方式,满足需求的同时降低成本。

  • 轻量级部署,快速交付

根据项目规模灵活选择项目方案,单机版或集群版;支持容器化高效部署,零基础半小时轻松完成全套产品部署,快速上线。

  • 支持二次开发,灵活扩展

数据资源管理平台架构支持二次开发,可按照业务需求进行灵活扩展。

04 小结

在数字化时代,数据成为了新的生产要素,是新质生产力和数据资产的原材料,是企业实现数字化转型的前提。做好数据资源管理,可以为后续数据的分析、挖掘和开发打好基础,进而优化企业流程,支撑业务决策,推动业务创新,最终实现数据资产上市交易和入表,为企业带来真金白银的收益。

而想要做好数据资源管理,数据的盘查、集成、存储、组织、共享等基础能力缺一不可,数据资源管理平台正是因此而生,为企业提供专业的数据资源管理能力,助力企业实现“数据梦想”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/875335.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

3D云渲染农场为何怎么贵?主要消耗成本介绍

随着对高质量3D动画的需求持续增长,云渲染农场对于旨在以高效速度生产高质量视觉效果的工作室来说变得至关重要。然而,用户经常想知道为什么渲染农场的价格如此之高,理解背后的原因可以帮助艺术家做出更好的选择。 什么是云渲染农场&#xff…

YOLO配合 PYQT做自定义虚拟电子围-自定义绘制多边形虚拟电子围栏

电子围栏标注以及显示 1、目标检测: YOLO可以识别检测物体,这是众所周知的。使用YOLO来做目标检测,并获取坐标信息。 2、电子围栏 比如在监控中,指定一块区域,如果有目标进入,则发出警报,并提…

计算机网络(一) —— 网络基础入门

目录 一,关于网络 二,协议 2.1 协议是什么,有什么用? 2.2 协议标准谁定的? 2.3 协议分层 2.4 OSI 七层模型 2.5 TCP/IP 四层模型 三,网络传输基本流程 3.1 局域网中两台主机通信* 3.2 报文的封装与…

[001-03-007].第07节:Redis中的事务

我的后端学习大纲 我的Redis学习大纲 1、Redis事务是什么: 1.可以一次执行多个命令,本质是一组命令的集合。一个事务中的所有命令都会序列化, 按顺序地串行化执行而不会被其他命令插入,不许加塞2.一个队列中,一次性、…

2009-2023年上市公司华证esg评级、评分年度数据(含细分项)

2009-2023年上市公司华证esg评级、评分年度数据(含细分项) 1、时间:2009-2023年 2、来源:整理自wind 3、指标:证券代码、年份、证券简称、评级日期、综合评级、综合得分、E评级、E得分、S评级、S得分、G评级、G得分…

How to see if openAI (node js) createModeration response “flagged“ is true

题意:如何查看 OpenAI (Node.js) createModeration 响应中的 "flagged" 是否为 true 问题背景: Using the OpenAI createModeration feature, I am trying to see if the string gets flagged or not. 使用 OpenAI 的 createModeration 功能…

基于开源WQ装备知识图谱的智能问答优化

基于笔者之前写的博客基础上:https://blog.csdn.net/zhanghan11366/article/details/142139488【基于开源WQ装备知识图谱的智能问答全流程构建】进行优化。 优化一、 解决你提出的多武器、多关系解析问题,并确保每个武器只匹配其对应的关系&#xff0c…

百元内真无线蓝牙耳机推荐有哪些?四大百元性价比品牌公开推荐

在当今这个科技迅速发展的时代,真无线蓝牙耳机以其便携性和自由度成为了许多人日常生活中不可或缺的配件,然而,面对市场上琳琅满目的产品,消费者往往感到眼花缭乱,难以抉择,百元内真无线蓝牙耳机推荐有哪些…

Python | 练习作业 2

为学生登录系统新增搜索功能。 第二天作业的解题思路: # 1.创建一个空列表保存搜索结果 # 2.让用户输入要搜索的内容 # 3.遍历学生信息,检查学生的id name age gender score # 中的属性值 是否跟用户搜索的内容一致 # 4.如果有一致的属性 那么就将该学生…

通过nginx代理转发实现共用80和443端口

目录 项目场景: 问题:怎么实现端口共用? 一、域名解析到nginx服务器 二、创建vhost解析到实际的服务器 三、防火墙的配置 项目场景: 公司自建服务器,有一条专线带有公网IP,如何满足不同的域名解析共用…

春日美食汇:基于SpringBoot的订餐平台

2 系统关键技术 2.1JSP技术 JSP(Java脚本页面)是Sun和许多参与建立的公司所提倡的动态web技术。将Java程序添加到传统的web页面HTML文件()。htm,。Html) [1]。 JSP这种能够独立使用的编程语言可以嵌入在html语言里面运行,正因为JSP参照了许多编程语言的特性&#xf…

RHCE--复习(一)之系统延迟任务及定时任务

系统延迟任务及定时任务 #关闭图形命令(第二次开启的时候)[rootlocalhost ~]# systemctl set-default multi-user.target#windos系统级别类型 0-6个级别#查看级别类型[rootlocalhost ~]# runlevel 一、延迟任务 在系统中我们的维护工作大多数时在服务器…

自选择问题和处理效应模型

这里写目录标题 自选择问题和处理效应模型Tobit 模型假定Heckman过程逆米歇尔比率推导过程逆米希尔比率推导过程自选择问题典型事实分析一定要列出来的关于OLS,Heckman-2sls,Heckman三种模型的估计结果对比Heckman两阶段算逆米希尔比率分解 处理效应模型…

labview禁用8080端口

需求背景 最近电脑上安装了labview全家桶,发现idea的8080端口项目启动报错,一直提示8080端口被占用。最简单的办法就是找到8080端口的服务,然后关闭这个服务。但是我不想这么做,我想把labview的web服务器的端口给修改了。 操作教程 1、cmd查看8080端口 2、windows进程 同…

pgAdmin 4备份数据库失败,解决

pgAdmin4中,必须先设置二进制路径;binary paths pgAdmin4操作路径,File—>Preferences—>Paths—>Binary paths 找到postgreSQL的安装目录,bin目录复制,然后设置在截图标记位置; 再去备份数据库就…

flux.1模型在40hx上绘图实践

flux.1是新成立的AI绘画团队。核心成员来自于Stability AI。Stability AI曾经开创了AIGC的新纪元,但管理团队在经营理念上一直有分歧,到了SD3的推出后,团队在开源还是闭源的问题上,产生了重大冲突,直到模型又一次无意外…

零基础5分钟上手亚马逊云科技-为网站服务器配置DNS域名

简介 欢迎来到小李哥全新亚马逊云科技AWS云计算知识学习系列,适用于任何无云计算或者亚马逊云科技技术背景的开发者,通过这篇文章大家零基础5分钟就能完全学会亚马逊云科技一个经典的服务开发架构方案。 我会每天介绍一个基于亚马逊云科技AWS云计算平台…

SAP 公司间采购配置简介

SAP 公司间采购配置简介 说明后台配置说明 上一篇博文中我们演示了公司间采购的前台的操作,本文将针对公司间采购的后台的配置进行说明。 后台配置 1、定义工厂的装运数据 路径:IMG—物料管理—采购—采购订单—设置库存调拨订单—定义工厂的装运数据 在这里插入图片描述 …

集成电感器TPS82130

集成电感器TPS82130 简介 TPS82130是集成了电感跟0603一样大的BUCK降压模块。输入电压3-17V,输出电压0.9-6V,输出电流3A,0.8V参考电压。 TPS82130属于系统级的封装电源模块,目前价格大概是4.5元。它可以实现100%的占空比&#x…

Zookeeper工作机制、特点、数据结构、应用场景、配置参数解读

ZK工作机制 从涉及模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,zk就负责通知已在zk上注册的那些观察者做出相应…