云原生时代数据治理的变革与创新

随着数字化进程的深入,企业对数据的依赖日益加深,数据资源的重要性愈发凸显。如何管好、用好数据,做好数据治理工作,发挥数据资源价值,成为企业提质增效过程中的重要议题。

在本次直播中,我们介绍了数据治理体系、技术框架及云原生数据平台在数据治理领域的优势。以下内容根据直播文字整理成稿。

传统数据治理体系及框架

在数字化转型中,战略驱动是根本,数据治理是基础,数据智能是方向。

数据治理就是从组织、管理、技术的角度持续改变数据使用行为的过程,贯穿整个数据生命周期。数据治理的根本目标是确保数据安全,提升数据价值。

同时,数据治理更是一个体系,其关注于信息系统的执行层面,以整合信息科技部门与业务部门的知识和意见为目的,通过数据治理组织对企业的信息化建设进行全方位的监管,从而迭代数据资产价值,赋能业务发展,达成业务战略,保障数据安全,降低隐私泄露的风险。

数据治理体系涉及企业的组织、管理、技术等多个层面,和业务部门关系紧密。通常,企业的数据治理工作都是由业务部门牵头,IT部门辅助执行。 

图1 数据治理体系架构图 

如上图所示,数据治理体系分为三个层级,分别是数据治理对象、数据治理任务和数据治理支撑。

  • 数据治理的对象围绕主题进行划分,不同企业的数据主题不尽相同,与企业自身组织和部门设置密切相关,这里不再展开描述。
  • 数据治理支撑包括企业的组织架构、在数据治理过程中的角色、企业内部基于数据治理相关的制度与流程以及IT 技术架构与平台。
  • 数据治理任务,主要包含主数据管理、数据标准管理、数据质量管理、数据资产管理、数据安全管理、数据生命周期等。其中,主数据管理、元数据管理和数据质量管理是重点所在。

主数据管理

主数据是指描述核心业务实体的数据,如客户、产品、员工、账户等,具有高业务价值的、可在跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。

主数据管理将从企业多个业务系统中整合最核心、最需要共享的数据(即主数据)集中进行清洗和丰富,并以服务的方式把主数据分发给企业范围内的操作型和分析型应用。

主数据管理的目的是为了保证在跨系统和跨平台使用数据的时候,主数据能够保持一致。

数据质量管理

数据质量管理体系包括数据质量的判断以及所有对数据质量起到保证提升作用的活动、流程,力求实现全方位数据质量管理。

其中,数据质量优化提升是面向存量数据,按业务系统或者主题分批对数据进行分析、清洗,提高既有数据质量的数据质量管理活动。

数据质量管理的管控,首先需要企业内部制订相关的规章制度,并将数据按照不同的主题域指定相应的归口部门,确保数据质量是的持续提升。

图2 数据质量问题归因溯源 

通过上方的鱼骨图可以看出,数据质量问题产生的原因有很多,其中人员、流程、业务系统前段录入属于原生数据质量问题;业务系统后端数据库设计、数据抽取、数据加载等属于次生数据质量问题。

针对原生数据质量问题,可以通过提高录入的自动化和易用性等手段,降低前端输入时出错的机率。

对于次生数据质量问题,通过在数据流转过程中加入一些埋点校验,进行数据比对,避免数据出错。

元数据管理

元数据用来描述数据的数据,相当于书籍的目录,是数据的解释说明信息,使数据的使用者可以了解数据的特征、内容、作用,以及获取方式等信息,并对数据是否能满足使用需求做出适当的评价。

在数据治理体系中,元数据可分为业务元数据、技术元数据、操作元数据和管理元数据四种类型。

元数据管理分为采集、管理、分类、服务四个层面,涉及标准制订、补充维护、管理分类、血缘分析、查询统计等诸多环节。

对于大型企业,元数据的规模比较庞大,要实现元数据管理需要投入大量的人力和时间,工程周期往往以年为单位。

此外,企业数据治理还涉及数据标准、数据安全、数据生命周期等,这里不再展开赘述。

 数据治理面临的难题

随着新技术的不断涌现和数据量的极速增长,传统数据治理体系在实施时面临着以下挑战:

  • 元数据管理成本高:业务元数据的实施需要业务人员的介入与识别,每个数据平台都要录入,数据流转的操作元数据也需要进行录入,导致记录成本高。
  • 数据质量难以保障:数据在平台间流转的过程中会产生次生数据质量问题,需要进行大量的埋点校验工作。
  • 数据标准落标复杂:每个数据平台都要进行数据标准的检查,跨平台的数据标准一致性难以保障。
  • 数据同步策略复杂:主数据平台必须向多个数据平台同步主数据,需要复杂的同步策略,否则可能面临主数据的版本不一致问题。
  • 敏感数据难以集中治理:需要定期对每个数据平台的敏感数据进行识别,数据跨平台流转还需要加密解密,维护困难。
  • 数据服务响应周期长:数据服务要经过多个数据平台进行加工和etl,拉长了数据服务的响应时间。

云原生数据平台下的数据治理

当前,云计算对企业IT架构产生了深刻影响和变革,云原生平台能够在很大程度减轻上述数据管理与治理负担,缩短响应周期,基于云原生平台的数据治理应运而生。

 图3 云原生平台体系与数据治理 

如上图所示,与传统数据体系相比,云原生数据平台体系具有以下特点:

  • 一站式敏捷数据服务:通过一站式的数据门户,快速检索数据资产,敏捷开发新的数据服务与产品,快速发布上线,和用户互动迭代更新,滚动沉淀企业的数据资产价值。
  • 云原生数据平台:采用存算分离架构,原生支持OneData,保证企业核心数据的一致性,降低数据治理的复杂度;根据业务形态,实现资源弹性伸缩、动态调度与高并发,满足各种业务场景的灵活要求。同时具备自愈能力,提高系统可用性。
  • 云原生大数据支撑平台:为云原生化的数据平台提供稳定支撑,实现存算分离、弹性调度、更好的资源隔离等能力,同时也支持混合云等多种异构环境部署,保障业务的灵活性,帮助企业快速实现业务目标。

随着新技术的不断成熟,应用场景不断增加,业务模式不断复杂化,全域数据治理的理念日益受到企业的重视。全域数据涵盖了企业相关的内外部数据,与企业的业务和商业性质息息相关。

云原生数据平台的“存算分离”,实现了企业内的全域数据融合,整合了分散的数据平台,彻底消除了数据孤岛现象,并且可以集中进行数据安全管理,减少安全漏洞产生环节,同时也减少了次生数据质量问题;针对全域数据一站式地管理主、元数据、数据标准、数据架构与模型,大幅降低数据治理的复杂度;同时,云原生的数据资产服务也使业务变得更加敏捷,适应市场的瞬息万变,不断迭代数据资产,从而达成数字化转型。

目前,HashData作为国内领先的云原生数据平台,已在金融、电信、政务、能源、交通等众多领域实现大规模商用,帮助企业高效、便捷地开展全域数据治理工作。

图4 HashData在国有大行生产落地实例

以某国有大行为例,使用HashData云原生数据平台整合了所有P9分析平台,将全域数据按照主题域进行划分,实现了数据集中管控,数据架构融合统一。

同时,上收所有分公司的数据平台,统一提供全域数据与计算资源。基于共享存储管理着全行统一的、面向分析的企业级数据视图,按应用场景的不同建立多个计算集群,任意计算集群在授权后均可访问共享存储中的任意数据,以完成业务加工计算或在线查询分析。

由于数据平台统一,可以在全行内使用统一的数据模型最佳实践,避免不同技术栈产生的模型差异,减少了次生数据质量问题和元数据操作,大幅降低了数据管理成本。

未来我们期待为各行各业带来最新的云原生技术实践,赋能企业实现OneData,轻装上阵释放数据价值!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/32149.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络管理- SNMP协议报文和报文格式分析,SNMP PDU分析

⬜⬜⬜ 🐰🟧🟨🟩🟦🟪(*^▽^*)欢迎光临 🟧🟨🟩🟦🟪🐰⬜⬜⬜ ✏️write in front✏️ 📝个人主页:陈丹宇jmu &am…

【MongoDB】五、MongoDB分片集群的部署

【MongoDB】五、MongoDB分片集群的部署 实验目的实验内容实验步骤环境准备部署 Config server配置Config Server副本集部署Shard部署mongos启动分片功能查看分片信息 实验小结 实验目的 能够通过部署MongoDB分片集群熟悉MongoDB分片集群架构和基本操作,从而解决大数…

在spring事务中扩展业务操作;spring事务同步器TransactionSynchronizationManager

概述 业务上经常会有一些需求是需要在某个数据库操作事务提交之后再去操作。 我常用的就方式有TransactionalEventListener和TransactionSynchronizationManager. 其实TransactionalEventListener背后使用的也是TransactionSynchronizationManager。 注意点:在a…

【人工智能】人工智能和双曲几何

一、说明 作为人工智能技术的理论支撑,几何学是必不可少的;目前直接的几何技术有:计算几何--对集合体如点云处理有用;射影几何--对3d重构有用;双曲几何--在自然语言的词嵌入做基础数学模型,另外深度学习国外有双曲网络在应用。本文针对双曲几何进行探讨。 二、各种几何的…

[CKA]考试之四层负载均衡service

由于最新的CKA考试改版,不允许存储书签,本博客致力怎么一步步从官网把答案找到,如何修改把题做对,下面开始我们的 CKA之旅 题目为: Task 重新配置一个已经存在的front-end的deployment,在名字为nginx的容…

gitTortoise图形化工具下载步骤

一,简介 本文主要介绍如何下载安装gitTortoise图形化工具来管理和提交代码。 二,步骤介绍 2.1 安装包下载 下载地址:https://download.tortoisegit.org/tgit/ 打开后,界面如下: 点击选择最新的稳定release版本&am…

【Unity3D】雾效

1 前言 屏幕深度和法线纹理简介中对深度和法线纹理的来源、使用及推导过程进行了讲解,激光雷达特效中讲述了一种重构屏幕像素点世界坐标的方法,本文将介绍使用深度纹理重构屏幕像素点在相机坐标系下的坐标计算方法,并使用重构后的坐标模拟雾…

驱动开发:基于事件同步的反向通信

在之前的文章中LyShark一直都在教大家如何让驱动程序与应用层进行正向通信,而在某些时候我们不仅仅只需要正向通信,也需要反向通信,例如杀毒软件如果驱动程序拦截到恶意操作则必须将这个请求动态的转发到应用层以此来通知用户,而这…

多模态学习

什么是多模态学习? 模态 模态是指一些表达或感知事物的方式,每一种信息的来源或者形式,都可以称为一种模态 视频图像文本音频 多模态 多模态即是从多个模态表达或感知事物 多模态学习 从多种模态的数据中学习并且提升自身的算法 多…

Nacos架构与原理 - 寻址机制

文章目录 前提设计MemberLookup内部实现单机寻址 StandaloneMemberLookup文件寻址 FileConfigMemberLookup地址服务器寻址 AddressServerMemberLookup 未来可扩展点 前提 Nacos 支持单机部署以及集群部署 针对单机模式,Nacos 只是自己和自己通信;对于集…

关系数据库SQL数据查询

关系数据库SQL数据查询 数据查询 一、单表查询 1.查询仅涉及一个表,选择表中的若干列 [例1] 查询全体学生的学号与姓名。SELECT Sno,SnameFROM Student; [例2] 查询全体学生的姓名、学号、所在系。SELECT Sname,Sno,SdeptFROM Student;查询全部列 选出所有属…

文件系统考古 3:1994 - The SGI XFS Filesystem

在 1994 年,论文《XFS 文件系统的可扩展性》发表了。自 1984 年以来,计算机的发展速度变得更快,存储容量也增加了。值得注意的是,在这个时期出现了更多配备多个 CPU 的计算机,并且存储容量已经达到了 TB 级别。对于这些…

机器学习实践(1.2)XGBoost回归任务

前言 XGBoost属于Boosting集成学习模型,由华盛顿大学陈天齐博士提出,因在机器学习挑战赛中大放异彩而被业界所熟知。相比越来越流行的深度神经网络,XGBoost能更好的处理表格数据,并具有更强的可解释性,还具有易于调参…

SpringCloud微服务(二)网关GateWay、Docker、Dockerfile、Linux操作超详细

目录 统一网关GateWay 搭建网关服务的步骤 1、引入依赖 2、编写路由配置及nacos地址 路由断言工厂Route Oredicate Factory 路由过滤器配置 全局过滤器GlobalFilter 过滤器执行顺序 跨域问题处理 Docker ​编辑 Docker与虚拟机 镜像和容器 Docker的安装 启动docke…

MSP432学习笔记11:定时器A的结构\基地址\函数汇总理解

今日得以继续我的电赛MSP432学习之路:所用开发板MSP432P401R 定时器是任何单片机开发板十分重要的模块,在几日的学习使用过程中,本人也对其使用原理等产生过许多疑问,他究竟是怎么存储计数值、捕获值的?一个定时器四个…

8.2 电压比较器(1)

电压比较器是对输入信号进行鉴幅与比较的电路,是组成非正弦波发生电路的基本单元电路,在测量和控制中有着相当广泛的应用。 一、概述 1、电压比较器的电压传输特性 电压比较器的输出电压 u O u_{\scriptscriptstyle O} uO​ 与输入电压 u I u_{\scr…

网络层:虚拟专用网VPN和网络地址转换NAT

1.网络层:虚拟专用网VPN和网络地址转换NAT 笔记来源: 湖科大教书匠:虚拟专用网VPN和网络地址转换NAT 声明:该学习笔记来自湖科大教书匠,笔记仅做学习参考 1.1 虚拟专用网VPN 专用网和公用网的特点 专用网络&#xff…

Springboot集成magic-api

目录 1、前言 2、springboot集成magic-api 2.1、添加maven依赖 2.2、application.yml配置 2.3、编写测试接口 2.4、启动程序,访问接口 2.5、magic-api脚本 3、magic-api其他语法 4、注意事项 1、前言 今天项目中遇到一个问题,springboot后端项目…

探索ChatGPT:了解语言模型在对话系统中的应用

第一章:引言 在当今数字化时代,人工智能技术的迅猛发展使得对话系统成为一个备受关注的领域。随着语言模型的进步,像ChatGPT这样的模型正在改变我们与计算机进行交流的方式。本文将探索ChatGPT作为一种语言模型在对话系统中的应用&#xff0…

简化 Hello World:Java 新写法要来了

OpenJDK 的 JEP 445 提案正在努力简化 Java 的入门难度。 这个提案主要是引入 “灵活的 Main 方法和匿名 Main 类” ,希望 Java 的学习过程能更平滑,让学生和初学者能更好地接受 Java 。 提案的作者 Ron Pressler 解释:现在的 Java 语言非常…