【精选】数据治理项目实施(合集)05——解码“数据架构”,数据架构包含哪些内容?

        上一篇讲到了数据治理项目的前期调研工作,继数据调研工作完成之后,就要开始关于治理工作的各项方案设计,整体方案设计包括数据架构、元数据、主数据、数据质量、数据安全、指标标签体系、数据生命周期管理和管理评价等内容。这一篇重点讲一下数据架构的具体内容。

        数据架构与企业的其他架构(如应用架构、技术架构、业务架构等)密切相关,它们共同构成了企业的整体架构体系。数据架构是这些架构中的桥梁,将不同的系统、应用和业务领域连接起来,实现数据的共享和协同。

01 数据架构的定义

        那么首先来说,什么是数据架构?关于架构的定义有很多种说法。在国际标准ISO/IEC/IEEE 42010:2011当中,架构的定义为系统的基本结构,具体体现在架构构成中 的组件、组件与组件之间的相互关系,以及管理其设计和演变的原则。数据架构的定义,主流的有DAMA和国标DCMM当中的定义。

        DAMA体系中认为,数据架构是识别企业的数据需求(无论数据结构如何),设计和维护总蓝图以满足这些需求。使用总览图来指导数据集成、控制数据资产,并使数据投资与业务战略保持一致。内容包括企业数据模型和数据流的设计。

        DCMM(GB T 36073-2018 数据管理能力成熟度评估模型)定义的数据架构是通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据管理的规范。内容包括数据模型、数据分布、数据集成与共享、元数据管理。

         从实施层面而言,关于数据架构的定义还有华为的《数据治理之旅》,其中定义了信息架构(Information Architecture):以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范。信息架构包括数据资产目录、数据标准、级数据模型和数据分布四个组件。

        数据资产目录编制: 厘清本单位的数据信息资源ꎬ 支撑数据标准、数据模型、元数据与主数据管理。

        数据标准管理: 规范业务对象在信息系统中的定义和应用ꎬ 支撑数据使用和交换的一致性和准确性。

        数据模型构建: 对业务模式和业务规则的数据需求进行分析和重新组织,支撑应用系统设计和开发。

         数据模型分布: 数据在业务流程、系统和数据源之间的流转关系。

        数据架构规划一般包含这四个步骤:

  1. 明确业务需求:在规划数据架构之前,需要明确企业的业务需求和数据需求,了解企业的业务目标、战略方向、组织架构等。

  2. 设计数据资产目录:根据业务需求,设计数据资产目录,列出企业所有的数据资产,包括数据的来源、类型、格式、用途等。

  3. 制定数据标准:制定数据标准,定义数据的格式、命名规则、编码方式等,确保数据的一致性和准确性。

  4. 设计数据模型和数据分布:根据业务需求和数据资产目录,设计数据模型和数据分布方案,实现数据的高效存储和查询。

01 数据资产目录的定义

         数据资产目录是数据架构的基础,它列出了企业所有的数据资产,包括数据的来源、类型、格式、用途等。数据资产目录有助于企业清晰地了解自身的数据资源,为数据的利用和管理提供依据。

        常用的数据资产编目方式包含数据资源、数据主题、数据来源部门、数据管理对象等方式进行编目,编目的内容设计数据的流通属性、管理属性、业务属性、物理属性和逻辑属性。以上编目的内容大部分都可以从数据前期调研的内容中进行获取。

       (一)、数据资产目录的创建步骤

        数据资产目录的创建步骤一般分为六步:首先结合前期调研的情况,对数据资产进行盘点,形成数据资产目录,再从业务角度、技术角度、管理角度对目录信息进行补充,其实这部分内容也属于元数据的一部分,最后再明确数据资产组织信息。

        关于数据资产目录的内容,各个行业都有对应的目录标准,这里以政务数据目录为例,主要包括数据的信息项、共享属性、信息资源分类方式、业务属性、安全属性等内容。具体可以参考当前行业的相关标准进行统计。

(二)、数据资产主题分类方式

        数据资产目录中明确了数据资产的层级结构,便于对数据资产进行分层分级的管理,包括五个层级,主题域分组(L1)、主题域(L2)、业务对象(L3)、逻辑数据实体(L4)和属性(L5)。

02 数据模型定义

        为什么要做数据模型?为了解决架构设计和数据开发不一致,而对数据开发中的表名、字段名等规范进行约束。数据模型在数据标准和数据开发之间起到一个承上启下的作用,即数据模型需要依赖数据标准指导数据开发中的表名、字段名等标准规范的落地。

        数据模型的设计一般分为概念模型、逻辑模型、物理模型,三者的关系并不是严格的顺序关系,实际项目当中可能直接从概念模型过度到逻辑模型。

(一 )、数据模型的建设模式

        数据模型的建设模式一般从两个视角进行建设,一是从企业架构视角进行建模,这种方式主要是由组织层面发起,通过对数据的宏观把握和分析,梳理和整合不同部门和系统之间的业务逻辑和数据关系。二是从应用场景视角进行建模,从某个特定的业务场景出发,通过对数据的深入挖掘和分析,梳理和分析具体场景中的数据关系和业务逻辑。

        基于企业架构视角的数据模型建设方式,通常适合于跨部门或系统的业务需求较多的组织。这种方式主要是由组织层面发起,通过对数据的宏观把握和分析,梳理和整合不同部门和系统之间的业务逻辑和数据关系,通常实施开发周期较长,适合于组织重构数据模型或创新业务模式的时期。

        基于应用场景视角的数据模型建设方式,则通常适合于精细化分析的业务需求较多的组织。这种方式主要是从某个特定的业务场景出发,通过对数据的深入挖掘和分析,梳理和分析体场景中的数据关系和业务逻辑,实施开发周期与业务场景及需求有关,适合于组织对已有数据模型进行改造或升级的时期。

(二 )、数据模型的建设步骤

        数据模型的建设步骤依据企业架构视角和应用场景一般分为五个步骤。

          从企业架构视角建模

        第一步,识别需求。通过研讨会、访谈、业务手册等方式,识别业务重点关注的内容。

        第二步,构造业务对象。提取相关名词形成候选核心实体,并基于核心实体形成业务对象。

        第三步,界定数据范围。提炼业务数据,界定系统的数据范围。

        第四步,划分主题域。对业务数据进行分类,抽象业务对象,最终梳理出业务实体,及实体间的业务关联规则。

        第五步,完善业务对象清单。结合流程模型验证已识别业务对象的正确性和完整性,识别完善与细化业务对象清单。

 从应用场景视角建模

        第一步, 识别需求。明确需要建模的业务场景及模型应用诉求, 例如风险评估、客户分析等场景。

        第二步,系统调研。对现有源系统进行信息调研,获取相关数据源、数据分布等信息。

        第三步,数据梳理。基于业务需求梳理数据项,包括数据指标、业务实体等,并逐步迭代定义实体关,标识实体属性。

        第四步,建立映射。在实施过程中与底层库表建立完善的映射关系,持续优化建立描述各业务场景的数据模型。

(三)、资源库和主题库设计

        数据建模完成后,需要规划数据资源库、主题库以及数据分层的设计。

        原始库:数据经过按需提取、清洗、关联、比对、标识(也就是数据标签)等多种数据处理后,进入资源库。

        资源库:资源库中可以进行结构化数据提取和清洗去重,净化数据;资源库数据在通过对象化提取、清洗归并,进行关联和标识(对象标识),输出到主题库。

        主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。业务库:业务库内部数据也可以按需进行数据处理,供业务系统使用。

        知识库:资源库、主题库和业务库均有可能用到知识库,通过对资源库、主题库和业务库进行挖掘,可反哺和进一步完善知识库。

(四 )、数据模型的分层设计

       数据分域应业务应用维度进行划分,建议采用以业务为主的1+N+1数据主题域划分方法:各级主题命名应能准确表达主题的含义和功能。业务主题域命名一般采用动宾结构的短语(动词+名词,或名词+动词),为动词化的名词,动词为业务的概括说明,名词为过程或对象。

03 数据标准的定义

        为什么要做数据标准,这个话题得从秦始皇说起,从秦始皇统一六国,他统一了货币、统一了文字、统一了度量衡,废弃分封制,建立郡县制,加强中央集权。他采取了一系列国家治理的措施,我们可以发现他做的最核心的一件事情——标准化。同样,我们做数据治理的一个目的也是要对数据进行标准化,这个数据标准的定义有很多种来源

        数据的命名、定义、结构和取值的规则。——GB T 36073-2018 数据管理能力成熟度评估模型。

        是保障数据的内外部使用和交换的一致性和准确性的规范性约束。——大数据技术标准委员会《数据标准管理实践白皮书1.0》。

        并非是一个专有名词,而是一系列“规范性约束”的抽象。但是,数据标准的具体形态通常是一个或多个数据元的集合,即数据元是数据标准的基本单元。 ——大数据技术标准委员会《数据资产管理实践白皮书6.0》。

        数据标准管理的目标是通过制定和发布由数据利益相关方确认的数据标准,结合制度约束、过程管控、技术工具等手段,推动数据的标准化,进一步提升数据质量。 ——大数据技术标准委员会《数据资产管理实践白皮书6.0》。

        标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、 技术属性和 管理属性的统一定义。业务属性包括中文名称、业务定义、业务规则等,技术属性包括数据类型、数据格式等,管理属性包括数据定义者、数据管理者等。——JR/T0105-2014 银行数据标准定义规范。

        在DAMA体系中,数据标准没有单独拿出来作为一个活动的内容来阐述,这是因为DAMA认为,数据标准贯穿与数据治理的各项活动当中。

        做数据标准前,首先要考虑三个问题:

        问题1:什么数据需要制定哪些标准?

        并非所有基础类数据都要建立标准,纳入标准的数据项需要满足共享性、重要性和可行性的准入原则。如:基础通用型数据(国家标准、行业标准、企业标准)、主数据类数据、类型和维度数据(分类码、维度码)、报送类(指标、标签)。

        问题2:什么系统落什么标准?

        核心业务系统、重点业务系统,通过试点逐步推进标准建设,也可反推源头标准化改造。

        问题3:什么人与什么时间执行?

        数据标准的统一最直接的影响就是数据使用方和提供方,什么时候执行标准,执行哪些标准,按什么方式来执行是需要慎重考虑的问题。

        通过下面表格的内容,可以发现数据标准从源头落地,会减少数据的处理成本,提高数据应用的效益,缺点是对于存量系统和外购系统存在较大改动风险和成本。
        如果从数据的仓库层进行落标,比较容易着手处理,落标后的下游数据系统则自动统一数据标准,然而数仓层的报表应用与业务系统的报表存在口径不一致性在所难免,仍然需要源数据层进行必要调整。无论从哪一层入手,模型的优良设计环节都是必要条件,否则整个落标过程会没有抓手,流程将不顺畅。

04 数据分布的定义

        数据分布主要记录这几项内容:数据在业务流程中的应用、某个环境中的数据存储或数据库、网段(用于安全映射)、业务角色(描述哪些角色有职责创建、更新和删除数据)等。

        数据在业务流程中的应用可以用数据流的方式进行表达,通过二维矩阵或数据流图的方式呈现。通过矩阵可以清晰地展现创建和使用数据的过程。采用矩阵方法显示数据需求的优势是可以清晰看出数据不是只在一个方向上流动。在复杂数据使用场景中,数据交换是多对多的,并会在多种地方出现,而且通过矩阵方法可以明确流程中的数据获取职责及数据依赖关系,反过来也可以促进流程的制定。只需要将流程轴转变为系统能力,对业务熟悉的人便可以很容易上手使用。

 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

———— 数据治理行业资料及实施模板获取请加入获取————

———— 星球资料部分内容————

 数据治理实施交付物合集


 

 

  数据治理行业合集


 

 

   数据治理方案合集


 

 

           ———— 更多资讯请添加公众号————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/749704.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

4面体空间内直链4点结构分布与占比

在30个点的4面体空间内取4个点,有30*29*28*27/2427405种取法,要求得到的4个点必须在直链上。只有144个结构符合要求,在平移操作下不重合的结构有36个。 这36个结构可以按照旋转对称性进一步分成3组0,1,4,每…

SaaS客户裂变:如何构建合作伙伴的双向沟通桥梁

在SaaS行业中,客户裂变不仅是增长的关键,更要求与合作伙伴之间建立稳固的沟通桥梁。如何构建合作伙伴双向沟通的桥梁,真正做到理解对方的价值需求,实现长期合作共赢呢? 一、明确价值共享 首先,确保双方明…

MK米客方德SD NAND磨损均衡技术

上次MK给大家讲解了MK SD NAND异常掉电保护机制,不少的工程师朋友们对此挺感兴趣,今天再和大家聊一聊SD NAND内部的另外一个核心技术SD NAND:磨损均衡(Wear Leveling)。 SD NAND内部主要由NAND Flash和Flash Controll…

秋招季的策略与行动指南:提前布局,高效备战,精准出击

6月即将进入尾声,一年一度的秋季招聘季正在热火进行中。对于即将毕业的学生和寻求职业发展的职场人士来说,秋招是一个不容错过的黄金时期。 秋招的序幕通常在6月至9月间拉开,名企们纷纷开启网申的大门。在此期间,求职备战是一个系…

stm32学习笔记---TIM输入捕获(理论部分)

目录 输入捕获简介 频率测量 测频法 测周法 测频法和测周法的区别 中界频率 如何实现测周法 输入捕获的各部分电路 电路执行的细节 主从触发模式 输入捕获基本结构 PWMI基本结构 声明:本专栏是本人跟着B站江科大的视频的学习过程中记录下来的笔记&#…

检索增强生成RAG系列1--RAG的实现

大模型出现涌现能力之后,针对大模型的应用也如雨后春笋般。但是,在大模型真正落地之前,其实还需要做好最后一公里,而这个最后一公里,其中不同应用有着不同的方法。其中prompt、微调和RAG都是其中方法之一。本系列就是针…

C++11 右值引用和移动语义,完美转发和万能引用,移动构造和移动赋值,可变参数模板,lambda表达式,包装器

文章目录 C11简介统一的列表初始化{}初始化std::initializer_list声明autodecltypenullptr 范围for循环 智能指针STL中一些变化右值引用和移动语义左值引用和右值引用左值引用与右值引用比较 右值引用使用场景和意义右值引用引用左值及其一些更深入的使用…

Spring框架FactoryBean接口的作用和应用

一、FactoryBean源码解读 FactoryBean<T> 是 Spring 框架 beans.factory包中的一个接口&#xff0c;从字面意思可以理解为工厂bean&#xff0c;它是干什么的&#xff0c;类名上的泛型又是指什么&#xff0c;有什么作用&#xff1f; 注释看不懂没关系&#xff0c;先看一…

一键智控,舒适无限:网关在风机盘管智能温控中的应用

风机盘管智能控制系统采用钡铼技术系列无线网关&#xff0c;搭配各类风机设备及传感器组成无线物联中央空调室内机管理系统&#xff0c;实现整个办公楼的空调环境智能化管理。在建筑舒适度的前提下&#xff0c;降低能耗&#xff0c;避免能源浪费。 网关通信接口采用无线传输的…

上班族要怎么挑选智能猫砂盆?今年最受欢迎的牌子都在这里了!

对于上班族来说&#xff0c;猫砂盆里的猫屎到底该如何是好&#xff0c;放到下班回来再铲&#xff0c;猫砂的臭味早就飘满屋子&#xff0c;想立刻铲掉吧&#xff0c;班不要上啦&#xff1f;可是不铲就会生细菌&#xff0c;谁也不想花个几千块去给猫咪看病吧&#xff0c;谁不希望…

PointMamba: A Simple State Space Model for Point Cloud Analysis

1. 论文基本信息 2. 创新点 介绍了第一个状态空间模型 PointMamba&#xff0c;将其应用与点云分析。PointMamba 表现出令人印象深刻的能力&#xff0c;包括结构简单性&#xff08;例如&#xff0c;vanilla Mamba&#xff09;、低计算成本和知识可迁移性&#xff08;例如&#…

大数据处理引擎选型之 Hadoop vs Spark vs Flink

随着大数据时代的到来&#xff0c;处理海量数据成为了各个领域的关键挑战之一。为了应对这一挑战&#xff0c;多个大数据处理框架被开发出来&#xff0c;其中最知名的包括Hadoop、Spark和Flink。本文将对这三个大数据处理框架进行比较&#xff0c;以及在不同场景下的选择考虑。…

测绘局内外网文件导入导出,怎样才能效率安全两手抓?

测绘局负责进行各种基础测绘工作&#xff0c;如地形测量、地籍测绘、海洋测绘等&#xff0c;获取并更新国家基础地理信息数据。这些数据是国民经济建设、城市规划、资源调查、环境保护等各个领域的重要基础资料。对于维护国家地理信息安全、促进国民经济和社会发展具有重要意义…

工业边缘计算网关

1 介绍 HINETG系列边缘计算网关&#xff08;Linux操作系统&#xff09;&#xff0c;是华辰智通的—款面向工业现场设备接入、数据采集、设备监控的工业级边缘计算网关。采用ARM Cortex-A7 800MHz高性能CPU,拥有以太网、串口、CAN口、IO口等丰富的接口&#xff0c;支持以太网、…

专业软件测试公司分享:安全测评对于软件产品的重要性

在互联网普及的今天&#xff0c;随着各类软件的大规模使用&#xff0c;安全问题也变得愈发突出。因此&#xff0c;对软件进行全面的安全测评&#xff0c;不仅可以有效保障用户的信息安全&#xff0c;还能提升软件产品的信任度和市场竞争力。 安全测评对于软件产品的重要性就如…

6.26.4 基于视觉变换的乳房x光片分类迁移学习

乳房x线摄影(MG)在乳腺癌的早期发现中起着重要作用。MG可以在早期发现乳腺癌&#xff0c;即使是不能感觉到肿块的小肿瘤。然而&#xff0c;由于mg的复杂性和放射科医生进行的大量检查&#xff0c;可能会出现误诊。为了给放射科医生提供一个公正的视角&#xff0c;应用图像处理方…

基于Vue 3.x与TypeScript的PPTIST本地部署与无公网IP远程演示文稿

文章目录 前言1. 本地安装PPTist2. PPTist 使用介绍3. 安装Cpolar内网穿透4. 配置公网地址5. 配置固定公网地址 前言 本文主要介绍如何在Windows系统环境本地部署开源在线演示文稿应用PPTist&#xff0c;并结合cpolar内网穿透工具实现随时随地远程访问与使用该项目。 PPTist …

step7:“模拟量界面”逻辑

文章目录 文章介绍效果图AnalogPage.qml结构图调用 SerialPortHandler.sendData(message); serialporthandler.cpp 文章介绍 之前的6步实现了案例MF的界面设计和串口界面的逻辑设计&#xff0c;本文将实现模拟量界面的逻辑设计 新增功能&#xff1a; 1&#xff09;弹出提示框 …

腾讯云点播VOD(sprintboot后端+vue前端)

1. 腾讯云点播 官网文档入口: 云点播简介_云点播购买指南_云点播操作指南-腾讯云 2. 业务需求 2.1.上传视频 2.2.浏览视频 2.3.删除视频 3. 腾讯云提供服务器上传和客户端上传。我使用springboot后端实现客户端上传视频。 3.1 后端要求 生成签名,前端拿着签名凭证,才能上…

四川赤橙宏海商务信息咨询有限公司抖音电商领航者

在数字化浪潮席卷全球的今天&#xff0c;电商行业无疑是其中最为活跃、最具潜力的领域之一。而在中国这片广袤的土地上&#xff0c;四川赤橙宏海商务信息咨询有限公司以其独特的视角和前瞻性的战略布局&#xff0c;成为了抖音电商服务领域的佼佼者。今天&#xff0c;就让我们一…