【华为数据之道学习笔记】3-11元数据管理

1. 产生元数据

(1)明确业务元数据、技术元数据和操作元数据之间的关系,定义华为公司元数据模型。
(2)针对找数据及获取数据难的痛点,明确业务元数据、技术元数据、操作元数据的设计原则。
        1)业务元数据设计原则
        一个主题域分组下有多个主题域,一个主题域下有多个业务对象,一个业务对象下有多个逻辑实体,一个逻辑实体下有多个属性,一个属性有一个数据标准。
        每个数据标准可被一个或多个属性引用,每个属性归属于一个逻辑实体,每个逻辑实体归属于一个业务对象,每个业务对象归属于一个主题域,每个主题域归属于一个主题域分组。
        2)技术元数据设计原则
        物理表设计须满足三范式,如为了降低系统的总体资源消耗,提高查询效率,可反范式设计。
        物理表、视图和字段的设计须基于用途进行分类。
        承载业务用途的物理表、虚拟表、视图必须与逻辑实体一一对应,承载业务用途的字段必须与属性一一对应。系统间的数据传递须优先采用数据服务。
        3)操作元数据设计原则
        日志目的不同的进行分类设计,日志目的相同的进行相同设计(非自研场景按软件包适配)。
(3)规范数据资产管理,设计数据资产编码规范
        1)数据资产编码规范
华为数据资产编码的主要包括业务元数据和技术元数据两大类,其中业务元数据包含主题域分组、主题域、业务对象、逻辑实体、属性、数据标准;技术元数据包含物理数据库、Schema、表、字段。具体的定义与描述如表所示。
        2)数据资产编码原则
        数据资产编码(DAN)是通过一组数字、符号等组成的字符串去唯一标识华为公司内部每一个数据资产,基于此唯一标识,保证各业务领域对同一数据资产的理解和使用一致,它的设计遵循以下原则。
  • 统一性原则: 华为公司内部只能使用一套数据资产编码,以方便不同业务部门之间的沟通和IT应用之间的数据交换。
  • 唯一性原则: 每一个数据资产只能用唯一的数据资产编码进行标识,不同数据资产的编码不允许重复,同一个编码也只能对应到一个数据资产上。
  • 可读性原则: 数据资产编码作为数据资产分类、检索的关键词和索引,需要具备一定的可读性,让用户通过编码就能初步判断其对应的数据资产类型。
  • 扩展性原则: 数据资产的编码要从数据管理角度适当考虑未来几年的业务发展趋势,其编码长度要能适当扩展,同时不影响整个编码体系。
        3)业务元数据资产编码规则
        业务元数据资产编码规则主要包含三个部分:第一部分为主题域分组的编码规则,主题域分组的编码由公司统一分配;第二部分为主题域、业务对象、逻辑实体、属性的编码规则,这部分主要由数据治理平台按照编码规则自动生成;第三部分主要为业务元数据包含的子类对应的数据资产类型代码。

2. 采集元数据

        元数据采集是指从生产系统、IT设计平台等数据源获取元数据,对元数据进行转换,然后写入元数据中心的过程。元数据的来源可分为如表3-3所示的六类。
        1)选择适配器
        适配器是指针对不同的元数据来源,采用相应的采集方式获取元数据的程序,元数据的来源种类繁多,因而须选择相对应的适配器及元模型。
        2)配置数据源
        配置数据源是采集元数据的关键,在确定数据源所选择的适配器类型、适配器版本、元模型的基础上,配置数据源的名称、连接参数和描述。
        3)配置采集任务
        采集任务为自动调度的工作单元,为元数据的采集提供自动化的、周期性的、定时的触发机制。

3. 注册元数据

        大多数企业的数字化建设都存在增量和存量两种场景,如何同时有效地管理这两种场景下的元数据就成了问题的关键。华为通过标准的元数据注册规范和统一的元数据注册方法,实现了两种场景下业务元数据和技术元数据的高效连接,使业务人员能看懂数据、理解数据,并通过数据底座实现数据的共享与消费。
        (1)元数据注册原则
        元数据注册的原则包括如下三点:
  • 数据Owner负责,是谁的数据就由谁负责业务元数据和技术元数据连接关系的建设和注册发布;
  • 按需注册,各领域数据管理部根据数据搜索、共享的需求,推进元数据注册;
  • 注册的元数据的信息安全密级为内部公开。
(2)元数据注册规范
        通过“元数据注册三步法”完成元数据注册。
        1)准备度评估项包括如下检查要点:
  • IT系统名称必须是公司标准名称;
  • 数据资产目录是否经过评审并正式发布;
  • 数据Owner是否确定数据密级;
  • 物理表/虚拟表/视图名。
        2)元数据连接需遵从以下规范。
  • 逻辑实体和物理表/虚拟表/视图一对一连接规范:在业务元数据与技术元数据连接的过程中,必须遵从逻辑实体和物理表/虚拟表/视图一对一的连接原则,如果出现一对多、多对一或多对多的情况,各领域需根据实际场景,参照元数据连接的设计模式进行调整。
  • 业务属性与字段一对一连接规范:除了逻辑实体与物理表/虚拟表/视图要求一一对应外,属性和非系统字段(具备业务含义)也要求遵从一对一的连接原则,如出现属性与字段匹配不上的情况,可参考元数据关联的设计模式进行调整。
  • 完成元数据注册后,通过元数据中心自动发布。
(3)元数据注册方法
        元数据注册分为增量元数据注册和存量元数据注册两种场景。
        增量场景相对容易,在IT系统的设计与开发过程中,落实元数据的相关规范,确保系统上线时即完成业务元数据与技术元数据连接,通过元数据采集器实现元数据自动注册。
        针对存量场景,华为设计了元数据注册的四大模式。在符合元数据设计规范的前提下,进行业务元数据与技术元数据的连接及注册。
        模式一:一对一模式
        适用场景 适用于数据已发布信息架构和数据标准且物理落地,架构、标准与物理落地能一一对应的场景。
        解决方案
  • 将逻辑实体和物理表一对一连接。
  • 逻辑实体属性和物理表字段一对一连接。
        模式二:主从模式
        适用场景
        适用于主表和从表结构一致,但数据内容基于某种维度分别存储在不同物理表中的场景。例如,按时间或项目归档,或按区域进行分布式存储。
        解决方案
  • 识别主物理表和从属物理表。
  • 以主物理表为核心,纵向UNION所有从属物理表,并固化为视图。
  • 将视图、逻辑实体、字段和业务属性一对一连接。
        模式三:主扩模式
        适用场景
        适用于逻辑实体的大部分业务属性在主物理表,少数属性在其他物理表中的场景。
        解决方案
  • 识别主物理表和扩展物理表。
  • 以主物理表为核心,横向JOIN所有扩展物理表,完成扩展属性与主表的映射,并固化为视图。
  • 将视图、逻辑实体、字段和业务属性一对一连接。
        模式四:父子模式
        适用场景
        适用于多个逻辑实体业务属性完全相同,按不同场景区分逻辑实体名称,但落地在同一张物理表的场景。
        解决方案
  • 识别一张物理表和对应的多个逻辑实体。
  • 将物理表按场景拆分和多个逻辑实体一对一连接。
  • 将物理表字段和多个逻辑实体属性一对一连接。

4. 运维元数据

        运维元数据是为了通过对元数据进行分析,发现数据注册、设计、使用的现状及问题,确保元数据的完整、准确。通过数据资产分析,了解各区域/领域的数据注册情况,进而发现数据在各信息系统使用过程中存在的问题。通过业务元数据与技术元数据的关联分析,反向校验架构设计与落地的实施情况,检查公司数据管理政策的执行情
况。
        主要分为如下四个场景。
  • 场景一:基于数据更新发现,数据源上游创建,下游更新;
  • 场景二:通过数据调用次数发现,某数据源上游调用次数<下游调用次数;
  • 场景三:虽制定了架构标准,但不知落地情况,比如某个属性建立了数据标准,但是却找不到对应落地的物理表字段;
  • 场景四:通过物理表的字段分析,发现很多字段缺少数据标准。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/237539.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Pytorch-LSTM轴承故障一维信号分类(一)

目录 前言 1 数据集制作与加载 1.1 导入数据 第一步&#xff0c;导入十分类数据 第二步&#xff0c;读取MAT文件驱动端数据 第三步&#xff0c;制作数据集 第四步&#xff0c;制作训练集和标签 1.2 数据加载&#xff0c;训练数据、测试数据分组&#xff0c;数据分batch…

C++之STL算法(1)

STL容器算法主要由、、组成&#xff1b;   algorithm主要有遍历、比较、交换、查找、拷贝、修改等&#xff1b; 1.遍历容器for_each for_each()函数用于完成容器遍历&#xff0c;函数参数如下&#xff1a; for_each(_InIt _First, _InIt _Last, _Fn _Func) 形参&#xff1a…

mybatis多表映射-延迟加载,延迟加载的前提条件是:分步查询

1、建库建表 create database mybatis-example; use mybatis-example; create table t_book (bid varchar(20) primary key,bname varchar(20),stuid varchar(20) ); insert into t_book values(b001,Java,s001); insert into t_book values(b002,Python,s002); insert into …

基于 librosa和soundfile对音频进行重采样 (VITS 必备)

基于 librosa和soundfile对音频进行重采样 一、前言 在玩bert-vits2的时候有对音频进行重采样的需求&#xff0c;故写了一下批量对音频进行重采样的脚本。 优化点&#xff1a; 根据机器自适应线程数为最多&#xff0c;保证充分利用机器资源&#xff0c;提高速度>30%。支持…

UE引擎 LandscapeGrass 实现机制分析(UE5.2)

前言 随着电脑和手机硬件性能越来越高&#xff0c;游戏越来越追求大世界&#xff0c;而大世界非常核心的一环是植被&#xff0c;目前UE5引擎提供给植被生成的主流两种方式为 手刷植被和LandscapeGrass(WeightMap程序化植被)。当然UE5.3推出新一代PCGFramework 节点程序化生成框…

Android 顶部对齐宽度撑满高度等比例缩放及限制最大最小高度

一 示例 二 代码 <?xml version"1.0" encoding"utf-8"?> <FrameLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_parent&qu…

点评项目——秒杀优化

2023.12.11 上一张的秒杀券下单还可以进行优化&#xff0c;先来回顾一下下单流程&#xff1a; 可以看出流程设计多次查询和操作数据库的操作&#xff0c;并且执行顺序是一个线程串行执行&#xff0c;执行性能是比较低的。 优化方案&#xff1a;我们将判断秒杀库存和校验一人一单…

蓝桥杯周赛 第 1 场 强者挑战赛 6. 小球碰撞【算法赛】(思维题/最长上升子序列LIS)

题目 https://www.lanqiao.cn/problems/9494/learning/?contest_id153 思路来源 Aging代码 题解 二分时间t&#xff0c;第i个小球对应一个起点pi、终点pit*vi的区间&#xff0c;问题转化为&#xff0c; 选最多的区间&#xff0c;使得不存在区间包含&#xff08;即li<l…

第二百零一回 介绍一个三方包open_settings

文章目录 1. 概念介绍2 使用方法3 代码与效果3.1 示例代码3.2 运行效果 4. 经验分享 我们在上一章回中介绍了Form Widget相关的内容&#xff0c;本章回中将介绍Form系列组件的验证与提交功能.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在这里说的的验…

【电路笔记】-电位器

电位器 文章目录 电位器1、概述2、电位器类型2.1 旋转电位器2.2 滑块电位器2.3 预设和微调电位器2.4 变阻器 3、电位器示例14、电位器作为分压器5、电位器示例26、变阻器6、滑块变阻器7、线性或对数电位器8、总结 当连接的轴物理旋转时&#xff0c;电位计和变阻器的电阻值会发生…

23种设计模式之装饰者模式(被装饰者,接口层,装饰抽象层,具体装饰者)

23种设计模式之装饰者模式 文章目录 23种设计模式之装饰者模式设计思想装饰者模式的优点装饰者模式的缺点装饰者模式的优化方法UML 解析预设场景 代码释义总结 设计思想 原文:装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0…

【EMNLP 2023】面向垂直领域的知识预训练语言模型

近日&#xff0c;阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性&#xff0c;发现在垂直领域的图谱结构具有全局稀…

做数据分析为何要学统计学(3)——何为置信区间?它有什么作用?

置信区间是统计学中的一个重要工具&#xff0c;用以使用样本参数()来估计总体均值在某置信水平下的范围。通俗一点讲&#xff0c;如果置信度为95%&#xff08;等价于显著水平a0.05&#xff09;&#xff0c;置信区间为[a,b]&#xff0c;这就意味着总体均值落入该区间的概率为95%…

虹科Pico汽车示波器 | 汽车免拆检修 | 2019款别克GL8豪华商务车前照灯水平调节故障

一、故障现象 一辆2019款别克GL8豪华商务车&#xff0c;搭载LTG发动机&#xff0c;累计行驶里程约为10.7万km。车主反映&#xff0c;车辆行驶过程中组合仪表提示前照灯水平调节故障。 二、故障诊断 接车后试车&#xff0c;起动发动机&#xff0c;组合仪表上提示“前照灯水平调节…

Spring Boot监听redis过期的key

Redis支持过期监听&#xff0c;可以实现监听过期数据&#xff0c;实现过程如下 1、pom依赖 <!-- Redis--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></depend…

ChatGPT/GPT4应用:文本、论文、编程、绘图等,提高工作效率及科研项目开发能力

2023年随着OpenAI开发者大会的召开&#xff0c;最重磅更新当属GPTs&#xff0c;多模态API&#xff0c;未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义&#xff0c;不亚于互联网和个人电脑的问世。360创始人周鸿祎认为未来各行各业如果不能搭上这班车…

深入理解模板引擎:解锁 Web 开发的新境界(下)

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

Android蓝牙协议栈fluoride(五) - 设备管理(bt application)

在上一篇Android蓝牙协议栈fluoride(四) - 设备管理(bt interface) 中梳理了设备管理器对上层提供的接口&#xff0c;本文将介绍这些接口的具体实现。 各个模块中采用了API状态机数据收发的方式&#xff0c;介绍设备管理时也将采用这个顺序介绍。 核心数据结构 设备管理的核…

鸿蒙HarmonyOS4.0 入门与实战

一、开发准备: 熟悉鸿蒙官网安装DevEco Studio熟悉鸿蒙官网 HarmonyOS应用开发官网 - 华为HarmonyOS打造全场景新服务 应用设计相关资源: 开发相关资源: 例如开发工具 DevEco Studio 的下载 应用发布: 开发文档:

论文阅读《High-frequency Stereo Matching Network》

论文地址&#xff1a;https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_High-Frequency_Stereo_Matching_Network_CVPR_2023_paper.pdf 源码地址&#xff1a; https://github.com/David-Zhao-1997/High-frequency-Stereo-Matching-Network 概述 在立体匹配研究领域…