数据资产入表-数据治理-标签设计标准

       前情提要:数据价值管理是指通过一系列管理策略和技术手段,帮助企业把庞大的、无序的、低价值的数据资源转变为高价值密度的数据资产的过程,即数据治理和价值变现。上一讲介绍了数据清洗标准设计的基本逻辑和思路。

上一讲介绍了其他的通用标准的基本逻辑和思路。

本章重点讲解标签建设标准设计

       前面我们把明细数据的处理已经做了一个详细的讲解,明细数据经过上述的处理之后,数据质量达到了一定的标准,接下来需要基于场景提取特征进行聚合的环节。

定义

        标签是实体的属性维度,是服务于业务场景,且能够为业务所用并产生数据价值的数据资源。

标签类型

按照标签产生路径:基于明细数据提取、基于标签的二次组合、基于分析数据的结论;

按照标签产生方式:事实标签、规则标签、模型标签;

按照标签产生路径

       基于明细数据提取的标签:是基于清洗好的明细数据,将信息凝练成一个描述性标签的过程;例如公司明细信息中展示了企业的注册资本,按照企业的注册资本提炼企业的注册资本规模标签(一亿以上;5000万-一亿;);

       基于标签的二次组合:是指基于其他维度产生的标签结果进行二次组合的标签;例如将中小企业划分为中型、小型、微型三种类型的标签建设,中小企业划型标准规定》在认定企业规模的过程中需要界定企业的行业分类、营业收入规模、从业人员规模三个维度,那么企业的划型标签就有三个标签维度组合而成。

       基于分析数据的结论:只是在基于一系列计算或者分析之后,基于分析的结果将实体进行分类的标签,还是以企业为例,例如要将企业划分为头部企业、腰部企业、踝部企业三个标签,那么基于一系列分析过程,对企业进行评分,最后基于评分结果划分档次,基于分数的档次将企业进行标签分类。

按照标签产生方式

       事实标签:事实标签(Fact Tags)通常是指在文本分析、内容管理系统或数据组织中用于描述或分类信息的标签,它们基于客观事实或数据,而不是主观意见或情感。通常的事实标签包含时间标签、空间标签、统计标签(数值标签、金额标签);

       规则标签:规则标签(Rule Tags)通常指的是通过一定的规则判断/过滤产生的标签。常见的规则标签包含 判断类标签、上述「中小企业划分标签」也属于规则标签;

       模型标签:模型标签(Model Tags)是指通过复杂的统计学模型计算或者机器学习模型分析而产生的结论,基于分析结论进行标签分类的标签。

标签建设步骤

step1:梳理实体维度

step2:构建实体下的标签树(标签结构),制定标签参数;

step3:梳理标签定义(包括业务定义和建立依据);

step4:梳理标签来源表、字段、来源表更新频率(后续可以作为冷热标签存储区分依据);

step5:制定标签生产规则(包含来源表、来源字段、生产逻辑、标签刷新频率);

step6:回归标签使用的场景;

建设步骤拆解

       step1梳理实体维度:标签建设过程中的实体梳理,是为了找到标签树的「树干」,所有的属性都是围绕实体展开,因此梳理实体维度至关重要,在关联关系标准中,介绍过5W1H方法论来梳理,这里不在赘述。

       step2构建标签树:标签树的构建是打地基的重要环节,标签树构建的合理与否会直接影响后续标签的延展空间和标签使用的便利性。构建标签树的依据可参考的维度有两个:一个是官方规定;第二个是业务需求;

       step3梳理标签定义:基于第二步构建的标签树,明确每个标签的业务定义和产生方式;

       例如「规划性政策」是有关部门对全社会或某一领域(交通、医疗、各产业等)出台的阶段性发展规划;

      建立依据:参考官方标准;

       step4梳理标签来源表、字段、来源表更新频率(后续可以作为冷热标签存储区分依据)

       step5制定标签生产规则(包含来源表、来源字段、生产逻辑、标签刷新频率);

       step6:回归标签使用的场景;

最后形成标签清单

注意点:

标签的分类存储

       在标签结果的存储上,尽可能将热数据(经常刷新的标签)和冷数据(不经常刷新的标签)分开存储,避免数据写入的压力;

标签的生命周期管理

       标签从构建、开发、验收、上线、下线迭代、重新上线、废弃的过程中,需要重新调整定义和梳理,要保障尽可能不更改标签树的结构;

标签的元数据管理

       标签的元数据管理尽可能详尽,确保标签尽可能避免重复建设;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/682798.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch 相关知识介绍

一、PyTorch和TensorFlow 1、PyTorch PyTorch是由Facebook开发的开源深度学习框架,它在动态图和易用性方面表现出色。它以Python为基础,并提供了丰富的工具和接口,使得构建和训练神经网络变得简单快捷。 发展历史和背景 PyTorch 是由 Fac…

几何裁剪技术在AI去衣应用中的革新作用

引言: 随着人工智能技术的飞速发展,其在图像处理领域的应用也日益广泛。特别是在AI去衣技术中,几何裁剪技术扮演着至关重要的角色。本文将深入探讨几何裁剪技术在AI去衣中的应用及其带来的影响。 一、几何裁剪技术概述 几何裁剪技术是一种基…

【python】python租房数据分析可视化(源码+数据+报告)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

completefuture造成的rpc重试事故

前言 最近经历了一个由于 completefuture 的使用,导致RPC重试机制触发而引起的重复写入异常的生产bug。复盘下来,并非是错误的使用了completefuture,而是一些开发时很难意识到的坑。 背景 用户反馈通过应用A使用ota批量升级设备时存在概率…

北航数据结构与程序设计第四次作业选填题复习

首先都是线性的,线性包括顺序和链式,栈和队都可以用两种方式实现。栈只能存于栈顶取于栈顶,队列先进先出,因此存取点是固定的。 函数栈帧创建原理 画图即可。 A.显然不行,5如果第一个出来说明5是最后一个进的&#xf…

收银系统源码-千呼新零售2.0【合作案例】

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货等连锁店使用。 详细介绍请查看下…

解锁下载EasyRecovery2024电脑版软件 3步破解下载秘籍!

在数字时代,数据已成为我们生活中不可或缺的一部分。无论是工作中的重要文件,还是珍贵的家庭照片和视频,数据都承载着我们的回忆和努力。然而,数据的丢失也是我们常常遇到的问题。硬盘损坏、误删除、病毒攻击等都可能导致数据丢失…

echarts 仪表盘根据点击的刻度重新设置值

1 更具点击获取的坐标 event.offsetY , event.offsetX 2 通过中心点坐标差,获取角的度数,然后取180度的占比,最后✖️总值刻度值. 3 然后在赋值给data 例子 : 角的度数是30度 30/180*30 5 则刻度值指向5 角度度数怎么求? (Math.atan2(y - event.offsetY, x - event.offsetX) …

以sqlilabs靶场为例,讲解SQL注入攻击原理【42-50关】

【Less-42】 使用 or 11 -- aaa 密码,登陆成功。 找到注入点:密码输入框。 解题步骤: # 获取数据库名 and updatexml(1,concat(0x7e,(select database()),0x7e),1) -- aaa# 获取数据表名 and updatexml(1,concat(0x7e,(select group_conca…

Siemens-NXUG二次开发-创建倒斜角特征、边倒圆角特征、设置对象颜色、获取面信息[Python UF][20240605]

Siemens-NXUG二次开发-创建倒斜角特征、边倒圆角特征、设置对象颜色、获取面信息[Python UF][20240605] 1.python uf函数1.1 NXOpen.UF.Modeling.AskFaceData1.2 NXOpen.UF.Modeling.CreateChamfer1.3 NXOpen.UF.ModlFeatures.CreateBlend1.4 NXOpen.UF.Obj.SetColor 2.实体目标…

计算机组成原理-唐朔飞 概念总结(概论 总线 存储器部分)

计算机系统由“硬件”“软件”两大部分组成,软件通常存放在主存或辅存 软件分为系统软件和应用软件 1.1.2 计算机系统的层次结构 源程序:用户用高级语言编写的程序 目标程序:机器能识别的机器语言程序 实际机器:直接执行机器…

C++缺省参数函数重载

缺省参数 大家知道什么是备胎吗? C中函数的参数也可以配备胎。 3.1缺省参数概念 缺省参数是声明或定义函数时为函数的参数指定一个默认值。在调用该函数时,如果没有指定实参则采用该默认值,否则使用指定的实参。 void TestFunc(int a 0…

OPPO 文件传输 - 将文件从 OPPO 手机传输到 PC 的 5 种方法

OPPO手机以其出色的拍照功能而闻名,尤其是新推出的OPPO Find X2系列,它配备了高清前置镜头和超夜景模式,让您轻松拍出精彩瞬间。当您需要将这些照片或其他文件从OPPO手机传输到PC时,以下是五种简便的方法。 第 1 部分&#xff…

引擎:UI

一、控件介绍 Button 按钮 创建一个按钮 按钮禁用 精灵模式 颜色模式 缩放模式 绑定点击事件 EditBox 输入框 Layout 布局 支持水平排列、垂直排列、背包排列 PageView 页面视图 ProgressBar 进度条 RichText 富文本 绑定点击事件 事件可以被其它标签包裹 图文混排 Scroll…

揭秘AI 原生应用技术栈

一次性把“AI 原生应用技术栈”说明白 AI热潮持续,厂商努力推动有价值的应用涌现,并打造服务AI原始应用的平台产品。本文精简介绍业界最新的AI原生应用技术栈,让您迅速把握前沿科技脉搏。 整体架构 AI技术栈逻辑图精简呈现,多层…

nexus搭建npm前端项目的私服

一、为什么要搭建私库 节省外网带宽加速maven构建部署第三方构件(特别是无法从公共仓库下载的构件)提高稳定性(内网部署,更少地依赖外网)降低中央仓库的负荷 构件,好比我们的藏书,去书店或商城…

Python 全栈系列249 IO并发:异步、线程与协程

说明 很久没有关注这方面的问题了,平时大部分时候还是做批量操作 。在这种情况下(CPU密集),异步、协程这些意义就不大了,甚至可能进一步拖慢处理时间。 但是在IO这一块的零碎处理是比较重要的,可以更快,且更省资源。很早的时候&…

什么是通配符SSL证书?要怎么申请?

通配符SSL证书的作用主要是为了方便管理和加密具有多个子域名的网站。它能够保护一个主域名及其所有的同级子域名,无论子域名的数量多少或名称如何变化。使用一个通配符证书,你可以为像 *.example.com 这样的设置加密,这样不论是 blog.exampl…

Mysql:通过一张表里的父子级,递归查询并且分组分级

表:gc_jzst_single_base 需求:要求返回这张表里符合条件的数据,且有父子级关系的,展示为同一组且分级,给后续业务调用 代码 WITH RECURSIVE t1 AS (SELECTsingle_id,old_build_single_id,single_name,bulid_code,1 A…

运维开发介绍

目录 1.什么是运维开发 2.作用 3.优点 4.缺点 5.应用场景 5.1.十个应用场景 5.2.网站和Web应用程序 6.案例 7.小结 1.什么是运维开发 运维开发(DevOps)是一种结合软件开发(Development)与信息技术运维(Opera…