【华为数据之道学习笔记】3-9以特征提取为核心的非结构化数据管理

        随着业务对大数据分析的需求日益增长,非结构化数据的管理逐 渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件,较之结构化数据,其更难标准化和理解,因此在存储、检索以及消费使用时需要智能化的IT技术与之匹配。华为的非结构化数据包括文档(邮件、
Excel、Word、PPT)、图片、音频、视频等。
        相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。 因此,非结构化数据的治理核心是对其基本特征与内容 进行提取,并通过元数据落地来开展的。
         非结构化数据的管理模型如图所示。
        非结构化数据的元数据可以分为基本特征类(客观)和内容增强类(主观)两类。
        1)基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。
        2)内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。
        非结构化数据的元数据管理采用统分统管的原则,即基本特征类属性由公司进行统一管理,内容增强类属性由相关承担数据分析工作的项目组自行设计,但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。
        元数据管理平台通过“基本特征类元数据流”和“内容增强类元数据流”两条线来实现对非结构化数据的元数据管理和消费使用。
        1)基本特征类元数据流
        元数据管理平台基于收集到的各类非结构化数据源信息,自动完成基础特征类元数据的采集工作,按照管理规范和要求通过标准化、整合后存储在元数据管理平台中,并在完成元数据过滤、排序后将结果在元数据报告中进行可视化展示,以供用户消费使用。
        2)内容增强类元数据流
        基于元数据管理平台中基本特征类元数据的信息,各数据分析项目组解析目标非结构化对象的数据内容,并将分析结果通过元数据采集、元数据标准化&整合后统一存放在元数据管理平台中,以供用户一并消费使用,增强用户体验。
        非结构化数据的处理过程如图所示。
       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/244278.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

随记-nginx docker + SSL 配置 - 配置等资源挂宿主机

随记-Nginx docker SSL 配置 - 配置等资源挂宿主机等 笔者动手配置,随手写的笔者,保证可操作 话说现在padmon是不是已经有代替docker的趋势了,谁能告诉我一把? 配置前准备 # 拉取nginx镜像 docker pull nginx #启动(暂时) doc…

基于YOLOv8深度学习的水稻害虫检测与识别系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

【Mysql】InnoDB的表空间(九)

概述 表空间是一个在 InnoDB 中比较抽象的概念,对于系统表空间来说,对应着文件系统中一个或多个实际文件;而对于每个独立表空间来说,对应着文件系统中一个名为表名.ibd 的实际文件。可以把表空间想象成由很多个页组成的池子&…

gin使用自签名SSL证书与自签名证书不受信任方法解决

文章目录 1. X.509 V3证书介绍2、使用openssl生成自签名证书和解决不受信任问题2.1、生成根证书2.2、为域名生成证书申请文件2.3、为域名创建证书的扩展描述文件2.4、为域名创建证书 3、Go应用中使用自签名证书3.1、gin框架调用实现3.2、运行效果 4、使用java的bouncycastle生成…

HarmonyOS 开发实例—蜜蜂 AI 助手

HarmonyOS 开发实例—蜜蜂 AI 助手 1. 前言 自华为宣布 HarmonyOS NEXT 全面启动,近期新浪、B 站、小红书、支付宝等各领域头部企业纷纷启动鸿蒙原生应用开发。据媒体统计,如今 Top20 的应用里,已经有近一半开始了鸿蒙原生应用开发。虽然目…

【Jmeter】Jmeter基础4-Jmeter元件介绍之监听器

2.4、监听器 监听器主要用于收集、统计、查看和分析结果。 2.4.1、察看结果树 作用:查看取样器请求和响应结果,包括消息头,请求的数据,响应的数据等。一般在调试时才用,在实际运行压测时建议禁用,因为大量…

SpringBoot项目打成War包部署

简介 一般情况下,在SpringBoot项目开发完成进行服务器部署时,都是打成JAR包进行部署运行的。但是在有些情况下也需要将其打成War包使用Tomcat进行部署。本篇文章就简单介绍一下SpringBoot如何打成War包。 操作步骤 1、修改pom文件 首先,要…

蓝牙与其他无线技术的比较:优势与局限

在无线技术的世界中,蓝牙技术因其独特的特性和广泛的应用而脱颖而出。然而,像所有技术一样,蓝牙也有其优势和局限性,特别是当与其他无线技术如Wi-Fi、Zigbee和NFC等进行比较时。本文旨在探讨这些不同技术的关键特点,以…

Android---Kotlin 学习001

Kotlin 的诞生 2011年,JetBrains 宣布开发 Kotlin 编程语言,这门新语言可以用来编写在 Java 虚拟机上运行的代码,是 Java 和 Scale 语言之外的又一选择。2017年,Google 在赢得与 Oracle 的诉讼一年后,Google 宣布 Ko…

大数据云计算之OpenStack

大数据云计算之OpenStack 1.什么是OpenStack,其作用是什么?OpenStack主要的组成模块有哪些?各自的主要作用是什么? OpenStack是一个开源的云计算平台,旨在为企业和服务提供商提供私有云和公有云的建设和管理解决方案…

显示曾连接过的wifi密码

windows 11 可以直接显示当前连接的密码,或者历史连接保存密码的wifi 也可以使用命令 “nova 9” 是连接过的wifi

基于YOLOv8的农作物水稻病害检测系统,优化SPPF提升检测精度

💡💡💡本文摘要:农作物水稻病害首先进行数据处理到训练模型,最好优化SPPF提升检测精度,map0.5从原始的0.807提升至0.821 1.YOLOv8介绍 Ultralytics YOLOv8是Ultralytics公司开发的YOLO目标检测和图像分割模…

玩转大数据16:大数据存储与文件格式优化

随着大数据时代的到来,存储和处理海量数据成为了一个重要的挑战。在大数据存储中,选择合适的文件格式对数据的压缩率、读写性能和扩展性起着关键作用。本文将介绍大数据存储的挑战,探讨常见的文件格式,并深入讨论文件格式优化的策…

Zxing库的使用⭐️实现给自己的博客主页生成一张二维码链接,有源码可以直接复制到本地执行

目录 前言 一、简介 二、本地实现 2.1 引入依赖(根据自己springboot项目来) 2.2 实现类 三、运行一次 前言 小伙伴们大家好,自从地铁上刷到Zxing库的使用后,一直想本地部署玩一玩 一、简介 ZXing(全称为 Zebra Cr…

leetcode-138-随机链表的复制(Java实现)

题目: 给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都设为其对应的原节点…

教你用JMeter做接口测试的几个简单实例

前言 这次小项目是基于HTTP协议的接口,通过JMeter来完成一次基本的接口测试,完整复习一下JMeter的基本操作。 在实际项目中,测试也要先从开发那拿到接口说明书,分析熟悉业务后,写接口的测试用例,最后再在…

换能器信号工作原理

一、ANB板子发送一个周期,频率为40M和60M的 78V的激励脉冲信号。如下图 频率越高,周期越短。图像分辨率更高。原因如下: ①由于采用的是纵向分辨率。相邻两个点之间必须要间隔 下图的2分之兰大才能被识别。 二、当信号给到换能器后&#xf…

JS基础之变量对象

JS基础之变量对象 变量对象基础变量对象全局上下文函数上下文执行过程进入执行上下文代码执行思考题 变量对象 基础 当JavaScript代码执行一段可执行代码(executable code)时,会创建对应的执行上下文(execution context&#xff…

redis-学习笔记(Jedis list简单命令)

lpush & lrange lpush 头插, 第二个参数为变长参数, 即可以一次往里面添加 N 个值 lrange 获取列表某一下标区间的内容, 注意返回值类型 代码演示 rpush & rpop & lpop rpush 在列表中尾插数据, 第二个参数仍是边长列表 lpop 头删 rpop 尾删 代码演示 blpop & …

SpringBoot核心功能-temp

yml&类配置 Configuration-processor