【Azure 架构师学习笔记】- Azure Databricks (5) - Unity Catalog 简介

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (4) - 使用Azure Key Vault 管理ADB Secret

前言

DataBricks Unity Catalog(UC)是一个统一的对数据资产治理的解决方案。它对所有数资产进行集中管理,搭配一系列数据治理框架和扩展的审计功能。
还有一种描述:UC 是对data lake上的数据展示进行细粒度数据治理的解决方案。它帮助简化安全性,同时对数据治理提供一个集中区域进行统一的控制访问和审计访问。

出现的原因

Databricks已经成为很普遍的数据平台,用于存储和处理数据,在满足这种功能性之后,需要考虑现今流行的一些方向:发现和治理。

组件

UC 目前由4大部分组成:Data discovery, Governance, Lineage 和Sharing。

Data discovery

通过搜索界面,可以对元数据进行结构化组织。通过对登陆用户的授权,确保搜索功能在元数据层面的安全性。

Data Governance

UC 被设计为对所有数据资产如文件,表,试图,dashboard等都可以通过一个中央存储库来完成搜索和发现。借助data governance 框架和扩展的审计日志,把所有对数据存储的操作存放在Databricks 帐户中。

Data Lineage

数据血缘在近几年出现得越来越频繁,也意味着越来越重要,它提供了企业数据流的关键信息,通过检查数据血缘,可以减少后续低质量数据的流入, 保证企业数据的质量。
想象一个场景,当一个数据表中的列,是由多个数据源的数据组合而成,那么使用UC 里面的数据血缘就可以可视化展现这个数据流。

Data Sharing

过去的数据共享缺乏足够的监控,通过UC 内置的数据共享可以控制数据的流出和使用规范。这个功能也支持多平台,不同的云之间进行数据共享。
它是一个协议,为了安全地共享数据给其他组织,并且不需要在意这些组织使用什么平台而开发的。

UC 架构

从官网的架构图可以看出UC的对象模型使用了3级命名空间来满足不同类型的数据资产。
所有存储在UC 中内容都被称为“对象(Object)” 。一旦这些内容变成了对象,就可以通过选择性访问(Selective Access)来控制对象。
在这里插入图片描述
一个UC 可以链接到多个ADB workspace, 如下图。

在这里插入图片描述

元存储

首先是元存储(Metastore),是一个特定云平台的数据目录,它通过添加一层抽象层使得用户可以更好地对数据资产分类。元存储作为一个数据资产的容器。ADB 的元存储是建立在Azure的存储帐户上。

大部分的信息如数据血缘中的查询,工作流等都存储在元存储中,不过审计日志(Audit log)则不同,它需要存储在其他地方以免元存储被删除后审计日志丢失。审计日志收集所有跟UC有关的时间如建、删、改元存储中的所有组件,包括元存储本身。

  • Metastore 是一个“数据库”,保存着关于数据的元数据,比如表的schema, 数据相关文件的实际存储路径,文件格式等。
  • 它需要手动创建。
  • Metastore因为有集中metastore 层,可以在多个ADB workspace里面共享。
  • 数据本身,数据血缘,审计日志和其他关于数据得一切都被收集和存储在元存储中。

User management

如果一个项目中,用户,组和Service Principle有权限访问特定的workspace,可以把这些对象“导入”到UC 的User Management 中。 每当这些对象要访问workspace的数据时,Workspace会先跟UC 校验这些对象是否有特定数据的访问权限。当“Authentication”(有没有访问权限) 和“Authorization”(进入后有什么权限)都校验成功后这些对象就可以正常访问允许的数据。

在这里插入图片描述

小结

简单来说,UC 是一个统一的数据治理解决方案。它通过集中控制数据访问, 细粒度权限控制,自动化负载的血缘,跨组织的数据共享来保证Databricks中的数据资产得到控制和治理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/305295.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[蓝桥杯学习] 树状数组的二分

要解决这个问题,插入和删除可以用STL实现,2操作如果用树状数组实现的话,将数的值作为树状数组的下标,即值域。 树状数组有两种操作,一个是更新某点的值,另一个是求区间和。 mid (lr)/2 ,求和 …

Vmware安装Windows11系统及下载MySQL步骤(超详细)

一、创建虚拟机 ①选择自定义 ②直接点击下一步 ③选择Windows 11 x64 ④命名虚拟机以及选择路径 ⑤新版本的虚拟机需要加密(密码需要8个字符以上) ⑥选择UEFI ⑦处理器配置(根据自己的需求) ⑧设置虚拟机的内存 ⑨选择不使用网络…

1878_emacs company backend的选择尝试

Grey 全部学习内容汇总: GitHub - GreyZhang/editors_skills: Summary for some common editor skills I used. 1872_emacs company backend的选择尝试 从C语言开发的使用场景角度,通过测试尝试看看这个company的backend应该来如何配置。 主题由来介…

静态电压继电器 JY-11A 辅助电压110VDC 额定电压100VAC 安装方式 板前接线

JY-10系列集成电路电压继电器 JY-11A集成电路电压继电器 JY-12A集成电路电压继电器 JY-11C集成电路电压继电器 JY-11D集成电路电压继电器 JY-12B集成电路电压继电器 JY-12C集成电路电压继电器 JY-12D集成电路电压继电器 1概述 JY系列集成电路电压继电器用于发电机、变…

计算机网络 —— 物理层

物理层 2.1 物理层的基本概念 物理层考虑的是怎样才能在连接各种计算机的传输媒体上传输数据比特流。 物理层为数据链路层屏蔽了各种传输媒体的差异,使数据链路层只需要考虑如何完成本层的协议和服务,而不必考虑网络具体的传输媒体是什么 2.2 物理层下…

喝羊奶的好处,羊奶与健康的秘密揭示

喝羊奶的好处,羊奶与健康的秘密揭示 相信大家都听说过喝牛奶的好处,但是你听说过喝羊奶的好处吗?羊奶是一种营养丰富、味道醇香的乳制品,它不仅滋补身体,还具有许多独特的健康功效。今天,就让小编羊大师带…

MySQL基础笔记(4)DQL数据查询语句

DQL用于查找数据库中存放的记录~ 目录 一.语法 二.基础查询 1.查询多个字段 2.设置别名 3.去除重复记录 三.条件查询 1.基础语法 2.常见条件 四.分组查询 1.聚合函数 2.语法 五.排序查询 六.分页查询 附注:DQL执行顺序 1.编写顺序 2.执行顺序 ​​​…

[足式机器人]Part2 Dr. CAN学习笔记-动态系统建模与分析 Ch02-8 Bode Plot伯德图

本文仅供学习使用 本文参考: B站:DR_CAN Dr. CAN学习笔记-动态系统建模与分析 Ch02-8 Bode Plot伯德图 Bode Plot 手绘技巧与应用

前端实现截图并下载

原理: 使用一个名为html2canvas的JavaScript库。这个库允许你将当前的HTML内容渲染到一个canvas元素上,然后将其转换为图像并进行下载。 你需要在项目中引入html2canvas库。你可以从官方网站(https://html2canvas.hertzen.com/)下载&#xf…

交通能见度监测站是什么

TH-NJD10交通能见度监测站是一种用于监测道路交通能见度的设备。它能实时监测道路上的能见度值,为驾驶员提供实时的路况信息,帮助他们在恶劣天气条件下安全驾驶。 交通能见度监测站通常由传感器、数据采集器和传输设备组成。传感器负责测量道路上的能见度…

K8S中SC、PV、PVC的理解

存储类(StorageClass)定义了持久卷声明(PersistentVolumeClaim)所需的属性和行为,而持久卷(PersistentVolume)是实际的存储资源,持久卷声明(PersistentVolumeClaim&#…

ISPM 十四五规划

指导思想 坚定不移贯彻创新、协调、绿色、开放、共享的新发展理念,坚持稳中求进工作总基调 2035展望 展望2035年,基本实现新型工业化、信息化、城镇化、农业现代化,建成现代化经济体系。 重大科技基础设施 深入实施制造强国战略 相关关键…

Gartner发布2024年SASE融合战略路线图

向云计算和远程工作的转变增加了 SASE 需求,以实现从任何设备的安全访问。安全和风险管理领导者必须将网络和安全融合到一两个明确合作的 SASE 供应商产品中,并淘汰遗留的边界系统。 主要发现 安全访问服务边缘 (SASE) 框架为混合劳动力以及设备、分支机…

2023年生成式AI全球使用报告

生成式人工智能工具正在迅速改变多个领域,从营销和新闻到教育和艺术。 这些工具使用算法从大量培训材料中获取新的文本、音频或图像。虽然 ChatGPT 和 Midjourney 之类的工具可以用来实现超出人类能力或想象力的艺术效果,但目前它们最常用于比人类更轻松…

HarmonyOS 编写副标题 解决 ubTitle 可能淘汰问题

目前 harmonyos 中 title属性目前用的还正常 但是ubTitle副标题 会提示我们 可能要淘汰了 虽然说 我们目前 强行用 还是可以生效 但可能 哪天版本更新移除了这个属性 代码就报错了 我们可以通过Builder 来写这个副标题 和 标题 Entry Component struct Index {build() {Row(…

2024年跨境电商上半年营销日历,建议收藏

2024年伊始,跨境电商开启新一轮的营销竞技,那么首先需要客户需求,节假日与用户需求息息相关,那么接下来小编为大家整理2024上半年海外都有哪些节日和假期?跨境卖家如何见针对营销日历选品,助力卖家把握2024…

引领未来,尽享舒适——Goalar高拉科技智能马桶

随着科技的飞速发展,智能家居已经成为现代生活的必备品。在这个时代,一款高品质的智能马桶不仅能提升消费者的生活品质,更是对消费者健康的细心呵护。Goalar高拉科技智能马桶,用心为消费者打造智能卫浴的未来。 【创新设计&#x…

Spring Cloud OpenFegin(创建、发送请求)源码

感觉这一年来学习的知识点都是零零碎碎的,没有形成一个系统闭环,于是萌生了系统总结 Spring Cloud 源码相关的知识点的想法。后续会持续更新系统性的文章。纯原创,debug 总结。今天先简单debug下 OpenFegin 的创建吧。 项目结构 标准的…

JavaScript数组操作完全手册

🧑‍🎓 个人主页:《爱蹦跶的大A阿》 🔥当前正在更新专栏:《VUE》 、《JavaScript保姆级教程》、《krpano》 ​ 目录 ✨ 前言 第一节:数组的定义和创建 1.1 数组字面量 [] 1.2 Array构造函数 1.3 Array.of() …