元数据管理gravitino学习

元数据管理的组成有几个部分:Metaservice(Gravitino)、Luoshu(amoro)、Hive Metastore,其中gravitino是数据管理模块实现元数据统一管理的核心。前面有提到hive metastore可以存储hive的库表元数据信息,可以用于存储关于hive表、列、分区等对象的信息,hive metastore通常使用关系型数据库比如mysql、postgreSQL,但是hive metastore本身没有任何治理能力,并且它的元数据模型完全是关系型的数据库模型,对于像Message、topic、文件这类半结构化、非结构化的数据基本是不匹配的。业界一直希望统一元数据,从而实现多产品间的一致体验:无论是数据开发、数据消费还是数据治理,所有用户都能基于一套元数据体系,可以在多个数据源和计算引擎之间建立联系,使用统一的服务来公开这些元数据。在这种情况下,Gravitino 非常有用。因为它提供了一个统一的元数据湖,标准化了数据目录操作,并统一了所有元数据管理和治理。它可以为多种数据源提供统一的元数据视图,管理不同来源、类型和区域的元数据,支持 Hive,Iceberg,MySQL,Fileset,Messaging 等类型的数据目录。

在数据管理中,采用gravitino来统一元数据视图,不再需要直接与hive metastore进行交互,进行更高效和统一的元数据管理。gravitino支持不同的目录来管理不同来源的元数据,包括iceberg、hive、mysql、kafka等。

“元数据湖”:在gravitino出现之前,业界还没有一个统一的“元数据湖”的组件,不同于数据湖,gravitino提出了“元数据湖”的概念,通过提供一个丰富的数据目录,Gravitino使得数据湖中的资源更加易于导航和理解。有个“元数据湖”之后,不再需要中心化地管理“数据”,而是中心化管理“元数据”。因为数据往往是难以汇集到一起的,而元数据更容易方便汇集到一起。

gravitino是什么:Gravitino 是一个高性能、地理分布、联合的元数据湖。它直接管理不同来源、类型和地区的元数据。它还为用户提供数据和 AI 资产的统一元数据访问。Gravitino 为用户提供了管理和治理元数据的 API,包括标准的元数据创建、更新和删除操作。同时,它还提供了以统一方式治理元数据的能力,包括访问控制、发现等。

同时gravitino支持多云上部署,不同云之间的gravitino可以进行数据共享, 在每一个gravitino节点上都可以管理底层异构数据源,包括数据湖和数据仓库、数据库的数据源等,核心特点包括:

1.在元数据意义上支持SSOT(单一可信数据源):确保不同体系之间数据都是相同,去除冗余数据

2.统一管理AI+Data元数据:对于AI和data都提供统一catalog去管理二者元数据

3.地理分布架构:支持数据不同物理分布,这样数据不需要搬迁到一个地方

4.统一安全管理:对数据统一权限管理等

5.多引擎支持:不仅支持数据引擎,如 Trino、spark、Apache Flink(开发中),还支持 AI/ML 框架,如 Tensorflow、PyTorch和

如下图:
在这里插入图片描述
概括言之,gravitino主要有两个作用:

(1)为多种数据源提供统一的元数据视图

(2)所有数据源进行统一权限管控。

gravitino的层级结构:
在这里插入图片描述

Metalake:元数据的顶层容器。通常一个组有一个metalake来管理其中所有的元数据。每个metalake对外暴露一个三级命名空间(catalog.schema.table)来组织数据。

catalog:catalog是来自特定元数据源的元数据的集合。每个目录都有一个相关的连接器来连接到特定的元数据源。在数据湖中,数据目录作为逻辑结构,可以组织、分类数据资产。

Schema:Schema 相当于数据库,Schema 仅存在于支持关系元数据源的特定目录中,例如 Apache Hive、MySQL、PostgreSQL 等。

Table表:支持关系元数据源的目录的对象层次结构中的最低级别。可以在目录中的特定架构中创建表。

Gravitino对外暴露 RESTful的 API接口,然后将用户的各种权限设置的请求,通过自身的逻辑以及模型的转换,通过插件透传给下游的各种不同的数据生态,从而达到让 Gravitino成为权限入口的效果。

用户可以使用三级坐标:catalog.schema.entity 来描述所有数据,并用于数据集成、联合查询等。

gravitino也提供了trino connector和spark connector,在 Trino 中配置 Gravitino connector后,Trino 可以自动从 Gravitino 加载目录元数据,让用户在 Trino 中直接访问这些目录。与 Gravitino 集成后,Trino 可以操作所有 Gravitino 数据,而无需额外配置。

用gravitino创建目录的实例:

// Assuming you have just created a metalake named `metalake`
GravitinoClient gravitinoClient = GravitinoClient
    .builder("http://127.0.0.1:8090")
    .withMetalake("metalake")
    .build();

Map<String, String> hiveProperties = ImmutableMap.<String, String>builder()
        // You should replace the following with your own hive metastore uris that Gravitino can access
        .put("metastore.uris", "thrift://localhost:9083")
        .build();

Catalog catalog = gravitinoClient.createCatalog(
    NameIdentifier.of("metalake", "catalog"),
    Type.RELATIONAL,
    "hive", // provider, We support hive, jdbc-mysql, jdbc-postgresql, lakehouse-iceberg, etc.
    "This is a hive catalog",
    hiveProperties); // Please change the properties according to the value of the provider.
// ...

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/871512.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一文读懂推荐系统

随着互联网的飞速发展&#xff0c;信息过载已经成为了一个普遍的问题。我们每天都要面对大量的内容&#xff0c;却很难找到真正符合自己兴趣和需求的信息。这时&#xff0c;推荐系统应运而生&#xff0c;它能够根据用户的兴趣和行为&#xff0c;智能地推荐相关内容&#xff0c;…

思特科技:国家宝藏数字体验馆展现东方美学 让“文物活起来”

01      思特科技为“国家宝藏数字体验展”提供“数字技术”支持&#xff0c;带来国宝的数字化演绎。以《国家宝藏》顶级IP为基础&#xff0c;打造的全新沉浸文化项目“国宝数字体验展“&#xff0c;借由文物的视角、站在历史的星河中&#xff0c;探寻时间长河中不变的智慧…

Mac文件需要分卷压缩怎么办 Mac上怎么解压分卷压缩的文件

在处理大型文件的传输和存储的时候&#xff0c;Mac用户常面临文件大小超过限制的问题。为了有效管理这些大文件&#xff0c;分卷压缩成为一种必不可少的解决方案。Mac文件需要分卷压缩怎么办&#xff1f;Mac上怎么解压分卷压缩的文件&#xff1f;本文将向你介绍如何使用BetterZ…

近视防控明星:蔡司小乐圆中期临床数据详解

近视防控明星&#xff1a;蔡司小乐圆中期临床数据详解 小乐圆镜片作为近视防控镜片里的明星产品&#xff0c;从22年5月上市以来防控效果就一直备受大家的关注。而最近中期临床试验的结果&#xff0c;给家长孩子吃了一颗定心丸。 本次实验中&#xff0c;240位受试者被随机分成三…

C语言函数详解(上)【库函数】

目录 前言 一、函数的概念 二、库函数 1.标准库和头文件 2.库函数使用方式 3.如何通过以上的网站查看库函数信息 &#xff08;以sqrt为例&#xff09; 3.1 功能 3.2 头文件包含 3.3 库函数文档的⼀般格式 1. 函数原型 ​编辑2. 函数功能介绍 ​编辑3. 参数和返…

基于vue3的模拟数据mock.js应用

一、mock.js介绍 Mock.js 是一个用于生成随机数据&#xff0c;拦截 Ajax 请求的 JavaScript 库。它主要用于前后端分离开发时&#xff0c;模拟后端数据接口&#xff0c;使得前端开发者在不需要后端实际编写接口的情况下&#xff0c;也能进行开发、测试。 1、主要功能 生成随…

别只知道Xmind了,这4款思维导图工具也都很实用!

作为一款十分知名的思维导图工具&#xff0c;Xmind确实是一款很好用的脑图工具。不仅操作流畅&#xff0c;功能丰富&#xff0c;还有很多素材可以使用。但是没有云同步功能&#xff0c;免费的功能也有限。如果大家想知道更多好用的思维导图工具的话&#xff0c;也可以看看这4个…

企业级web应用服务器tomcat

目录 一、Web技术 1.1 HTTP协议和B/S 结构 1.2 前端三大核心技术 1.2.1 HTML 1.2.2 CSS&#xff08;Cascading Style Sheets&#xff09;层叠样式表 1.2.3 JavaScript 二、tomcat的功能介绍 2.1 安装 tomcat 环境准备 2.1.1 安装java环境 2.1.2 安装并启动tomcat …

「数组」希尔排序 / 区间增量优化(C++)

目录 概述 思路 核心概念&#xff1a;增量d 算法过程 流程 Code 优化方案 区间增量优化 Code(pro) 复杂度 概述 我们在「数组」冒泡排序|选择排序|插入排序 / 及优化方案&#xff08;C&#xff09;中讲解了插入排序。 它有这么两个特点&#xff1a; ①待排序元素较…

路由偏好详解

路由偏好对网络性能和数据传输效率有着重要影响。本文将从路由偏好的相关概念、影响因素和实际应用&#xff0c;同时结合IP数据云的功能展示其在优化路由选择中的作用。 路由偏好指网络设备在选择路由路径时所倾向的特定策略或条件。它基于多种因素进行决策&#xff0c;例如网络…

CSS继承、盒子模型、float浮动、定位、diaplay

一、CSS继承 1.文字相关的样式会被子元素继承。 2.布局样式相关的不会被子元素继承。&#xff08;用inherit可以强行继承&#xff09; 实现效果&#xff1a; 二、盒子模型 每个标签都有一个盒子模型&#xff0c;有内容区、内边距、边框、外边距。 从内到外&#xff1a;cont…

矩阵中的最大得分(Lc3148)——动态规划

给你一个由 正整数 组成、大小为 m x n 的矩阵 grid。你可以从矩阵中的任一单元格移动到另一个位于正下方或正右侧的任意单元格&#xff08;不必相邻&#xff09;。从值为 c1 的单元格移动到值为 c2 的单元格的得分为 c2 - c1 。 你可以从 任一 单元格开始&#xff0c;并且必须…

Maven的简单使用

Maven使用 Maven的作用1. 自动构建标准化的java项目结构(1) 项目结构① 约定目录结构的意义② 约定大于配置 (2)项目创建坐标坐标的命名方法&#xff08;约定&#xff09; 2. 帮助管理java中jar包的依赖(1) 配置使用依赖引入属性配置 (2) maven指令(3) 依赖的范围(4) 依赖传递(…

ChatGPT 3.5/4.0 新手使用手册(详细版)

1. 什么是 ChatGPT&#xff1f; ChatGPT是由 OpenAI 开发的先进人工智能语言模型&#xff0c;能够理解并生成自然语言文本。它可以帮助你进行写作、回答问题、提供建议&#xff0c;甚至参与对话。ChatGPT 3.5 和 4.0 是两个不同版本&#xff0c;它们都拥有强大的语言处理能力&…

24/8/17算法笔记 策略梯度reinforce算法

import gym from matplotlib import pyplot as plt %matplotlib inline#创建环境 env gym.make(CartPole-v0) env.reset()#打印游戏 def show():plt.imshow(env.render(mode rgb_array))plt.show() show()定义网络模型 import torch #定义模型 model torch.nn.Sequential(t…

算法日记day 44(动归之编辑距离|回文字串|最长回文子序列)

一、编辑距离 题目&#xff1a; 给你两个单词 word1 和 word2&#xff0c; 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作&#xff1a; 插入一个字符删除一个字符替换一个字符 示例 1&#xff1a; 输入&#xff1a;word1 "…

仿照ContentLoadingProgressBar 的特点在Android项目中自定义Loading对话框

ContentLoadingProgressBar 是 Android 中的一个控件&#xff0c;继承自 ProgressBar。它在 ProgressBar 的基础上添加了一些特殊功能&#xff0c;主要用于在加载内容时显示进度。它的一些主要特点如下&#xff1a; 自动隐藏和显示&#xff1a;ContentLoadingProgressBar 会在…

初级python代码编程学习----简单的图形化闹钟小程序

我们来创建一个简单的图形化闹钟程序通常需要使用图形用户界面&#xff08;GUI&#xff09;库。以下是使用Python的Tkinter库创建一个基本闹钟程序的步骤&#xff1a; 环境准备 确保已安装Python。安装Tkinter库&#xff08;Python 3.8及以上版本自带Tkinter&#xff0c;无需…

软件测试学习笔记丨Allure2报告添加附件报告定制

本文转自测试人社区&#xff0c;原文链接&#xff1a;https://ceshiren.com/t/topic/31810 一、Allure2报告中添加附件-图片 1.1 附件类型 TEXT ("text/plain", "txt") CSV ("text/csv", "csv") TSV ("text/tab-separated-v…

leetcode:2119. 反转两次的数字(python3解法)

难度&#xff1a;简单 反转 一个整数意味着倒置它的所有位。 例如&#xff0c;反转 2021 得到 1202 。反转 12300 得到 321 &#xff0c;不保留前导零 。 给你一个整数 num &#xff0c;反转 num 得到 reversed1 &#xff0c;接着反转 reversed1 得到 reversed2 。如果 reverse…