数据湖技术之平台建设篇2

        数据湖技术之平台建设篇1,主要介绍了湖仓平台建设的前三个主要工作,本次主要继续上次的建设工作介绍,聊一聊一站式湖仓服务平台的相关管理能力建设以及针对小文件的处理。

一. 一站式湖仓服务平台的相关管理能力

主要是将相关能力落地到平台功能,简化业务操作,形成一体化的平台服务,整体如下图所示:

  • 首先是库表管理,支持安全便捷的库表管理功能,支持多种建表方式(页面配置 or Sql),方便业务根据情况进行应用,同时结合业务需求,可以考虑扩展相关功能,比如元数据表拷贝能力等。整体是保证库表管理的安全性,且还需要考虑让业务减少操作成本,尽量增强业务的体验感受。
  • 库表认领、权限管理,细粒度的权限控制,针对敏感数据的字段设置oa账号粒度的权限,保障数据安全。
  • 数据集成管理,数据采集、存储、分发, 数据存储到kafka上,配置化服务,申请工单直接采集和存储,简化业务应用成本。
  • 数据探查,满足业务产品、技术同学临时探查、周期探查的使用需求,需要支持快捷方便的探查能力。
  • 入湖入仓任务管理,支持高效便捷入湖,支持配置化方式、sql化方式,满足不同业务场景需求,降低业务接入成本。
  • 湖仓任务管理,湖仓任务相关管理操作,启停任务、编辑任务、复制任务等等。
  • 数据生命周期管理,库表数据生命周期管理,天粒度异步清理过期数据,清理无用数据,避免数据冗余。
  • 监控告警管理,任务告警机制(特别是压缩效率相关的监控)、业务库表小文件监控告警机制等。
  • 湖仓报表管理,湖仓相关库表、任务统计报表化,方便分析湖仓具体情况。
  • 异步压缩任务管理,Iceberg库表方面:压缩合并任务、快照过期任务、清理孤儿文件任务管理。Hudi库表方面:压缩合并任务管理。同时各种为了适配各种场景需求,可以按照不同时间粒度进行调度任务。
  • 业务治理,结合各种监控数据,自动分析湖仓库表、任务的合理性,手动或者自动进行治理操作,避免资源浪费等。

二. 小文件相关处理:

应用数据湖引擎会产生一些小文件,无论是Hudi还是Iceberg都会产生大量小文件,非常影响存储集群的稳定性以及业务读取性能,所以需要进行压缩合并,减少整体文件数量。下面我们看下Iceberg方面小文件增长的过程:

        

可以从异步任务和同步处理两个方面 共同保障业务读写性能的稳定。为了避免影响写入任务的稳定性,同步处理方面小量级进行压缩合并,异步任务全量压缩合并小文件,彻底解决掉小文件问题。

三.总结:

本篇文章主要介绍了湖仓平台建设的后两个主要工作:一站式湖仓服务平台的相关管理能力、小文件相关处理。整体建设工作是一个逐步的过程,需要不断的优化和完善,适配不同业务场景的使用需求,也包括平台的适用性、安全性、稳定性方面的优化,同时业务使用体验、接入成本也是一个比较重要的考量点,让业务更低成本、高效率应用湖仓平台去解决痛点问题,才能事半功倍的推广具体业务的落地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/354400.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【c++】拷贝构造函数

1.概念 在现实生活中,可能存在一个与你一样的自己,我们称其为双胞胎 那在创建对象时,可否创建一个与已存在对象一某一样的新对象呢? 拷贝构造函数:只有单个形参,该形参是对本类类型对象的引用(一般常用c…

[BUUCTF 2018]Online Tool(特详解)

这段代码块检查请求中是否设置了HTTP_X_FORWARDED_FOR头部。如果设置了,它将REMOTE_ADDR设置为HTTP_X_FORWARDED_FOR的值。这通常用于处理Web服务器位于代理后面的情况。 如果URL中未设置host参数,它使用highlight_file(__FILE__);来显示PHP文件的源代码…

【算法专题】二分查找(入门)

📑前言 本文主要是二分查找(入门)的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是青衿🥇 ☁️博客首页:CSDN主页放风讲故事 🌄每日…

华清远见作业第三十四天——C++(第三天)

思维导图: 题目: 设计一个Per类,类中包含私有成员:姓名、年龄、指针成员身高、体重,再设计一个Stu类,类中包含私有成员:成绩、Per类对象p1,设计这两个类的构造函数、析构函数和拷贝构造函数。 代码&#…

【计算机网络】概述|分层体系结构|OSI参考模型|TCP/IP参考模型|网络协议、层次、接口

目录 一、思维导图 二、计算机网络概述 1.计算机网络定义、组成、功能 2.计算机网络分类 3.计算机网络发展历史 (1)计算机网络发展历史1:ARPANET->互联网 (2)计算机网络发展历史2:三级结构因特网 …

C++:类 的简单介绍(一)

目录 类的引用: 类的定义: 类的两种定义方式: 成员变量命名规则的建议: 类的访问限定符及封装: 访问限定符 【访问限定符说明】 封装 class与struct的区别: 类的作用域: 类的实例化…

JVM-字节码文件的组成

Java虚拟机的组成 Java虚拟机主要分为以下几个组成部分: 类加载子系统:核心组件类加载器,负责将字节码文件中的内容加载到内存中。 运行时数据区:JVM管理的内存,创建出来的对象、类的信息等等内容都会放在这块区域中。…

机器学习_集成学习之Boosting(提升较弱的模型,以降低弱模型的偏差)

文章目录 介绍AdaBoost算法梯度提升算法(GBDT)极端梯度提升(XGBoost)Bagging 算法与 Boosting 算法的不同之处 介绍 Boosting 的意思就是提升,这是一种通过训练弱学习模型的“肌肉”将其提升为强学习模型的算法。要想在机器学习竞赛中追求卓越,Boosting…

Go语言安装及开发环境配置

目录 官网 国内 Linux(CentOS & Ubuntu)安装 环境变量设置 命令行下开发 开发模式执行 编译 IDE下开发 插件安装 安装依赖工具 运行 常见问题 1、dial tcp 172.217.160.113:443: i/o timeout 2、VS Code不能完美显示zsh问题 官网 访问Golang官网的下载链接&a…

Python tkinter (6) —— Listbox控件

Python的标准Tk GUI工具包的接口 tkinter系列文章 python tkinter窗口简单实现 Python tkinter (1) —— Label标签 Python tkinter (2) —— Button标签 Python tkinter (3) —— Entry标签 Python tkinter (4) —— Text控件 Python tkinter (5) 选项按钮与复选框 目录…

浏览器——HTTP缓存机制与webpack打包优化

文章目录 概要强缓存定义开启 关闭强缓存协商缓存工作机制通过Last-Modified If-Modified-Since通过ETag If-None-Match 不使用缓存前端利用缓存机制,修改打包方案webpack 打包webpack 打包名称优化webpack 默认的hash 值webapck其他hash 类型配置webpack打包 web…

SpringBoot不同的@Mapping使用

文章目录 一、介绍二、使用 一、介绍 一般Mapping类注解在Spring框架中用于将HTTP请求映射到对应的处理器方法。它们各自对应于不同类型的HTTP方法,主要用于RESTful Web服务中。以下是每个注解的作用: GetMapping: 用于映射HTTP GET请求到处理器方法。通…

操作符讲解

目录 二进制和进制转换 原码、反码、补码 移位操作符 位操作符 一道面试题: 练习1: 思考题: 练习2: 逗号表达式 函数调用操作符() 结构成员访问操作符 结构体 操作符的属性:优先级、结合性 优先级&#x…

༺༽༾ཊ—Unity之-03-建造者模式—ཏ༿༼༻

首先我们打开一个项目 在这个初始界面我们需要做一些准备工作 建基础通用包 创建一个Plane 重置后 缩放100倍 加一个颜色 更换天空盒(个人喜好) 任务:使用【UI】点击生成6种车零件组装不同类型车 【建造者模式】 首先资源商店下载车模型 将C…

IndexedDB入门

https://www.cnblogs.com/zhangzuwei/p/16574791.html 注意 1.删除表,创建表只能在数据库版本升级里面进行。 2.keypath: key 要和表字段对应,而且格式要一样,不然不运行不报错。 3.使用 autoIncrement: true 代替 keypath: key&#xff…

C++ 数论相关题目 扩展欧几里得算法(裴蜀定理)

给定 n 对正整数 ai,bi ,对于每对数,求出一组 xi,yi ,使其满足 aixibiyigcd(ai,bi) 。 输入格式 第一行包含整数 n 。 接下来 n 行,每行包含两个整数 ai,bi 。 输出格式 输出共 n 行,对于每组 ai,bi ,求…

实验5:冒泡法排序

目录 1、实验目的: 2、实验内容: 3、实验要求: 4、程序流程图: 5、实验源程序: 6、实验要求分项截图及结果分析: 1、实验目的: 通过冒泡法排序程序设计,掌握将多重循环程序设…

技术书评和笔记【01】脑机接口-电路与系统 【2020版】

前言: 荷兰作者,Amir Zjajo博士,毕业于荷兰代尔夫特理工大学,方向 面向移动健康的低功耗混合型号电路与系统,以及,面向认知的神经形态电路。 ,脑机接口 - 电路与系统一书,系统介绍了,脑机接口电路与系统的实现技术,尤其,提到了量产和设计的问题,难能可贵,摘录如…

浪潮信息集中式存储仪电云云操作系统兼容性良好 通过澎湃技术认证

日前,浪潮信息集中式存储与仪电云i-stack云操作系统软件完成澎湃技术认证。在兼容性测试认证中,双方均表现出良好的兼容性能,同时系统运行可靠稳定,功能及性能表现俱佳。 浪潮信息澎湃技术认证是浪潮信息基于自身多元、创新的通用…

实际项目中的SpringAOP实现日志打印

目录 一、AOP实现日志 1.1 需求分析: 1.2 定义切面类和切点: 扩展:finally中的代码块一定会执行吗? 扩展 总结 1.3 定义环绕通知 1.4 handleBefore 的具体实现 1.4.1 获取url 1.4.2 获取接口描述信息 1.4.3 后续获取 1.5…