数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）

article2025/3/10 5:37:23/文章来源:https://blog.csdn.net/turk/article/details/140342951

当前，业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake，和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试，那么本篇文章我们将回归到大数据最基础的场景，对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL，对这几种数据湖表格式的查询性能做一个全面的测试。

测试环境

我们选择使用 Aamzon EMR Serverless 作为测试的基础环境，版本选择 EMR 最新的 7.1.0。Spark 版本为 3.5.0。

Amazon EMR Serverless 已经集成了 Hudi，Iceberg，Delta Lake，所以我们直接使用集成的版本，而Paimon，是通过外部依赖使用的是 paimon-spark-3.5-0.8.1

测试数据是通过 TPC DS 工具生成好的 3TB 的 parquet 数据文件，我们把着 3TB 的文件分别以这几种表格式的类型写入各自的表中。
每张表的数量如下：

表名	记录数
call_center	48
catalog_page	36000
catalog_returns	432006840
catalog_sales	4320004419
customer	30000000
customer_address	15000000
customer_demographics	1920800
date_dim	73049
household_demographics	7200
income_band	20
inventory	1033560000
item	360000
promotion	1800
reason	67
ship_mode	20
store	1350
store_returns	864006076
store_sales	8251110748
time_dim	86400
warehouse	22
web_page	3600
web_returns	215999442
web_sales	2159391499
web_site	66

每个表格式的版本

OTF	Version
Hudi	0.14.1
Iceberg	1.4.3
DeltaLake	3.0.0
Paimon	0.8.1

Spark 配置参数
--conf spark.dynamicAllocation.enabled=false
--conf spark.driver.cores=4
--conf spark.driver.memory=5g
--conf spark.executor.cores=4
--conf spark.executor.memory=6g
--conf spark.executor.instances=47

测试结果

我们分别在EMR Serverless 使用最大资源配置 400 vCPUs, 3000 GB memory, 20000 GB disk 运行了4 种OTF的查询测试，得到如下的结果，下图是每一个sql的执行时长，所以数值越小，说明查询用时越短。

在这里插入图片描述
测试过程中 Iceberg，Delta Lake 的SQL 是全部运行成功的
Hudi 在执行 q2，q3 失败
Paimon 在执行 q4，q5 失败

通过上图，初步看到，Paimon 在 query 场景下的性能与其他集中 OTF 格式有一定差距。

将每种OTF的运行时长累加：
在这里插入图片描述

这样对比就更明显，Iceberg 和 Delta Lake 在 Spark 引擎的查询性能相差不大，其次Hudi，Paimon 的执行时长则超过了 Iceberg 的两倍，而其中还有两个SQL用例执行失败，未累加进来。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/792155.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

微软子公司Xandr遭隐私诉讼，或面临巨额罚款

微软子公司Xandr遭隐私诉讼，或面临巨额罚款

近日，欧洲隐私权倡导组织noyb对微软子公司Xandr提起了诉讼，指控其透明度不足，侵犯了欧盟公民的数据访问权。据指控，Xandr的行为涉嫌违反《通用数据保护条例》（GFPR），因其处理信息并创建用于微目…

阅读更多...

自动编码器（Autoencoders）

自动编码器（Autoencoders）

在“深度学习”系列中，我们不会看到如何使用深度学习来解决端到端的复杂问题，就像我们在《A.I. Odyssey》中所做的那样。我们更愿意看看不同的技术，以及一些示例和应用程序。 1、引言 ① 什么是自动编码器（AutoEncoder&#xff…

阅读更多...

本地部署，Colorizer: 让黑白图像重现色彩的奇迹

本地部署，Colorizer: 让黑白图像重现色彩的奇迹

目录引言什么是 Colorizer 编辑编辑 Colorizer 的特点工作原理应用场景本地部署本地运行实验与结果结语 Tip： 引言自摄影术发明以来，黑白图像一直是记录历史和艺术创作的重要手段。然而，黑白图像虽然具备其独特的美…

阅读更多...

Git常见命令和用法

Git常见命令和用法

Git 文件状态 Git 文件 2 种状态: 未跟踪:新文件，从未被 Git 管理过已跟踪:Git 已经知道和管理的文件常用命令命令作用注意git -v查看 git 版本git init初始化 git 仓库初始化之后有工作区、暂存区(本地库)、版本库git add 文件标识暂存某个文件文件标识以终…

阅读更多...

ts实现将相同类型的数据通过排序放在一起

ts实现将相同类型的数据通过排序放在一起

看下效果，可以将相同表名称的字段放在一起排序适用于中英文、数字 // 排序 function sortByType(items: any) {// 先按照类型进行排序items.sort((a: any, b: any) > {if (a.label < b.label) return -1;if (a.label > b.label) return 1;return 0;});r…

阅读更多...

基于Python/MATLAB长时间序列遥感数据处理及在全球变化、植被物候提取、植被变绿与生态系统固碳分析、生物量估算与趋势分析应用

基于Python/MATLAB长时间序列遥感数据处理及在全球变化、植被物候提取、植被变绿与生态系统固碳分析、生物量估算与趋势分析应用

植被是陆地生态系统中最重要的组分之一，也是对气候变化最敏感的组分，其在全球变化过程中起着重要作用，能够指示自然环境中的大气、水、土壤等成分的变化，其年际和季节性变化可以作为地球气候变化的重要指标。此外，由于…

阅读更多...

el-tree 获取当前勾选节点的选中状态以及选中值对象触发check-change多次事件问题原因

el-tree 获取当前勾选节点的选中状态以及选中值对象触发check-change多次事件问题原因

1.需求现在需要一个树状结构的资产树但是现在需求是获取当前选中的值的状态是选中还是取消选中然后再用当前选中 or 取消选中的值进行选中 or 取消选中的操作一开始使用的是 check-change 方法接收参数如图但是我勾选父节点或者子节点后他会打印一堆数据是因…

阅读更多...

华为HCIP Datacom H12-821 卷36

华为HCIP Datacom H12-821 卷36

1.单选题在PIM- SM中，以下关于RP 的描述，错误的是哪一选项? A、在PIM-SM中，组播数据流量不一定必须经过RP的转发。 B、对于一个组播组来说，可以同时有多个RP地址，提升网络可靠性。 C、组播网络中，可以…

阅读更多...

Hutool发送Http请求

Hutool发送Http请求

提示：今天主要学习了使用Hutool的方式来发送Http请求文章目录目录文章目录一、导库二、使用三、调用四、结果一、导库 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.26&…

阅读更多...

Python基础教学之一：入门篇——迈入编程世界的第一步

Python基础教学之一：入门篇——迈入编程世界的第一步

Python基础教学之一：入门篇——迈入编程世界的第一步一、Python简介：历史与现状 Python，一种解释型、高级和通用的编程语言，由Guido van Rossum在1989年圣诞节期间创造，并于1991年首次发布。设计哲学强调代码的可读性…

阅读更多...

测试与开发高效协作 6大注意事项

测试与开发高效协作 6大注意事项

测试与开发的高效协作显著提升软件质量，加速问题的检测与修复，节省成本与时间，加强风险管理，确保项目按时按质完成，增强产品市场竞争力。如果测试与开发间协作不顺畅，往往导致团队效率下降，责任…

阅读更多...

dify-api的Dockerfile分析

dify-api的Dockerfile分析

一.dify-api的Dockerfile文件 dify-api的Dockerfile文件如下所示： # base image FROM python:3.10-slim-bookworm AS baseLABEL maintainer"takatostgmail.com"# install packages FROM base as packagesRUN apt-get update \&& apt-get install…

阅读更多...

腾讯HR的多维世界：从校招到文化塑造的全面探索

腾讯HR的多维世界：从校招到文化塑造的全面探索

目录 Lyra：海外招聘的沟通桥梁 Moth：文化与活动的创意推手 Yaron：数据与分析的驱动者腾讯HR的多元价值与成长路径成就他人，实现自我多元化团队的协同效应长期主义与持续成长企业文化与社会责任的践行者结语&#x…

阅读更多...

电焰灶：烹饪性能的深度剖析

电焰灶：烹饪性能的深度剖析

在如今众多的厨房炉灶选择中，华火电焰灶以其独特的技术和性能吸引了不少消费者的目光。那么，华火电焰灶的综合烹饪性能究竟如何呢？让我们一起来深入探究。首先，从火力方面来看，华火电焰灶展现出了强大的优势。其火焰强…

阅读更多...

吹田电气绿色能源未来可期

吹田电气绿色能源未来可期

在2024年7月的上海慕尼黑电子展上，吹田电气功率分析仪成为了备受瞩目的明星产品。作为电子测试与测量领域的重要工具，功率分析仪在展会上展示了其在绿色能源和高效能量管理方面的最新应用，引发了广泛关注和热议。领先技术，精准测…

阅读更多...

$模拟生成高斯随机数序列$

模拟生成高斯随机数序列

模拟和生成高斯随机数序列（服从标准正态分布的随机变量） Box-Muller 法 & Marsaglia 极坐标法 Box-Muller：使两个独立的均匀分布生成一个高斯分布。 Box-Muller方法的基本思想是利用两个独立的均匀分布随机变量的关系来生成高斯分布的…

阅读更多...

宋仕强谈金航标kinghelm

宋仕强谈金航标kinghelm

金航标kinghelm宋仕强在介绍自己公司时说，金航标成立于2007年，成立地点在华强北雷圳大厦803室，后搬到华强北广业大厦24楼CD室，后搬迁到龙华展滔科技大厦C座C809和C817室，现在的办公地址为龙岗区坂田街道百瑞达大厦&…

阅读更多...

百度智能云将大模型引入网络故障定位的智能运维实践

百度智能云将大模型引入网络故障定位的智能运维实践

物理网络中，某个设备发生故障，可能会引起一系列指标异常的告警。如何在短时间内从这些告警信息中找到真正的故障原因，犹如大海捞针，对于运维团队是一件很有挑战的事情。在长期的物理网络运维工作建设中，百度智能云通…

阅读更多...

Pytorch版本、安装和检验

Pytorch版本、安装和检验

基于conda包的环境创建、激活、管理与删除目录 CUDA版本 Pytorch版本 Pytorch安装检验安装获取torch版本获取torchvision版本检验CUDA是否可用获取CUDA设备的数量获取CUDA设备ID 获取CUDA设备名称 CUDA版本 CUDA 是 NVIDIA 专为图形处理单元 (GPU) 上的通用计算…

阅读更多...

AI Earth——Sentinel-5P大气污染监测可视化应用APP

AI Earth——Sentinel-5P大气污染监测可视化应用APP

数据介绍 Sentinel-5P OFFL L3_CH4简介与Notebook示例该数据集提供Offline的甲烷（Methane, CH4）聚集度高分辨率影像。 CH4是继二氧化碳 (CO2) 之后人为增强温室效应的最重要贡献者。大约四分之三的甲烷排放是由人为造成，因此继续记录基于卫星的测量结果非常重要。Sentine…

阅读更多...

最新文章