spark读取parquet文件

spark读取parquet文件

article2025/1/11 6:57:47/文章来源:https://blog.csdn.net/weixin_43839095/article/details/143161562

源码

parquet文件读取的入口是FileSourceScanExec，用parquet文件生成对应的RDD

非bucket文件所以走createNonBucketedReadRDD方法。

createNonBucketedReadRDD

过程：

确定文件分割参数
1. openCostInBytes=4M 相关参数spark.sql.files.openCostInBytes=4M
2. maxSplitBytes<=128M 相关参数spark.sql.files.maxPartitionBytes=128M，根据maxSplitBytes计算得来
3. logInfo打印的日志可以用于排查参数
切分文件
1. splitFiles进行文件切分，按照maxSplitBytes将大文件切分
切分后文件根据大小进行倒排，为了方便后面合并
合并partition
1. getFilePartitions 将小文件合并到一个partition
生成RDD

maxSplitBytes

defaultMaxSplitBytes 最大分区大小=spark.sql.files.maxPartitionBytes=128M
openCostInBytes 打开文件的代价默认4M
defaultParallelism 并行度conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 默认是core的总和，最小为2
totalBytes 文件总大小（单个文件大小需要加上openCostInBytes）
bytesPerCore 单个core分配的文件大小

最后Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))

splitFiles

0L until file.getLen by maxSplitBytes按maxSplitBytes进行文件拆分

getFilePartitions

currentSize += file.length + openCostInBytes计算文件大小的时候需要加上openCostInBytes

计算示例

parquet文件是9,905,218b，并行度是2

defaultMaxSplitBytes = 128MB

openCostInBytes = 4MB

defaultParallelism = max(2, 2) = 2

totalBytes = 9,905,218b+ 1 * 4MB = 14,099,522B

bytesPerCore = 14,099,522B / 2 = 7,049,761B

maxSplitBytes = 7,049,761B = Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))

文件分成0-7049761 和 7049761-9905218两部分

从下面日志可以知道计算正确。

参考https://developer.aliyun.com/article/985412?utm_content=m_1000349867

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/896969.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Vue 上传图片前裁剪图片

Vue 上传图片前裁剪图片

一. 使用的技术 vue-cropper 文档：vue-cropper | A simple picture clipping plugin for vue 二. 安装 npm install vue-cropper 或 yarn add vue-cropper 三. 引入在使用页面中引用 import { VueCropper } from vue-cropper; 四. 使用配置项&#xff1…

阅读更多...

运动爱好者不可错过的双十一特惠，2024年度最火运动装备大推荐

运动爱好者不可错过的双十一特惠，2024年度最火运动装备大推荐

随着健康意识的日益增强，越来越多的人加入到了运动的行列中。无论是追求速度与激情的跑步爱好者，还是享受汗水与肌肉碰撞的健身房常客，亦或是喜欢在自然中寻找乐趣的户外探险家，一款合适的运动装备总是能让人在运动过程中事半功倍…

阅读更多...

【MySQL】索引和事务

【MySQL】索引和事务

目录 🌴索引 🚩概念 🚩索引的作用 🚩索引的使用场景 🚩索引的使用 🏀查看索引 🏀创建索引 🏀删除索引 🎄索引的底层数据结构 🚩引入B树(B-树) &am…

阅读更多...

【含开题报告+文档+PPT+源码】基于SpringBoot和Vue的编程学习系统

【含开题报告+文档+PPT+源码】基于SpringBoot和Vue的编程学习系统

开题报告随着信息技术的迅猛发展和数字化转型的深入推进，编程技能已经成为现代社会中不可或缺的一项基本能力。无论是软件开发、数据分析还是人工智能等领域，编程都扮演着至关重要的角色。因此，培养和提高编程技能对于个人职业发展和社会创…

阅读更多...

Python Numpy 实现神经网络自动训练：反向传播与激活函数的应用详解

Python Numpy 实现神经网络自动训练：反向传播与激活函数的应用详解

Python Numpy 实现神经网络自动训练：反向传播与激活函数的应用详解这篇文章介绍了如何使用 Python 的 Numpy 库来实现神经网络的自动训练，重点展示了反向传播算法和激活函数的应用。反向传播是神经网络训练的核心，能够通过计算梯度来优化模…

阅读更多...

文献阅读：通过深度神经网络联合建模多个切片构建3D整体生物体空间图谱

文献阅读：通过深度神经网络联合建模多个切片构建3D整体生物体空间图谱

文献介绍文献题目： 通过深度神经网络联合建模多个切片构建3D整体生物体空间图谱研究团队： 杨灿（香港科技大学）、吴若昊（香港科技大学） 发表时间： 2023-10-19 发表期刊： Nature M…

阅读更多...

01 漫画解说-图片框的分割

01 漫画解说-图片框的分割

to 查找最佳的轮廓模式 import cv2 as cv import numpy as np from matplotlib import pyplot as pltimg cv.imread(data/test02.png,0) ret,thresh1 cv.threshold(img,127,255,cv.THRESH_BINARY) ret,thresh2 cv.threshold(img,127,255,cv.THRESH_BINARY_INV) ret,thres…

阅读更多...

搭建代购系统时如何保证商品信息的真实性和可靠性

搭建代购系统时如何保证商品信息的真实性和可靠性

搭建代购系统时，可从以下几个方面保证商品信息的真实性和可靠性： 一、供应商管理： 严格筛选供应商：对供应商进行全面的背景调查，包括其经营资质、信誉记录、行业口碑等。只选择与正规、有良好信誉的供应商合作&#…

阅读更多...

LINUX1.2

LINUX1.2

1.一切都是一个文件 （硬盘） 2.系统小型轻量型，300个包 3.避免令人困惑的用户界面 ------------------> 就是没有复杂的图形界面 4.不在乎后缀名，有没有都无所谓，不是通过后缀名来定义文件的类型（win…

阅读更多...

JSON 注入攻击 API

JSON 注入攻击 API

文章目录 JSON 注入攻击 API"注入所有东西"是"聪明的"发生了什么? 什么是 JSON 注入?为什么解析器是问题所在解析不一致 JSON 解析器互操作性中的安全问题处理重复密钥的方式不一致按键碰撞响应不一致JSON 序列化(反序列化)中的不一致好的。JSON 解析器…

阅读更多...

免费开源AI助手，颠覆你的数字生活体验

免费开源AI助手，颠覆你的数字生活体验

Apt Full作为一款开源且完全免费的软件，除了强大的自然语言处理能力，Apt Full还能够对图像和视频进行一系列复杂的AI增强处理，只需简单几步即可实现专业级的效果。在图像处理方面，Apt Full提供了一套全面的AI工具，包…

阅读更多...

springboot 同时上传文件和JSON对象

springboot 同时上传文件和JSON对象

控制器代码 PostMapping("/upload") public ResponseEntity<String> handleFileUpload(RequestPart("file") MultipartFile file,RequestPart("user") User user) {// 处理文件和用户信息return ResponseEntity.ok("File and user i…

阅读更多...

【MATLAB实例】批量提取.csv数据并根据变量名筛选

【MATLAB实例】批量提取.csv数据并根据变量名筛选

【MATLAB实例】批量提取.csv数据并根据变量名筛选准备：数据说明MATLAB批量提取参考准备：数据说明 .csv数据如下： 打开某表格数据，如下：（需要说明的是此数据含表头） 需求说明：需…

阅读更多...

升级Unity后产生的Objects内存泄露现象

升级Unity后产生的Objects内存泄露现象

1）升级Unity后产生的Objects内存泄露现象 2）能否使用OnDemandRendering API来显示帧率 3）Unity闪退问题 4）配置表堆内存如何优化这是第405篇UWA技术知识分享的推送，精选了UWA社区的热门话题，涵盖了UWA问答…

阅读更多...

中航资本：大幅加仓！社保基金重仓股曝光

中航资本：大幅加仓！社保基金重仓股曝光

跟着上市公司三季报布满宣告，社保基金2024年三季度末重仓股及持股改变状况浮出水面。 Wind数据闪现，到10月21日，已有191家上市公司宣告了2024年三季报，其间有34家上市公司的前十大流通股东中呈现了社保基金的身影，社保…

阅读更多...

从零开始学PHP之变量作用域数据类型

从零开始学PHP之变量作用域数据类型

一、数据类型上篇文章提到了数据类型，在PHP中支持以下几种类型 String （字符串）Integer（整型）Float （浮点型）Boolean（布尔型）Array（数组）Objec…

阅读更多...

天锐绿盾 vs Ping32：企业级加密软件大比拼

天锐绿盾 vs Ping32：企业级加密软件大比拼

在信息安全日益重要的今天，企业级加密软件成为了企业保护敏感数据的得力助手。在众多加密软件中，天锐绿盾与Ping32凭借各自的优势，赢得了市场的广泛认可。那么，这两款软件究竟有何异同？哪款更适合您的企业呢&#xff1…

阅读更多...

Java 输入与输出（I/O)流的装饰流【处理流】

Java 输入与输出（I/O)流的装饰流【处理流】

Java I/O流的装饰流按照Java 输入与输出（I/O)流的处理功能：I/O流可分为低级的节点流和高级的装饰流（又称处理流）。节点流是直接从数据源（数据源可以是文件、数组、内存或网络）读/写数据的输入输出流&am…

阅读更多...

西南交通大学计算机软件专业上岸难度分析

西南交通大学计算机软件专业上岸难度分析

C哥专业提供——计软考研院校选择分析专业课备考指南规划西南交通大学计算机科学与技术2024届考研难度整体呈现"稳中有升"的态势。学硕实际录取33人，复试分数线362分，复试录取率71.74%；专硕（计算机技术）实际…

阅读更多...

Mac M3安装VMWare Fusion

Mac M3安装VMWare Fusion

最近学习Spark需要下载VM Ware，但是我的电脑是MAC M3系列，百度说不能下载Workstation Pro，Workstation Pro 适用于Windows、Linux系统。而MAC M系列电脑需要下载Fusion Pro 。 Fusion Pro的下载页面很难找到。根据以下指引可正确下载&#x…

阅读更多...

最新文章