SparkSql近期使用经验分享

背景

近期在公司使用了SparkSql重构一个由Java开发的ETL程序,因为Java模块不易于修改和部署,而由于SparkSql脚本是由Python开发,便于根据业务需求来开发维护,特别是不需要编译、打包部署。

技术理念

SparkSql是以Sql的形式去开发程序,提交到Spark集群去执行。Spark是大数据领域现在很常见的一种计算框架,它主要基于内存和弹性数据集合的迭代运算,用于替换MapReduce的相对频繁写磁盘的早期框架。SparkSql提供了一种友好的方式对数据进行计算,也就是我们常用的数据库语言Sql。提交SparkSql程序到Spark集群后,Spark首先会对Sql进行语法分析和词法分析,然后转换成具体的操作算子如Map、Join、Reduce等,再经过优化器,最后分配到Executors去执行。

如何使用

在这次的开发场景中,首先整理了原先Java ETL程序的数据抽取和计算逻辑明细,涉及到对Cassandra和Mysql多个表拉取数据、数据清洗、数据聚合、衍生列。然后使用SparkSql重新实现。我们先将源数据拉取到数据仓库中作为ODS层数据,再开发sparksql ETL程序去做下一步计算和聚合。使用的sparksql语法主要如下:

insert overwrite table1

select column1,column2

from table2

where condition = 1

left join table3

on join_condition

在这个过程中,通过编写自定义UDF函数实现一些计算逻辑的封装,使用窗口函数进行分组和排序,使用case when进行条件判断和衍生列。

性能调优

在sparksql程序开发和调试过程中,有一些性能优化的点可以关注下。第一,spark参数可以做一定的调优,例如spark-executor数量spark-executor-memory也就是执行器的内存大小,调整参数可以避免运行时出现OOM的错误以及提高效率;第二,减少使用窗口函数,就算使用也最好不要对大数据量的列进行排序;第三,优化sql语法,比如减少子查询和sql复杂度,因为sql的复杂度和子查询的数量影响了spark解析sql后的stage数量,将影响执行速度;第四,减少在sparksql使用RDD算子,因为sparksql执行器中有进过优化,效率高于RDD计算。

以下是此次数据开发的数据流程图:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/671079.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

三十三篇: 解锁决策之门:专家系统深度探索与未来展望

解锁决策之门:专家系统深度探索与未来展望 在今天这个日益复杂的世界中,我们对决策的速度和质量提出了更高的要求。在众多解决方案中,专家系统作为人工智能的一大分支,扮演着不可或缺的角色。它不仅是技术创新的产物,…

html+CSS+js部分基础运用11

一、改变新闻网页中的字号 1、设计如图1-1所示的界面,要求当网络访问者选择字号中的【大、中、小】时能实现页面字号大小变化,选择“中”时,页面效果如图1所示。 图1 单击前初始状态页面 图2 单击“中”链接后页面 2、div中内容如下&#x…

操作系统|进程和线程的上下文以及他们的上下文切换具体流程?

进程和线程已经是老生常谈的问题了,现在那么他们是如何进行切换的呢?他们之间的切换有什么区别呢?如果你不懂的话,就让我们一起来探讨一下吧! 进程上下文切换(context switch) 进程到底由哪些部分组成? …

thingsboard物联网平台快速入门教程

第一步,搭建服务器 使用我已经建好的服务器,thingsboard测试账号,租户管理员账号,物联网测试平台-CSDN博客 第二步,创建一个设备,获取设备Token 用租户管理员账户登录,左侧找到实体->设备&#xff0c…

无法拒绝!GPT-4o 完美适配安卓手机,畅享丝滑体验

无法拒绝!GPT-4o 完美适配安卓手机,畅享丝滑体验 前言 人工智能的飞速发展,给我们的生活带来了前所未有的便利。作为AI技术的代表之一,GPT凭借其强大的自然语言处理能力,已经成为许多用户日常生活和工作中的得力助手…

模拟集成电路(6)----单级放大器(共源共栅级 Cascode Stage)

模拟集成电路(6)----单级放大器(共源共栅级 Cascode Stage) 大信号分析 对M1 V x ≥ V i n − V T H 1 V x V B − V G S 2 V B ≥ V i n − V T H 1 V G S 2 V_{x}\geq V_{in}-V_{TH1}\quad V_{x}V_{B}-V_{GS2}\\V_{B}\geq V_{in}-V_{TH1}V_{GS2} Vx…

Mybatis项目创建 + 规范

文章目录 一、相关概念Mybatis1.1 什么是Mybatis1.1 如何实现简化JDBC 二、如何创建 Mybatis 项目2.1 创建SpringBoot项目 加载依赖2.2 准备数据库 以及 对象的映射2.3 配置数据库连接池2.4 使用Mybatis操作数据库2.5 单元测试 三、其他3.1 数据库与Java对象的映射规则 ---- 结…

【MySQL】Linux安装MySQL

一、center OS环境准备 为了在Linux系统中查看MySQL5.8与8.0版本的区别 我们要准备两个虚拟机,需要的软件:VMware和CentOS7 因为博主之前在学习redis的时候已经安装过一个虚拟机了,所以我就直接克隆了一个CentOS2.0 修改mac地址&#xff0…

基于C#使用ACCESS数据库时遇到的问题记录

一、32位版本Office与64位AccessDatabaseEngine共存安装方法 1. 使用winrar、7zip等软件将AccessDatabaseEngine_X64.exe解压缩,得到AceRedist.msi和files14.cat2个文件 2. 下载Orca MSI编辑修改工具。安装后,使用Orca打开AceRedist.msi,找到…

在iPhone上恢复已删除的Safari历史记录的最佳方法

您是否正在寻找恢复 iPhone 上已删除的 Safari 历史记录的最佳方法?好吧,这篇文章提供了 4 种在有/无备份的情况下恢复 iPhone 上已删除的 Safari 历史记录的最佳方法。现在按照分步指南进行操作。 iPhone 上的 Safari 历史记录会被永久删除吗&#xff1…

爱德蒙得洛希尔:深耕亚洲市场,开启中国投资新篇章!

爱德蒙得洛希尔资产管理(法国)有限公司(以下简称“爱德蒙得洛希尔”)是一家具有悠久历史和全球业务网络的金融企业,由洛希尔家族于1953年在法国巴黎创立。作为一家主要从事私人银行和资产管理业务的金融集团&#xff0…

Mybatis编写SQL

文章目录 一、用注解编写1.1 增普通增加获取自增ID 1.2 删和改1.3 查单表查询多表查询 二、用xml编写2.1 使用xml的流程2.2 增普通增加获取自增ID 2.3 删 和 改2.4 查 三、#{} 和 ${}3.1 #{} 、${}3.1 预编译 SQL 、即时编译SQL 两种写法是可以同时存在的 一、用注解编写 1.1 …

【已解决】HtmlWebpackPlugin.getHooks is not a function

安装下面的依赖,获得 html-webpack-plugin 的 beta 版本 npm i html-webpack-pluginnext --save此问题在github上有讨论:https://github.com/facebook/create-react-app/issues/5465

网络报文协议头学习

vxlan:就是通过Vxlan_header头在原始报文前面套了一层UDPIP(4/6)Eth_hdr 需求背景:VXLAN:简述VXLAN的概念,网络模型及报文格式_vxlan报文格式-CSDN博客 如果服务器作为VTEP,那从服务器发送到接…

Java对象的揭秘

前言 作为一个 Java 程序员,我们在开发中最多的操作要属创建对象了。那么你了解对象多少?它是如何创建?如何存储布局以及如何使用的?本文将对 Java 对象进行揭秘,以及讲解如何使用 JOL 查看对象内存使用情况。 本文是基…

云计算如何助力金融科技企业实现高效运营

一、引言 随着信息技术的飞速发展,云计算作为一种新兴的计算模式,正在逐渐改变着传统金融行业的运营模式。金融科技企业作为金融行业的重要组成部分,面临着日益增长的业务需求和技术挑战。在这一背景下,云计算凭借其弹性扩展、高可用性、低成本等优势,成为金融科技企业实…

VisualSVN Server/TortoiseSVN更改端口号

文章目录 概述VisualSVN Server端更改端口号TortoiseSVN客户端更改远程仓库地址 概述 Subversion(SVN)是常用的版本管理系统之一。部署在服务器上的SVN Server端通常会在端口号80,或者端口号443上提供服务。其中80是HTTP访问方式的默认端口。…

SSM牙科诊所管理系统-计算机毕业设计源码98077

目 录 摘要 1 绪论 1.1研究目的与意义 1.2国内外研究现状 1.3ssm框架介绍 1.4论文结构与章节安排 2 牙科诊所管理系统系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能…

制作ChatPDF之后端Node搭建(三)

后端Node搭建 接上篇:制作ChatPDF之前端Vue搭建(二) 项目结构 下面是项目的结构图,包括前端 (Vue.js) 和后端 (Node.js) 的项目结构。 pdf-query-app/ ├── frontend/ │ ├── public/ │ │ ├── index.html │ ├── sr…

Python3 match-case 语句

前言 本文主要介绍match-case语句与switch-case的区别,及match-case语句的基本用法。 文章目录 前言一、switch-case 和match-case的区别二、match-case的基本用法1、可匹配的数据类型2、多条件匹配3、通配符匹配 一、switch-case 和match-case的区别 C语言里面s…