Spark SQL— Catalyst 优化器

Spark SQL— Catalyst 优化器

1. 目的

本文的目标是描述Spark SQL 优化框架以及它如何允许开发人员用很少的代码行表达复杂的查询转换。我们还将描述Spark SQL如何通过大幅提高其查询优化能力来提高查询的执行时间。在本教程中,我们还将介绍什么是优化、为什么使用 Catalyst 优化器、其基本工作单元是什么以及 Spark 执行流程的各个阶段。

Spark SQL 优化 - 了解 Catalyst 优化器

2. Apache Spark SQL优化简介

“优化一词是指修改系统以使其工作更高效或使用更少资源的过程。”
Spark SQL是 Apache Spark 中技术含量最高的组件。Spark SQL 处理 SQL 查询和 DataFrame API。Spark SQL 的深处有一个催化剂优化器。Catalyst 优化允许一些高级编程语言功能,使您可以构建可扩展的查询优化器。
一种名为 Catalyst 的新型可扩展优化器出现了,用于实现 Spark SQL。该优化器基于**Scala中的函数式编程构造。
Catalyst Optimizer 支持
基于规则基于成本的**优化。在基于规则的优化中,基于规则的优化器使用一组规则来确定如何执行查询。而基于成本的优化则找到最合适的方式来执行SQL语句。在基于成本的优化中,使用规则生成多个计划,然后计算它们的成本。

3. Catalyst Optimizer 的需求是什么?

Catalyst 的可扩展设计背后有两个目的:

  • 我们希望添加简单的解决方案来解决**大数据**的各种问题,例如半结构化数据和高级数据分析的问题。
  • 我们想要一种简单的方法,以便外部开发人员可以扩展优化器。

4. Catalyst Optimizer 的基础知识

Catalyst 优化器利用Scala 编程的标准功能,例如模式匹配。在深度上,Catalyst 包含和操作树的规则集。有特定的库来处理关系查询。有各种规则集可以处理查询执行的不同阶段,例如分析查询优化、物理规划代码生成,以将部分查询编译为 Java 字节码。让我们详细讨论树和规则 -

4.1. 树木

树是催化剂中的主要数据类型。树包含节点对象。对于每个节点,都有一个节点。一个节点可以有一个或多个子节点。新节点被定义为 TreeNode 类的子类。这些对象本质上是不可变的。可以使用函数变换来操纵对象。
例如,如果我们有三个节点类:worthattributesub,其中 -

  • value(value: Int): 常量值
  • 属性(名称:字符串)
  • sub(左:TreeNode,右:TreeNode):两个表达式相减。

Spark-SQL-Catalyst-optimizer-tree-示例

4.2. 规则

我们可以使用规则来操纵树。我们可以将规则定义为从一棵树到另一棵树的函数。通过规则,我们可以在输入树上运行任意代码,这是使用模式匹配函数并用特定结构替换子树的常见方法。在树中,借助变换函数,我们可以在树的所有节点上递归地应用模式匹配。我们得到将每个模式与结果相匹配的模式。
例如-
tree.transform {case Sub(worth(c1),worth(c2)) =>worth(c1+c2) }
在模式匹配期间传递给transform的表达式是一个偏函数。通过部分函数,​​这意味着它只需要匹配所有可能的输入树的子集。Catalyst 将查看给定规则适用于树的哪个部分,并自动跳过不匹配的树。使用相同的转换调用,规则可以匹配多个模式。
例如 -

*tree.transform {*
*case Sub(worth(c1),worth(c2)) =>worth(c1-c2)*
*case Sub(left ,worth(0)) => left*
*case Sub(worth(0), right ) => right*
*}*

为了完全转换一棵树,规则可能需要执行多次。
催化剂通过将规则分组为批次来工作,并且执行这些批次直到达到固定点。固定点是指即使在应用规则之后树也停止变化的点。

5.Spark SQL执行计划

在详细介绍了 Apache Spark SQL 催化剂优化器之后,现在我们将讨论 Spark SQL 查询执行阶段。我们分四个阶段使用 Catalyst 的通用树转换框架:

  • 分析
  • 逻辑优化
  • 物理规划
  • 代码生成

Spark-SQL-执行-查询-计划

5.1. 分析

Spark SQL优化从要计算的关系开始。它是根据SQL 解析器返回的**抽象语法树 (AST)**或使用 API 创建的DataFrame对象计算的。两者都可能包含未解析的属性引用或关系。未解析的属性意味着我们不知道其类型或未将其与输入表匹配。Spark SQL 利用 Catalyst 规则和一个 Catalog 对象来跟踪所有数据源中的数据来解析这些属性。首先创建一个未解决的逻辑计划,然后应用以下步骤:

  • 按目录中的名称搜索关系。
  • 将名称属性(例如 col)映射到给定运算符子级提供的输入。
  • 确定哪些属性与相同的值匹配,从而为它们提供唯一的 ID。
  • 通过表达式传播和推送类型。

5.2. 逻辑优化

在 Spark SQL 优化的此阶段,标准的基于规则的优化应用于逻辑计划。它包括常量折叠谓词下推投影剪枝等规则。为各种情况添加规则变得非常容易。

5.3. 物理规划

物理规划规则大约有500行代码。在这一阶段,使用物理运算符匹配Spark执行引擎,从逻辑计划形成一个或多个物理计划。它使用成本模型选择计划。它仅使用基于成本的优化来选择连接算法。对于使用广播连接的小关系 SQL,该框架支持更广泛地使用基于成本的优化。它可以使用该规则递归地估计整个树的成本。
基于规则的物理优化,例如将投影或过滤器管道化到一个 Spark地图中操作也由物理规划器执行。除此之外,它还可以将逻辑计划中的操作推送到支持谓词或投影下推的数据源中。

5.4. 代码生成

Spark SQL 优化的最后阶段是代码生成。它涉及生成在每台机器上运行的 Java 字节码。Catalyst 使用 Scala 语言的特殊功能“ Quasiquotes ”来使代码生成变得更容易,因为构建代码生成引擎非常困难。Quasiquotes 允许以 Scala 语言以编程方式构造抽象语法树 (AST),然后可以在运行时将其提供给 Scala 编译器以生成字节码。在催化剂的帮助下,我们可以将表示 SQL 表达式的树转换为 Scala 代码的 AST,以计算该表达式,然后编译并运行生成的代码。

6. 总结

因此,Spark SQL 优化提高了开发人员的工作效率以及他们编写的查询的性能。一个好的查询优化器会自动重写关系查询以更有效地执行,使用早期过滤数据、利用可用索引等技术,甚至确保不同的数据源以最有效的顺序连接。
通过执行这些转换,优化器可以缩短关系查询的执行时间,并使开发人员不再关注应用程序的语义而不是性能。
Catalyst 利用 Scala 的强大功能(例如模式匹配和运行时元编程)来允许开发人员简洁地指定复杂的关系优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/501598.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

K8S安装和部署(kubeadmin安装1主2从)

这里用kubeadmin方式进行安装部署 1. 准备三台服务器 服务器地址 节点名称 192.168.190.200 master 主 192.168.190.201 node1 从 192.168.190.202 node2 从 2. 主机初始化(所有主机) 2.1根据规划设置主机名 #切换到192.168.190.200 hostnamectl…

【C++的奇迹之旅】C++关键字命名空间使用的三种方式C++输入输出命名空间std的使用惯例

文章目录 📝前言🌠 C关键字(C98)🌉 命名空间🌠命名空间定义🌉命名空间使用 🌠命名空间的使用有三种方式:🌉加命名空间名称及作用域限定符🌠使用using将命名空间中某个成员…

【Frida】【Android】06_夜神模拟器中间人抓包

🛫 系列文章导航 【Frida】【Android】01_手把手教你环境搭建 https://blog.csdn.net/kinghzking/article/details/136986950【Frida】【Android】02_JAVA层HOOK https://blog.csdn.net/kinghzking/article/details/137008446【Frida】【Android】03_RPC https://bl…

如何更新STEAM税务信息

回复邮件 Here are three attachments:. Figure 1: My personal tax information file in the government system, including my TIN, permanent address and mailing address Figure 2. My tax payment certificate in China in 2002 was issued by the tax bureau, Figure 3:…

npm ERR! errno CERT_HAS_EXPIRED

1 问题描述 使用npm命令安装相关依赖报错:npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.npm.taobao.org/vue%2fcli failed, reason: certificate has expired报错示例图如下所示: 2原因分析…

C语言循环结构的程序设计

在C语言中,循环结构是一种重要的控制结构,用于重复执行特定的代码块,直到满足特定的条件为止。循环结构使得程序可以更加灵活和高效地处理重复性的任务,从而提高了程序的可读性和可维护性。本文将深入介绍C语言中循环结构的程序设…

小型分布式文件存储系统GoFastDfs应用简介

前言 最近稍微留意了一下各个文件存储系统的协议,发现minio是LGPLV3, 而fastdfs 是GPL3,这些协议其实对于商业应用是一个大坑。故而寻找一些代替品。 go-fastdfs就是其中之一,官网在: go-fastdfs 具体应用 其实可以直接查看官网教程的。 下…

Jenkins详细安装配置部署

目录 简介一、安装jdk二、安装jenkins这里如果熟悉 Jenkins ,可以【选择插件来安装】,如果不熟悉,还是按照推荐来吧。注意: 三、插件安装如果上面插件安装,选择的不是【安装推荐的插件】,而是【选择插件来安…

学习Fast-LIO系列代码中相关概念理解

目录 一、流形和流形空间(姿态) 1.1 定义 1.2 为什么要有流形? 1.3 流形要满足什么性质? (1) 拓扑同胚 (2) 可微结构 1.4 欧式空间和流形空间的区别和联系? (1) 区别: (2) 联系: 1.5 将姿态定义在流形上比…

基于java+springboot+vue实现的二手闲置物品置换系统(文末源码+Lw+ppt)23-375

摘 要 大学生二手闲置物品置换交易管理系统设计的目的是为用户提供免费物品、积分物品等功能。 与其它应用程序相比,大学生二手闲置物品置换交易的设计主要面向于学校,旨在为管理员和卖家、用户提供一个大学生二手闲置物品置换交易管理系统。用户可以…

Java项目:80 springboot师生健康信息管理系统

作者主页:源码空间codegym 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 系统的角色:管理员、宿管、学生 管理员管理宿管员,管理学生,修改密码,维护个人信息。 宿管员…

LLM推理入门指南②:深入解析KV缓存

在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:单步初始化阶段,即提示的处理阶段,和逐个生成补全词元的多…

数组类模板(类模拟实现静态数组)

目录 介绍: 案例描述: 思路: 对要求分别分析实现: 创建对应的类: 1.定义一个数组类 2.类中属性有:数组, 容量, 大小 3.数组函数有: 构造函数(容量&am…

Oracle EBS AR接口和OM销售订单单价为空数据修复

最近,用户使用客制化Web ADI 批量导入销售订单行功能,把销售订单行的单价更新成空值,直到发运确认以后,财务与客户对帐才发现大量销售订单的单价空,同时我们检查AR接口发现销售订单的单价和金额均为空。 前提条件 采用PAC成本方式具体问题症状 销售订单行的单价为空 Path:…

车载以太网AVB交换机 gPTP透明时钟 6口 百兆车载以太网交换机

SW100TE百兆车载以太网交换机 一、产品简要分析 6端口百兆车载以太网交换机,其中包含5通道100BASE-T1泰科MATEnet接口和1个通道100BASE-TX标准以太网(RJ45接口),可以实现车载以太网多通道交换,车载以太网数据采集和模拟,Bypass数…

Discourse 最多允许有几个分类级别

和 DISCUZ 不同,DISCUZ 可以允许分类下面还有分类,再继续分类这种嵌套式分类。 Discourse 最多只允许有 2 个分类。 如果你在已有的分类下再继续分类的话,系统会提示错误: 意思就是子分类不能再分子分类。 Discourse 尽量采取了…

Chapter 1 - 6. Introduction to Congestion in Storage Networks

NVMe/TCP NVMe/TCP carries NVMe commands over TCP transport (Figure 1-8) for accessing remote block storage via a lossy or sometimes lossless network. It is an OSI layer 5 (sessions layer) protocol. NVMe/TCP 通过 TCP 传输(图 1-8)传输 NVMe 命令,以便通过有…

pnpm、monorepo分包管理、多包管理、npm、vite、前端工程化、保姆级教程

浅尝pnpm monorepo 多包管理方案 💡tips: 创建pnpm monorope多包管理框架流程 初始化 mkdir taurus & cd taurus pnpm init创建基础文件 创建文件pnpm-workspace.yaml packages:- packages/**创建文件夹packages/ -packages/ -package.json -pnpm-workspace…

一周学会Django5 Python Web开发-Django5模型分页查询

锋哥原创的Python Web开发 Django5视频教程: 2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~共计43条视频,包括:2024版 Django5 Python we…

初步了解C++

目录 一:什么是C? 二.C发展史 三:C关键字 四:命名空间 4.1命名空间的介绍 4.2命名空间的使用 4.3命名空间的使用 4.3.1使用作用域限定符 4.3.2 使用using将命名空间的某个成员引入 4.3.3使用using把整个命名空间展开 4.4命名空…