做了两年数仓,积累的12条SQL调优技巧

本文是作者本人做数仓调优时,所经常使用的SQL调优技巧,这些“技巧”也是经过日常不断摸索、问题排查以及网络检索并且经过本人在线上大规模使用过的,对于下面这12条(不算多,但特别有用)调优小“技巧”,希望能帮助阅读本文的同学能够在日常编写分析语句时,提升任务执行的效率。

当然也希望你能谨记并养成一种调优习惯,那么无论对于工作还是面试都是有利无害。

请记住:在数据处理中,不怕数据量大,就怕数据倾斜(简单讲就是数据热点)!

01.请慎重使用COUNT(DISTINCT col)

问题原因:

distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM

解决方案:

所以,可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION BY col)方式代替COUNT(DISTINCT col)

02.小文件会造成资源的过度占用以及影响查询效率

问题原因:

  • 众所周知,小文件在HDFS中存储本身就会占用过多的内存空间,那么对于MR查询过程中过多的小文件又会造成启动过多的Mapper Task, 每个Mapper都是一个后台线程,会占用JVM的空间

  • 在Hive中,动态分区会造成在插入数据过程中,生成过多零碎的小文件(请回忆昨天讲的动态分区的逻辑)

  • 不合理的Reducer Task数量的设置也会造成小文件的生成,因为最终Reducer是将数据落地到HDFS中的

  • Hive中分桶表的设置

解决方案:

在数据源头HDFS中控制小文件产生的个数,比如

  • 采用Sequencefile作为表存储格式,不要用textfile,在一定程度上可以减少小文件(常见于在流计算的时候采用Sequencefile格式进行存储)

  • 减少reduce的数量(可以使用参数进行控制)

  • 慎重使用动态分区,最好在分区中指定分区字段的val值

最好数据的校验工作,比如通过脚本方式检测hive表的文件数量,并进行文件合并合并多个文件数据到一个文件中,重新构建表

03.请慎重使用SELECT(*)

问题原因:

在大数据量多字段的数据表中,如果使用 SELECT * 方式去查询数据,会造成很多无效数据的处理,会占用程序资源,造成资源的浪费

解决方案:

在查询数据表时,指定所需的待查字段名,而非使用 * 号

04.不要在表关联后面加WHERE条件

原因:

比如以下语句:

SELECT * FROM stu as t LEFT JOIN course as t1ON t.id=t2.stu_idWHERE t.age=18;

请思考上面语句是否具有优化的空间?如何优化?

解决方案:

采用谓词下推的技术,提早进行过滤有可能减少必须在数据库分区之间传递的数据量

谓词下推的解释:

所谓谓词下推就是通过嵌套的方式,将底层查询语句尽量推到数据底层去过滤,这样在上层应用中就可以使用更少的数据量来查询,这种SQL技巧被称为谓词下推(Predicate pushdown) 

那么上面语句就可以采用这种方式来处理:

SELECT * FROM (SELECT * FROM stu WHERE age=18) as t LEFT JOIN course AS t1 on t.id=t1.stu_id

05.处理掉字段中带有空值的数据

问题原因:

一个表内有许多空值时会导致MapReduce过程中,空成为一个key值,对应的会有大量的value值, 而一个key的value会一起到达reduce造成内存不足

解决方式:

1、在查询的时候,过滤掉所有为NULL的数据,比如:

create table res_tbl as  select n.* from (select * from res where id is not null ) n left join org_tbl o on n.id = o.id;

2、查询出空值并给其赋上随机数,避免了key值为空(数据倾斜中常用的一种技巧)

create table res_tbl asselect n.* from res n full join org_tbl o on case when n.id is null then concat('hive', rand()) else n.id end = o.id;

06.设置并行执行任务数

通过设置参数 hive.exec.parallel 值为 true,就可以开启并发执行。不过,在共享集群中,需要注意下,如果 job 中并行阶段增多,那么集群利用率就会增加。

//打开任务并行执行

  • set hive.exec.parallel=true;

 //同一个 sql 允许最大并行度,默认为 8

  • set hive.exec.parallel.thread.number=16;

07.设置合理的Reducer数量

原因:

  • 过多的启动和初始化 reduce 也会消耗时间和资源

  • 有多少个Reduer就会有多少个文件产生,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题

解决方案:

Reducer设置的原则:

每个Reduce处理的数据默认是256MB

  • hive.exec.reducers.bytes.per.reducer=256000000

每个任务最大的reduce数,默认为1009

  • hive.exec.reducers.max=1009

计算reduce数的公式

N=min(每个任务最大的reduce数,总输入数据量/reduce处理数据量大小)

设置Reducer的数量

  • set mapreduce.job.reduces=n

08.JVM重用

JVM重用是Hadoop中调优参数的内容,该方式对Hive的性能也有很大的帮助,特别对于很难避免小文件的场景或者Task特别多的场景,这类场景大数据书执行时间都很短

Hadood的默认配置通常是使用派生JVM来执行map和reduce任务的,会造成JVM的启动过程比较大的开销,尤其是在执行Job包含有成百上千个task任务的情况。

JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在hadoop的mapred-site.xml文件中进行设置

  • mapred.job.reuse.jvm.num.tasks10

09.为什么任务执行的时候只有一个reduce?

原因:

使用了Order by (Order By是会进行全局排序)

直接COUNT(1),没有加GROUP BY,比如:

有笛卡尔积操作

SELECT COUNT(1) FROM tbl WHERE pt=’202109’

解决方案:

避免使用全局排序,可以使用sort by进行局部排序

使用GROUP BY进行统计,不会进行全局排序,比如:

  • SELECT pt,COUNT(1) FROM tbl WHERE pt=’202109’group by pt;

10.选择使用Tez引擎

Tez: 是基于Hadoop Yarn之上的DAG(有向无环图,Directed Acyclic Graph)计算框架。它把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,也可以减少任务的运行时间

虽然现在最新版本的Hive默认其实支持的Tez引擎, 但是很多人或者大部分人往往还是希望用MR引擎,特别是在Tez报错,然后MR运行正常的时候

设置

  • hive.execution.engine = tez;

通过上述设置,执行的每个HIVE查询都将利用Tez

当然,也可以选择使用spark作为计算引擎

11.选择使用本地模式

有时候Hive处理的数据量非常小,那么在这种情况下,为查询出发执行任务的时间消耗可能会比实际job的执行时间要长,对于大多数这种情况,hive可以通过本地模式在单节点上处理所有任务,对于小数据量任务可以大大的缩短时间

可以通过

  • hive.exec.mode.local.auto=true

12.选择使用严格模式

Hive提供了一种严格模式,可以防止用户执行那些可能产生意想不到的不好的影响查询

比如:

  • 对于分区表,除非WHERE语句中含有分区字段过滤条件来限制数据范围,否则不允许执行,也就是说不允许扫描所有分区

  • 使用ORDER BY 语句进行查询是,必须使用LIMIT语句,因为ORDER BY 为了执行排序过程会将所有结果数据分发到同一个reduce中进行处理,强制要求用户添加LIMIT可以防止reducer额外的执行很长时间

严格模式的配置:

  • hive.mapred.mode=strict

好了,以上这十二条虽然不多,并且看起来简单,你可以作为一种复习来看,那么对于刚开始做不久的同学,可以将这些技巧严格的执行在日常工作中,并且希望你具备一定的调优的意识。

如果想进一步交流的话,欢迎加我 V:kubedata

我们宗旨:分享创造价值、交流促进成长,欢迎关注:云原生大数据技术荟

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/597841.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[qnx] 通过zcu104 SD卡更新qnx镜像的步骤

0. 概述 本文演示如果给Xlinx zcu104开发板刷入自定义的qnx镜像 1.将拨码开关设置为SD卡启动 如下图所示,将1拨到On,2,3,4拨到Off,即为通过SD启动。 2.准备SD卡中的内容 首先需要将SD格式化为FAT32的(如果已经是FAT32格式,则…

Python高级编程-DJango1

Python高级编程 灵感并不是在逻辑思考的延长线上产生 而是在破除逻辑或常识的地方才有灵感 目录 Python高级编程 1.python学习之前的准备 ​编辑 2.DJango 开发网站 3.创建项目 4.djang项目结构介绍 1&…

转行HiL测试工程师

转行没方向?0基础也能转新能源汽车HiL测试岗位! 都2024年了,不会还有同学想往软件测试、车载测试方向转吧!996、卷经验、卷待遇… ❓❓❓❓想转行没有方向? 建议选择发展前景好的行业,转行前先找好行业&…

目标检测——打架视频数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

C++ | Leetcode C++题解之第73题矩阵置零

题目&#xff1a; 题解&#xff1a; class Solution { public:void setZeroes(vector<vector<int>>& matrix) {int m matrix.size();int n matrix[0].size();int flag_col0 false;for (int i 0; i < m; i) {if (!matrix[i][0]) {flag_col0 true;}for …

【Markdown笔记】——扩展语法学习part3 表格脚注标题编号(锚点)列表删除线人物列表(todo列表)emoji等

【Markdown笔记】——扩展语法学习part3 表格&脚注等 MarkdownMarkdown 表格语法表格内容居中、左对齐、右对齐 Markdown 脚注语法Markdown 标题编号语法Markdown 列表语法Markdown 删除线语法Markdown 任务列表语法Markdown 使用 Emoji 表情 前几篇markdown相关博客&#…

基于 Spring Boot 博客系统开发(七)

基于 Spring Boot 博客系统开发&#xff08;七&#xff09; 本系统是简易的个人博客系统开发&#xff0c;为了更加熟练地掌握 SprIng Boot 框架及相关技术的使用。&#x1f33f;&#x1f33f;&#x1f33f; 基于 Spring Boot 博客系统开发&#xff08;六&#xff09;&#x1f…

2024年第十三届工程与创新材料国际会议(ICEIM 2024)即将召开!

2024年第十三届工程与创新材料国际会议&#xff08;ICEIM 2024&#xff09;将于2024年9月6-8日在日本东京举行。ICEIM 2024由东京电机大学主办&#xff0c;会议旨在材料科学与工程、材料特性、测量方法和应用等相关领域进行学术交流与合作&#xff0c;在材料的微观世界里&#…

异或的使用在机器人项目上的应用||位运算符在智能驾驶项目上的应用

目录 一、异或的使用在机器人项目上的应用 二、异或&#xff08;XOR&#xff09;操作的几个特点 三、位运算符在智能驾驶项目上的应用 一、异或的使用在机器人项目上的应用 在当时负责皮带机器人项目中&#xff0c;就有一个很好的应用。此时需要设置电机驱动模块、编码器驱动…

Leetcode—724. 寻找数组的中心下标【简单】

2024每日刷题&#xff08;129&#xff09; Leetcode—724. 寻找数组的中心下标 实现代码 class Solution { public:int pivotIndex(vector<int>& nums) {int sum accumulate(nums.begin(), nums.end(), 0);int prefix 0;for(int i 0; i < nums.size(); i) {i…

为antd design vue组件库中的表格添加斑马线、鼠标悬浮表格中字体转变颜色的效果

前言&#xff1a; 在公司完成UI设计稿时&#xff0c;需要实现antd design vue组件库中的表格展示斑马线样式&#xff0c;同时具有鼠标悬浮表格中字体转变颜色的效果&#xff0c;经过多次尝试&#xff0c;最终实现&#xff0c;总结如下&#xff1a; <style lang"scss&q…

软件测试经理工作日常随记【2】-接口自动化

软件测试主管工作日常随记【2】-接口自动化 1.接口自动化 jmeter-反电诈项目 这个我做过的一个非常有意义的项目&#xff0c;和腾讯合作的&#xff0c;主要为用户拦截并提示所有可能涉及到的诈骗类型&#xff0c;并以裂变的形式扩展用户&#xff0c;这个项目前期后端先完成&…

ubuntu22.04:软件包 wps-office 需要重新安装,但是我无法找到相应的安装文件

错误原因&#xff1a;手动在wps官网上下载的linux deb版本的wps2019,想卸载但是一直报错 解决办法&#xff1a;执行如下命令 sudo rm -rf /var/lib/dpkg/info/wps-office*sudo dpkg --remove --force-remove-reinstreq wps-office 说明&#xff1a; sudo命令是以root执行&…

FIFO Generate IP核AXI接口配置全解

当需要在设计中使用自定义IP时&#xff0c;可以通过为IP核的各种参数指定值来进行定制。以下是一般步骤的概述&#xff1a; 首先是从IP catalog中选择IP核。 然后双击这个选定的IP核&#xff0c;打开一个定制向导或参数设置窗口。或在工具栏或右键菜单中选择“Customize IP”命…

SAPUI5基础知识1 - 概览,库,支持工具,自学教程

1. SAPUI5 概览 1.1 SAPUI5 SAPUI5是一种用于构建企业级Web应用程序的开发框架。它是由SAP开发的&#xff0c;基于HTML5、CSS3和JavaScript技术。 SAPUI5提供了一套丰富的UI控件和工具&#xff0c;使开发人员能够快速构建现代化、可扩展和可定制的应用程序。 它还提供了数据…

STM32CubeMX学习笔记32---FreeRTOS资源管理

一、CPU利用率简介 1 基本概念 CPU 使用率其实就是系统运行的程序占用的 CPU 资源&#xff0c;表示机器在某段时间程序运行的情况&#xff0c;如果这段时间中&#xff0c;程序一直在占用 CPU 的使用权&#xff0c;那么可以人为 CPU 的利用率是 100%。CPU 的利用率越高&#xf…

JVM调参实践总结

JVM调优–理论篇从理论层面介绍了如何对JVM调优。这里再写一篇WIKI&#xff0c;尝试记录下JVM参数使用的最佳实践&#xff0c;注意&#xff0c;这里重点介绍HotSpot VM的调参&#xff0c;其他JVM的调参可以类比&#xff0c;但不可照搬。 Java版本选择 基于Java开发应用时&…

面向新手在无人机竞速场景下的飞行辅助系统——浙大 FAST-Lab 高飞团队 ICRA 论文三项 Best Paper 入围

恭喜浙江大学 FAST-Lab 钟宇航同学的论文 A Trajectory-based Flight Assistive System for Novice Pilots in Drone Racing Scenario 顺利发表 ICRA 2024&#xff0c;并同时入选三项 Finalist&#xff1a; the IEEE ICRA Best Conference Paper Awardthe IEEE ICRA Best Pape…

干货!Kali Linux命令大全(建议收藏)

系统信息 arch 显示机器的处理器架构 name -m 显示机器的处理器架构 name -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 -(SMBIOS/DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试读取操作 cat /proc/cpuinfo …

[综合应用]dns nfs httpd php mysql

第一步&#xff1a;搭建三台主机 主机名称 Ip地址 角色 503A 192.168.68.10 Mysql从 503B 192.168.68.11 Mysql从&#xff0c;nfs服务端&#xff0c;dns服务端 503Cmysql 192.168.68.12 MySQL主&#xff0c;web客户端 第二步&#xff1a;在503B上配置DNS 2.1 下载…