Clickhouse学习笔记(9)—— 语法优化

ClickHouse 的 SQL 优化规则是基于 RBO(Rule Based Optimization)实现的

官方数据集的使用

为了方便测试CK的语法优化规则,尝试使用官方提供的数据集;

需要使用的数据集是visits_v1hints_v1

Anonymized Web Analytics Data | ClickHouse Docs

hits_v1 表有 130 多个字段,880 多万条数据

visits_v1 表有 180 多个字段,160 多万条数据

使用步骤如下: 

1.将下载的数据集上传到服务器

2.将数据集解压到clickhouse 数据路径下:/var/lib/clickhouse(权限不够的话切换root用户)

sudo tar -xvf hits_v1.tar -C /var/lib/clickhouse
sudo tar -xvf visits_v1.tar -C /var/lib/clickhouse

可以看到数据集的文件目录:

解压之后会和clickhouse文件夹下的相应目录合并:

3.修改数据集所属用户

sudo chown -R clickhouse:clickhouse /var/lib/clickhouse/data/datasets
sudo chown -R clickhouse:clickhouse /var/lib/clickhouse/metadata/datasets

4.查看是否导入成功

/var/lib/clickhouse/data路径下可以看到导入的datasets数据库

则导入成功

COUNT优化

在调用 count 函数时,如果使用的是 count() 或者 count(*),且没有 where 条件,则会直接使用 system.tables 的 total_rows

EXPLAIN SELECT count()FROM visits_v1;

可以看到对count进行了优化;

但如果是count(UserID),则没有优化效果:

消除重复字段

消除子查询重复字段

EXPLAIN SYNTAX SELECT 
a.UserID,
b.VisitID,
a.URL,
b.UserID
FROM
hits_v1 AS a 
LEFT JOIN ( 
   SELECT 
   UserID, 
   UserID as HaHa, 
   VisitID 
   FROM visits_v1) AS b 
USING (UserID)
limit 3;

重复的字段会被消除:

,即使是重命名也不可以

删除重复的 order by key

EXPLAIN SYNTAX
SELECT *
FROM visits_v1
ORDER BY
 UserID ASC,
 UserID ASC,
 VisitID ASC,
 VisitID ASC

优化后的语法:

删除重复的 limit by key

有关limit by的用法:

LIMIT BY Clause | ClickHouse Docs

EXPLAIN SYNTAX
SELECT *
FROM visits_v1
LIMIT 3 BY
 VisitID,
 VisitID
LIMIT 10

优化后的语法:

删除重复的 USING Key

EXPLAIN SYNTAX
SELECT
 a.UserID,
 a.UserID,
 b.VisitID,
 a.URL,
 b.UserID
FROM hits_v1 AS a
LEFT JOIN visits_v1 AS b USING (UserID, UserID)

优化后的语法:

SELECT 
 UserID,
 UserID,
 VisitID,
 URL,
 b.UserID
FROM hits_v1 AS a
ALL LEFT JOIN visits_v1 AS b USING (UserID)

谓词下推

简单来说就是提前过滤条件

EXPLAIN SYNTAX SELECT UserID FROM visits_v1 GROUP BY UserID HAVING UserID = '8585742290196126178';

原sql中是先分组,再根据having的条件过滤,但优化后的sql是先通过where过滤,再分组:

谓词下推同样适用于复杂的查询语句,以子查询为例:

EXPLAIN SYNTAX
SELECT *
FROM 
(
 SELECT UserID
 FROM visits_v1
)
WHERE UserID = '8585742290196126178'

会将where过滤提前到子查询内部去执行:

但不会删除原位置的where语句;

聚合计算外推

聚合函数内的计算会外推

EXPLAIN SYNTAX
SELECT sum(UserID * 2)
FROM visits_v1

会首先将UserID加和,再×2:

聚合函数消除

如果对聚合键,也就是 group by key 使用 min、max、any 聚合函数,则将函数消除

EXPLAIN SYNTAX
SELECT
 max(UserID),
 min(UserID),
 any(UserID),
 avg(UserID),
 sum(UserID)
FROM visits_v1
GROUP BY UserID;

可以看到:

因为对于分组的key来说,同一组的数据key相同,因此对其求最大、最小值等操作无意义;

标量替换

如果子查询只返回一行数据,在被引用的时候用标量替换

EXPLAIN SYNTAX
WITH 
 (
 SELECT sum(bytes)
 FROM system.parts
 WHERE active
 ) AS total_disk_usage
SELECT
 (sum(bytes) / total_disk_usage) * 100 AS table_disk_usage,
 table
FROM system.parts
GROUP BY table
ORDER BY table_disk_usage DESC
LIMIT 10;

优化后:

由于with中sum(bytes)的结果为0,因此使用标量来进行替换;

identity:标识函数

Other Functions | ClickHouse Docs

cast:类型转换函数(cast(x,T))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/134949.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【大模型】大语言模型语料下载

文章目录 概述Hugging Faceobs操作git-lfs例子RedPajama-Data-1TSlimPajama-627B/git clone续传 数据格式参考资料 概述 大模型训练中语料是非常重要的,目前公网上有各种各样的语料可以供下载,但是不可能每个用户、每次训练任务都通过公网去拉取语料&am…

SparkSQL之Rule体系

在Unresolved LogicalPlan逻辑算子树的操作(如绑定、解析、优化等)中,主要方法都是基于规则(Rule)的,通过Scala语言模式匹配机制(Pattern-match)进行树结构的转换或节点改写。Rule是…

践行“微”使命——建行江门市分行大力发展普惠金融支持小微企业

促进小微企业发展是保持国民经济高质量发展的重要基础。建行广东省江门市分行立足当地特色产业之需,以金融活水润泽侨乡众多小微企业,携手共赴美好未来。 双向奔赴,添翼高企发展 江门开平水口镇是全国三大水暖卫浴生产基地之一,…

PDF文件编辑器有哪些?10 个适用的PDF 编辑器推荐!

PDF 编辑器始终配备简单的界面以及高效管理工作所需的所有功能。 那么如何选择合适的版本呢?在线工具还是离线工具更好? 为了帮助您回答这些问题,我将通过多次深入的测试来详细回顾十大免费编辑器。现在让我们来探索一下吧! 10 …

UDP协议

1.UDP协议的特点 无连接:不需要双方建立连接,直接就可以发送,就类似发短信,不需要知道对方是否在线,直接发送不可靠传输:无法知道对方是否有收到信息面向数据报:发送消息是以数据报尾单位全双工…

游戏交易平台系统源码下载 网络游戏币、装备、账号、道具等交易网站源码

最新仿7881游戏交易平台系统源码下载网络游戏币、装备、账号、道具等交易网站源码 下载地址:https://bbs.csdn.net/topics/617562568

数据结构与算法之排序: Leetcode 21. 合并两个有序链表 (Typescript版)

合并两个有序链表 https://leetcode.cn/problems/merge-two-sorted-lists/ 描述 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4]示例 …

最详细ChatGPT+AI绘画+企业知识库+视频去水印系统源码搭建流程,手把手教你搭建

一、系统介绍 这款源码搭载了强大的AI问答功能,是基于目前最强大AI大语言模型ChatGPT进行开发的Ai智能问答系统,并使用stablediffusion加最新的comfyui作为底层技术的绘画系统,使用comfyui的api接口,可以更灵活的定制自己的绘画工作流&#…

亲身体验告诉你:亚马逊云科技海外服务器是否值得一试?

前言 在当今数字化时代,云计算已经成为企业和个人发展的重要支撑。亚马逊云科技作为全球领先的云计算服务提供商,其海外服务器备受瞩目。然而,对于一些用户来说,是否值得一试亚马逊云科技的海外服务器仍然是一个疑问。本文将通过亲…

02. Python基础数据类型

1、前言 前面我们介绍了认识了Python以及Python的基础环境搭建,今天我们介绍下Python的一些基础语法。 2、Python基础 2.1、输入输出 2.1.1、输出 print() 用于输出指定的文字,括号中的为输出的字符串。print()也可以同时接收多个字符串,…

CHM Viewer Star 6.3.2(CHM文件阅读)

CHM Viewer Star 是一款适用于 Mac 平台的 CHM 文件阅读器软件,支持本地和远程 CHM 文件的打开和查看。它提供了直观易用的界面设计,支持多种浏览模式,如书籍模式、缩略图模式和文本模式等,并提供了丰富的功能和工具,如…

Linux各种版本安装详细步骤和root密码破解

文章目录 VMware新建虚拟机硬件设置设置虚拟网络挂载ISO文件 root密码破解 VMware新建虚拟机 硬件设置 设置虚拟网络 编辑>虚拟网络编辑器>VMnet8(NAT模式) 挂载ISO文件 加电>开启次虚拟机 第二项可以检查挂载上来的iso文件是否完整没有破坏 磁盘分区 选自定义分…

服务号如何升级订阅号

服务号和订阅号有什么区别?服务号转为订阅号有哪些作用?首先我们要知道服务号和订阅号有什么区别。服务号侧重于对用户进行服务,每月可推送4次,每次最多8篇文章,发送的消息直接显示在好友列表中。订阅号更侧重于信息传…

夯实思想根基:建行江门市分行持续加强党建工作

建行广东省江门市分行深化落实新时代党的建设总要求,坚持不懈用先进思想武装头脑和凝心铸魂,强化党建工作,夯实思想根基,护航高质量发展。 我是党员我先学 理论学习是党员的“永恒课题”。建行江门分行全体党员干部依托数字党建…

Web APIs——正则表达式使用

1、什么是正则表达式 正则表达式(Regular Expression)是用于匹配字符串中字符组合的模式。在JavaScript中,正则表达式也是对象 通常用来查找、替换那些符合正则表达式的文本,许多语言都支持正则表达式 1.1 正则表达式使用场景 例如…

desc相关注入

desc相关注入 补充

Java算法(七):随机产生验证码 前后端验证码比对处理 实战思路步骤

Java算法(七) 随机产生验证码 package com.liujintao.random;import java.util.Random; import java.util.Scanner;public class RandomNumber {/*** 该函数调用验证码所有的函数,完成验证码模块功能开发* param args*/public static void …

某城高速综合管控大数据大屏可视化【可视化项目案例-04】

🎉🎊🎉 你的技术旅程将在这里启航! 🚀🚀 本文选自专栏:可视化技术专栏100例 可视化技术专栏100例,包括但不限于大屏可视化、图表可视化等等。订阅专栏用户在文章底部可下载对应案例源码以供大家深入的学习研究。 🎓 每一个案例都会提供完整代码和详细的讲解,不…

Python之函数进阶-nonlocal和LEGB

Python之函数进阶-nonlocal和LEGB nonlocal语句 nonlocal:将变量标记为不在本地作用域定义,而是在上级的某一级局部作用域中定义,但不能是全局作用域中定义。 函数的销毁 定义一个函数就是生成一个函数对象,函数名指向的就是函数对象。可…

【中间件篇-Redis缓存数据库05】Redis集群高可用高并发

Redis集群 Redis Cluster是Redis的分布式解决方案,在3.0版本正式推出,有效地解决了Redis分布式方面的需求。当遇到单机内存、并发、流量等瓶颈时,可以采用Cluster架构方案达到负载均衡的目的。之前,Redis分布式方案一般有两种: 1、客户端分…