ClickHouse--06--其他扩展MergeTree系列表引擎

其他扩展MergeTree系列

MergeTree 系列表引擎 --种类

MergeTree 系 列 表 引 擎 包 含 :

  • MergeTree
  • ReplacingMergeTree
  • SummingMergeTree(汇总求和功能)
  • AggregatingMergeTree(聚合功能)
  • CollapsingMergeTree(折叠删除功能)
  • VersionedCollapsingMergeTree(版本折叠功能)引擎

在这些的基础上还可以叠加 Replicated 和 Distributed。

1. ReplacingMergeTree

在这里插入图片描述

1.1 概念

  • 以 上 MergeTree 不 能 对 相 同 主 键 的 数 据 进 行 去 重 , ClickHouse 提 供 了
    ReplacingMergeTree 引擎,可以针对同分区内相同主键的数据进行去重,它能够在合并分区时删除重复的数据
  • 值得注意的是,ReplacingMergeTree只是在一定程度上解决了数据重复问题,由于自动分区合并机制在后台定时执行所以并不能完全保障数据不重复
  • ReplacingMergeTree 适用于在后台清除重复的数据以节省空间。

1.2 建表语句

ReplaceingMergeTree 建表语句:
在这里插入图片描述
在这里插入图片描述

使用 ReplacingMergeTree 是需要注意以下几点:

  • 如何判断数据重复
    ReplacingMergeTree 在去除重复数据时,是以 ORDERBY 排序键为基准的,而不是PRIMARY KEY。
  • 何时删除重复数据
    在执行分区合并时,会触发删除重复数据。optimize 的合并操作是在后台执行的,无法预测具体执行时间点,除非是手动执行。
  • 不同分区的重复数据不会被去重
    ReplacingMergeTree 是以分区为单位删除重复数据的。只有在相同的数据分区内重复的数据才可以被删除,而不同数据分区之间的重复数据依然不能被剔除。
  • 数据去重的策略是什么
    如果没有设置[ver]版本号,则保留同一组重复数据中的最新插入的数据
    如果设置了[ver]版本号,则保留同一组重复数据中 ver 字段取值最大的那一行
  • optimize 命令使用
    一般在数据量比较大的情况,尽量不要使用该命令。因为在海量数据场景下,执行optimize 要消耗大量时间。

2.SummingMergeTree

在这里插入图片描述

2.1 概念

该引擎继承了 MergeTree 引擎,当合并 SummingMergeTree 表的数据片段时ClickHouse 会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值,即如果存在重复的数据,会对对这些重复的数据进行合并成一条数据,类似于 group by 的效果,可以显著减少存储空间并加快数据查询速度。

  • 如果用户只需要查询数据的汇总结果,不关心明细数据,并且数据的汇总条件是预先明确的,即 GROUP BY的分组字段是确定的,可以使用该表引擎。

2.2 SummingMergeTree 建表语句:

在这里插入图片描述
使用 SummingMergeTree 注意以下几点:

  • SummingMergeTree 是根据什么对两条数据进行合并的
    用 ORBER BY 排序键作为聚合数据的条件 Key。即如果排序key 是相同的,则会合并成一条数据,并对指定的合并字段进行聚合。
  • 仅对分区内的相同排序 key 的数据行进行合并
    以数据分区为单位来聚合数据。当分区合并时,同一数据分区内聚合 Key 相同的数据会被合并汇总,而不同分区之间的数据则不会被汇总。
  • 如果没有指定聚合字段,会怎么聚合
    如果没有指定聚合字段,则会按照非主键的数值类型字段进行聚合。
  • 对于非汇总字段的数据,该保留哪一条
    如果两行数据除了排序字段相同,其他的非聚合字段不相同,那么在聚合发生时,会保留最初的那条数据,新插入的数据对应的那个字段值会被舍弃。

3 AggregatingMergeTree

在这里插入图片描述

3.1 概念

  • 该表引擎继承自 MergeTree,可以使用 AggregatingMergeTree表来做增量数据统计聚合。如果要按一组规则来合并减少行数,则使AggregatingMergeTree 是合适的。AggregatingMergeTree 是通过预先定义的聚合函数计算数据并通过二进制的格式存入表内。
  • 与 SummingMergeTree 的区别在于:SummingMergeTree 对非主键列进行 sum 聚 合,而 AggregatingMergeTree 则可以指定各种聚合函数。对某些字段需要进行聚合时, 需要在创建表字段时指定成 AggregateFunction 类型

3.2 AggregatingMergeTree 建表语句

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3 搭配使用

  • 以上方式使用 AggregatingMergeTree 表引擎比较不方便,更多情况下,我们将AggregatingMergeTree 作为物化视图的表引擎与 MergeeTree 搭配使用

示例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.CollapsingMergeTree

在这里插入图片描述

4.1 概念

  • CollapsingMergeTree 就是一种通过以增代删的思路,支持行级数据修改和删除的 表引擎。它通过定义一个 sign 标记位字段,记录数据行的状态。如果 sign 标记为 1,则 表示这是一行有效的数据;如果 sign 标记为-1,则表示这行数据需要被删除。当 CollapsingMergeTree 分区合并时,同一数据分区内,sign 标记为 1 和-1的一组数据 会被抵消删除。
  • 每次需要新增数据时,写入一行 sign 标记为 1 的数据;需要删除数据时,则写入一行sign 标记为-1 的数据。此外,只有相同分区内的数据才有可能被折叠。

4.2 建表语句

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.VersionedCollapsingMergeTree

在这里插入图片描述

5.1 概念

  • 上面提到 CollapsingMergeTree 表引擎对于数据写入乱序的情况下,不能够实现数据 折 叠 的 效 果 。 VersionedCollapsingMergeTree 表 引 擎 的 作 用 与CollapsingMergeTree 完 全 相 同 , 它 们 的 不 同 之 处 在 于 ,VersionedCollapsingMergeTree 对数据的写入顺序没有要求,在同一个分区内,任意顺序的数据都能够完成折叠操作。
  • VersionedCollapsingMergeTree 使用 version 列来实现乱序情况下的数据折叠,该引擎除了需要指定一个 sign 标识之外,还需要指定一个 UInt*类型的 version 版本号。

5.2 建表语句

在这里插入图片描述
示例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/397617.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

maven3下载地址(含旧版本)

因为现有的3.8版本与IDEA不兼容,我需要下载3.6版本,但是官网的位置非常隐蔽,找了很多资料才看到。故记录一下。Index of /dist/maven/maven-3 选择需要的版本 选择binaries 选择zip文件下载就可以了

openai chat GPT-4 Technical Report 技术报告论文

摘要 我们报告了 GPT-4 的开发,这是一个大规模、多模态的模型,可以接受图像和文本输入,并生成文本输出。虽然在许多现实场景中不如人类,但 GPT-4 在各种专业和学术基准测试中表现出与人类水平相当的性能,包括在模拟的…

代码编写规范

这里写目录标题 空格头文件位置换行缩进位置符号左右两边各加一个空格括号前面是否需要加空格分号前不加空格 缩进各种分级语句 大括号对于if、else以及for循环等其他语句大括号左括号的位置二级目录 变量名、函数名变量名函数名在类unix系统下编程 注释哪些地方需要注释函数内…

【数据结构】栈「介绍+完整代码+调试」

1.栈 1.1栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端 称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。压…

潮乎新年盲盒H5版本可易支付对接

添加图片注释,不超过 140 字(可选) 潮乎新年盲盒H5版本可易支付对接 前端三十行和三十一行改成你域名百度网盘

毕设(二)——NB-IOT通信模块(nb卡通信测试)+gps定位

文章目录 一、关于接线2月1日记录2月4日记录 二、网络连接测试三、HTTP通信3.1 网络调试3.2 nb-lot的连接测试 一、关于接线 如果pico的供电能力不行,可能会直接用4.2V的锂电池对右下引脚进行供电 这个模块只支持nb卡,我哭死,20块钱&#xff…

第二件事 在Java 虚拟机 (JVM)跑一个程序

上篇文章写了 在 WINDOWS上 创建了一个 JVM, 好! 现在在这个 Java 虚拟计算机系统上跑一个Java语言编写的小程序; 题目: 用Java语言 编写一个小程序 在Console界面 打印 整数 1-10 (回头了一下源程序,靠,应…

行人重识别综述

Deep Learning for Person Re-identification: A Survey and Outlook 论文地址https://arxiv.org/pdf/2001.04193 1. 摘要 we categorize it into the closed-world and open-world settings. closed-world:学术环境下 open-world :实际应用场景下 2…

AI专题:AI巨轮滚滚向前

今天分享的是电子系列深度研究报告:《AI专题:AI巨轮滚滚向前》。 (报告出品方:方正证券) 报告共计:65页 来源:人工智能学派 Gemini 1.5 Pro 性能显著增强,长上下文理解取得突破 …

SpringBoot自动注入源码分析

Spring Boot何时注入Autowired标注的属性? 是在Bean实例化后,填充Bean的时候注入Autowired标注的属性 如果注入类型的Bean存在多个,Spring Boot是如何处理的? 如果存在多个类型的Bean,会根据primary—>javax.ann…

我的NPI项目之Android USB 系列(一) - USB第一面

和USB应该是老朋友了,从2011年接触Android开发开始,就天天和USB打交道了。那时候还有不 对称扁头的usb/方口的usb,直到如今使用广泛的防反插USB3.0 type-C。 但是,一直有一个不是很清楚的问题萦绕在心头,那就是。先有…

天洑AIFEM软件将助力竞技机器人国际冠军战队再攀高峰

2023年底,烈鹏战队作为中国顶尖机器人队伍代表出征国际赛事Battle of Robots,经过与全球战队激烈竞争,取得国际赛场上5连胜的优秀战绩斩获国际冠军。 天洑智能结构仿真软件AIFEM与玄智科技的技术方案联合,基于烈鹏战队的冠军机器人…

基于shp数据制作3DTiles建筑白膜

经纬管网建模系统MagicPipe3D,本地离线参数化构建地下管网、建筑三维模型,输出标准3DTiles服务、Obj模型等格式,支持Cesium、Unreal、Unity、Osg等引擎加载进行三维可视化、语义查询、专题分析。欢迎下载试用:http://www.magic3d.…

P1824 进击的奶牛题解

题目 Farmer John 建造了一个有N(2≤N≤105) 个隔间的牛棚,这些隔间分布在一条直线上,坐标是(0≤​≤)。 他的C(2≤C≤N)头牛不满于隔间的位置分布,它们为牛棚里其他的牛的存在而愤…

“比特币突破5.2万美元”,一枚币可换一斤半黄金?黄金比特币之争再次甚嚣尘上!

自今年1月美国SEC批准比特币现货ETF登陆美股市场之后,只用了短短的30个交易日,比特币ETF就从零膨胀到了近400亿美元的规模,超过白银ETF约100多亿美元的规模,和规模约为900多亿美元的黄金ETF暂时形成了“三七开”的格局。比特币现货…

毕业设计:基于知识图谱的《红楼梦》人物关系可视化

文章目录 项目介绍部署步骤项目运行 项目介绍 github地址:https://github.com/chizhu/KGQA_HLM?tabreadme-ov-file 基于知识图谱的《红楼梦》人物关系可视化:应该是重庆邮电大学林智敏同学的毕业设计,在学习知识图谱的过程中参考使用。 文…

ESP8266 烧录 MQTT固件

~~ 文章约定 ~~ 约定1:本篇所述固件,已测试可用于阿里云连接,其它云,未测试。 约定2:本烧录方法,以魔女开发板的板载ESP8266作示范。 约定3:如果使用独立的CH340、独立的ESP8266,请…

Puresuit 轨迹跟踪

在网上看过了很多Puresuit的轨迹跟踪算法,看起来都写的差不多,用起来不会用。 套用一份demo,在C转C语言的时候又深入理解了一些,在此整理成文档,供大家参考。输入 1.输入量是什么; 要知道车的长度,车的后轮位置以及下…

Redis(03)——发布订阅

基础命令 基于频道 publish channel message:将信号发送到指定的频道pubsub subcommand [argument [argyment]]:查看订阅或发布系统状态subscribe channel [channel]:订阅一个或多个频道的信息unsubscribe [channel [channel]]:退…

Leetcode 1089.复写零

目录 题目 思路 代码 题目 给你一个长度固定的整数数组 arr ,请你将该数组中出现的每个零都复写一遍,并将其余的元素向右平移。 注意:请不要在超过该数组长度的位置写入元素。请对输入的数组 就地 进行上述修改,不要从函数返回…