数据结构与算法笔记:基础篇 - 红黑树(上):为什么工程中都用红黑树这种二叉树?

概述

上两篇文章,我们依次讲解了树、二叉树、二叉查找树。二叉查找树是最常用的一种二叉树,它支持快速插入、删除、查找操作,各个操作的时间复杂度跟树的高度成正比,理想情况下,时间复杂度是 O ( l o g n ) O(logn) O(logn)

不过,二叉查找树在频繁的动态更新过程中,可能会出现树的高度远大于 l o g 2 n log_2n log2n 的情况,从而导致哥哥操作的效率下降。极端情况下,二叉树会退化为链表,时间复杂度会退化到 O ( n ) O(n) O(n)。上篇文章说了,要解决这个复杂度退化的问题,我们需要设计一种平衡二叉树,这也是本章要将的这种数据结构。

很多书籍,但凡讲到平衡二叉查找树,就会拿红黑树作为例子。不仅如此,如果你有一定的开发经验,你会发现,在工程中,很多用到平衡二叉查找树的地方都会用红黑树。你有没有想过,为什么工程中都喜欢用红黑树,而不是其他平衡二叉查找树呢?


什么是 “平衡二叉查找树”?

平衡二叉树的严格定义是这样的:二叉树中任意一个结点的左右子树的高度相差不能大于 1。从这个定义来看,上篇文章讲的完全二叉树、满二叉树其实都是平衡二叉树,但是非并完全二叉树也有可能是平衡二叉树。

在这里插入图片描述

平衡二叉查找树不仅满足上面平衡二叉树的定义,还满足二叉查找树的特点。最先被发明的平衡二叉查找树是 AVL 树,它严格符合刚刚讲到的平衡二叉查找树的定义,即任何子节点的左右子树的高度相差不超过 1,是一种高度平衡的二叉查找树。

但是很多平衡二叉查找树其实并没有严格符合上面的定义,所以,我感觉没必要去死抠定义。对于平衡二叉查找树这个概念,我觉得我们要从这个数据结构的由来,去 “理解” 平衡的意思。

发明平衡二叉查找树这类数据结构的初衷是,解决普通二叉查找树在频繁的插入、删除等动态更新的情况下出现时间复杂度退化的问题。

所以,平衡二叉查找树中 “平衡” 的意思,其实就是让整棵树左右看起来都比较 “对称”、比较 “平衡”,不要出现左子树很高、右子树很矮的情况。这样就能让整棵树的高度相对来说低一些,相应的插入、删除、查找等操作的效率高一些。

所以,如果我们现在设计一个新的平衡二叉查找树,只要树的高度不比 l o g 2 n log_2n log2n 大很多(比如书的高度仍然是对数量级的),尽管它不符合我们前面的严格的平衡二叉查找树的定义,但我们仍可以说,这是一个合格的平衡二叉查找树。

如何定义一棵 “红黑树”?

平衡二叉查找树其实有很多,比如 Splay Tree(伸展树)、Treap(树堆)等,但是,我们提到平衡二叉查找树,听到的基本都是红黑树。它的出镜率甚至要高于 “平衡二叉查找树” 这几个字,有时候,我们甚至默认平衡二叉查找树就是红黑树,那我们现在就来看看这个 “明星树”。

红黑树的英文是 “Red-Black Tree”,简称 R-B Tree。它是一种不严格的平衡二叉查找树,前面说了,它的定义是不严格符合平衡二叉查找树的定义的。那红黑树的究竟是怎么定义的呢?

顾名思义,红黑树中的节点,一类被标记为红色,一类被标记为红色。此外,一棵红黑树还要满足这样几个要求:

  • 根节点是黑色的
  • 每个叶子节点都是黑色的空节点(NIL),也就是说,叶子节点不能存储数据
  • 任何相邻的节点不能同时为红色,也就是说,红色节点是被黑色节点隔开的;
  • 每个节点,从该节点到达其可达的叶子节点的所有路径,都包含相同数目的黑色节点;

这里的第二点要求 “每个叶子节点都是黑色的空节点” ,稍微有些奇怪,它主要是为了简化红黑树的代码实现而设置的,下篇文章我们讲解红黑树的实现时会降到。本章暂时不考虑这一点,所以,在画图和讲解的时候,将黑色的、空的叶子节点都省略掉了。

下面画了两个红黑树的图例,你可以对照看下。

在这里插入图片描述

为什么说红黑树都是 “近似平衡” 的?

前面也讲到,平衡二叉查找树的初衷,是为了解决二叉查找树因为动态更新导致的性能退化问题。所以,“平衡” 的意思可以等价为性能不退化。 “近似平衡” 就等价为性能不会退化得太严重。

上篇文章讲过,二叉查找树很多操作的性能都跟树的高度成正比。一棵极其平衡的二叉树(满二叉树或者完全二叉树)的高度大约是 l o g 2 n log_2n log2n,所以如果要证明红黑树是近似平衡的,我们只需要分析,红黑树的高度是否比较稳定地趋近 l o g 2 n log_2n log2n 就好了。

红黑树的高度不是很好分析,我带你一步步来推导。

首先,我们来看,如果我们将红色节点从红黑树中去掉,那单纯包含黑色节点的红黑树的高度是多少呢?

红色节点删除之后,有些节点就没有父节点了,我们会直接拿这些节点的祖父节点(父节点的父节点)作为父节点。所以,之前的二叉树就变成了四叉树。

在这里插入图片描述

前面红黑树的定义里有这么一条:从任意节点到可达节点的叶子节点的每个路径包含相同数目的黑色节点。我们从四叉树中取出某些节点,放到叶子节点位置,四叉树就变成了完全二叉树。所以,仅包含黑色节点的四叉树的高度,比包含相同节点个数的完全二叉树的高度还要小。

上篇文章我们说,完全二叉树的高度近似 l o g 2 n log_2n log2n,这里的四叉 “黑树” 的高度要低于完全二叉树,所以去掉红色节点的 “黑树” 的高度也不会超过 l o g 2 n log_2n log2n

现在我们知道只包含黑色节点的 “黑树” 的高度,那我们现在把红色节点加回去,高度会变成多少呢?

从上面画的红黑树的例子和定义看,在红黑树中,红色节点不能相邻,也就是说,有一个红色节点就要至少一个黑色节点,将它跟其他红色节点隔开。红黑树中包含最多黑色节点的路径不会超过 l o g 2 n log_2n log2n,所以加入红色节点之后,最长路径不会超过 2 l o g 2 n 2log_2n 2log2n,也就是说,红黑树的高度近似 2 l o g 2 n 2log_2n 2log2n

所以,红黑树的高度之比高度平衡的 AVL 树( l o g 2 n log_2n log2n)仅仅大了一倍,在性能上,下降得并不多。这样推导出来的结果不够精确,实际上红黑树的性能更好。

为什么工程中都用红黑树这种二叉树?

刚刚提到了很多平衡二叉查找树,现在我们来看下,为什么工程中都用红黑树这种二叉树?

前面提到 Treap、Splay Tree,绝大部分情况下,它们的操作效率都很高,但是也无法避免极端情况下时间复杂度的退化。尽管这种情况出现的概率不大,但是对于单词操作时间非常敏感的场景来说,它们并不适用。

AVL 是一种高度平衡的二叉树,所以查找的效率非常高,但是,有利就有弊,AVL 树为了维持这种高度的平衡,就要付出更多的代价。每次插入、删除都要做调整,就比较复杂、耗时。所以,对于频繁插入、删除操作的集合,使用 AVL 树的代价就有点高了。

红黑树只是做到了近似平衡,并不是严格的平衡,所以在维护平衡的成本上,要比 AVL 树要低。

所以,红黑树的插入、删除、查找各种操作性能都比较稳定。对于工程应用来说,要面对各种异常情况,为了支撑这种工业级的应用,我们更倾向于性能稳定的平衡二叉查找树。

小结

很多同学觉得红黑树很难,的确,它算式最难掌握的一种数据结构。其实红黑树最难的地方是它的实现,在下一章节我们会专门讲解。

不过,我认为,我们其实不应该把学些的侧重点,放到它的实现上。

我们学习数据结构和算法,要学习它的由来、特性、适用场景以及它能解决的问题。对于红黑树,也不例外。你如果能搞懂这几个问题,其实就已经足够了。

红黑树是一种平衡二叉查找树。它是为了解决普通二叉查找树在数据更新的过程中,复杂度退化的问题而产生的。红黑树的高度近似 l o g 2 n log_2n log2n,所以它是近似平衡,插入、删除、查找操作的时间复杂度都是 O ( l o g n ) O(logn) O(logn)

因为红黑树是一种性能非常稳定的二叉查找树,所以,在工程中,但凡是用到动态插入、删除、查找数据的场景,都可以用到它。不过,它实现起来比较复杂,如果自己写代码实现,难度会有些高,这个时候,我们其实更倾向于用跳表来替代它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/698563.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何用R语言ggplot2画折线图

文章目录 前言一、数据集二、ggplot2画图1、全部代码2、细节拆分1)导包2)创建图形对象3)主题设置4)轴设置5)图例设置6)颜色7)保存图片 前言 一、数据集 数据下载链接见文章顶部 数据&#xff1a…

网络数据包抓取与分析工具wireshark的安及使用

WireShark安装和使用 WireShark是非常流行的网络封包分析工具,可以截取各种网络数据包,并显示数据包详细信息。常用于开发测试过程中各种问题定位。 1 任务目标 1.1 知识目标 了解WireShark的过滤器使用,通过过滤器可以筛选出想要分析的内容 掌握Wir…

企业微信hook接口协议,ipad协议http,确认群发消息

确认群发消息 参数名必选类型说明uuid是String每个实例的唯一标识,根据uuid操作具体企业微信 请求示例 {"uuid": "d85c7605-ae91-41db-aad5-888762493bac","vids":[],//如果是客户群群发需要填群id"msgid":1097787129…

前端三剑客之JavaScript基础入门

目录 ▐ 快速认识JavaScript ▐ 基本语法 🔑JS脚本写在哪? 🔑注释 🔑变量如何声明? 🔑数据类型 🔑运算符 🔑流程控制 ▐ 函数 ▐ 事件 ▐ 计时 ▐ HTML_DOM对象 * 建议学习完HTML和CSS后再…

手把手带你做一个自己的网络调试助手(4) - 优化完善

了解全部信息,请关注专栏: QT网络调试助手_mx_jun的博客-CSDN博客 优化服务器 1.不能设置随拖动变大: this->setLayout(ui->verticalLayout); 2. 未连接就能发送消息: //在处理新连接槽函数中加入 if(!ui->btnSend->isEnabled()){//只有客户端连接…

【CC精品教程】osbg格式三维实景模型全解

数据格式同样都是osgb,不同软件生产的,建模是参数不一样,还是有很大区别的,本讲进行一一讲解。 文章目录 一、CC生产的osbg1. osgb的文件结构2. metadata.xml是什么?​(1)EPSG模式metadata.xml​(2)EPSG带+模式metadata.xml​(3)ENU模式metadata.xml​(4)LOCAl模式…

《大道平渊》· 拾贰 —— 天下大事必作于细:做好每一件小事,必然大有所成!

《平渊》 拾贰 "天下难事必作于易,天下大事必作于细。" 社群一位大佬最近在研究新项目, 他做事的 "方法论" 令我深受启发。 他在测试项目时, 每一步都做的非常细致: 整个项目的测试都被划分为一件件小事, 然后有条不紊地推进…… …

postgresql之翻页优化

列表和翻页是所有应用系统里面必不可少的需求,但是当深度翻页的时候,越深越慢。下面是几种常用方式 准备工作 CREATE UNLOGGED TABLE data (id bigint GENERATED ALWAYS AS IDENTITY,value double precision NOT NULL,created timestamp with time zon…

matlab 异常值检测与处理——Z-score法

目录 一、算法原理1、算法概述2、主要函数3、参考文献二、代码实现三、结果展示四、相关链接本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫。 一、算法原理 1、算法概述 使用Z分数法,可以找出距离平均值有多少个标准差值…

Java面试八股之静态变量和实例变量的区别有哪些

Java静态变量和实例变量的区别有哪些 存储位置和生命周期: 静态变量:静态变量属于类级别,存储在Java的方法区(或称为类区,随JVM实现而异,现代JVM中通常在元数据区内),并且在类首次…

天锐绿盾,怎么防止公司内部核心文件、文档、设计图纸、源代码、音视频等数据资料外泄

天锐绿盾通过多种技术和管理手段,全面保护公司内部的核心文件、文档、设计图纸、源代码、音视频等数据资料,防止外泄。以下是具体的防泄密措施: PC地址: https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5d…

【技术干货】Linux命令“du-sh和df”执行结果存在差异,问题分析及处理过程

1.du-sh和df的差异 du和df是两个不同的Linux命令,它们⽤于查看磁盘空间的使⽤情况。但是它们有⼀些区别: • du(diskusage)会扫描每个⽂件和⽬录,并计算它们的总⼤⼩。[1]du-sh*会显⽰当前⽬录下每个⽂件或⽬录的⼤⼩…

APD系列特高频局放监测装置

安科瑞电气股份有限公司 祁洁 15000363176 一、产品概述 现阶段,电力系统对于电能的质量提出越来越高的要求,不仅要确保供电稳定可靠,而且供电的安全性也是重要要求。电力系统中,金属封闭开关设备得到广泛应用,因…

基于springboot实现影院订票系统项目【项目源码+论文说明】

基于springboot实现影院订票系统演示 摘要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本影院订票系统就是在这样的大环境下诞生,其可以帮助管理者在…

安卓手机电脑同步数据,2个方法,有效避免数据膨胀

如今,我们的手机已经成为了数字生活的中心舞台,而电脑则是我们工作和娱乐的得力助手。两者之间的数据同步,就像是搭建了一座无形的桥梁,让我们的生活和工作变得更加便捷和高效。如何高效进行手机电脑同步数据呢?在这篇…

第十三章 组合模式

目录 1 组合模式介绍 2 组合模式原理 3 组合模式实现 4 组合模式应用实例 5 组合模式总结 1 组合模式介绍 组合模式(Composite Pattern) 的定义是:将对象组合成树形结构以表示整个部分的层次结构.组合模式可以让用户统一对待单个对象和对象的组合. 2 组合模式…

【C++题解】1457 - 子数整除

问题:1457 - 子数整除 类型:循环应用 题目描述: 于一个五位数 abcde ,可将其拆分为三个子数: sub1abc sub2bcd sub3cde 例如,五位数20207 可以拆分成sub1202 sub2020 (也就是 20) sub3207 现在给定一个正…

中文词云MATLAB

wordcloud Create word cloud chart from text, bag-of-words model, bag-of-n-grams model, or LDA model name{1} {数字图像处理}; name{2} {禹晶 肖创柏 廖庆敏}; name{3} {1 绪论,2 数字图像基础,3 空域图像增强,4 频域图像增强,7 图像压缩编码,9 二值图像形态学,8 图像…

k8s学习--kubernetes服务自动伸缩之水平收缩(pod副本收缩)VPA策略应用案例

文章目录 前言应用环境1.VPA应用案例 updateMode: "Off"(1)创建应用实例(2)创建vpa 2.VPA应用案例 updateMode: "Auto"(1)创建应用 (2)创建vpa(3&am…

护眼台灯哪个品牌好?几款性价比最高的护眼台灯推荐

在过去,科技尚未发展至如今这般先进水平时,晚上需要照明的时候,我们通常只能依赖白炽灯。尽管白炽灯以其低成本和接近自然光的显色性获得了一定的青睐,随着时代的发展,现在市面上出现了更为护眼的选择——LED台灯。然而…