MySQL为什么采用B+树作为索引底层数据结构?

        索引就像一本书的目录,通过索引可以快速找到我们想要找的内容。那么什么样的数据结构可以用来实现索引呢?我们可能会想到:二叉查找树,平衡搜索树,或者是B树等等一系列的数据结构,那么为什么MySQL最终选择了B+树作为索引的数据结构呢?

索引的“要求”

        要想知道什么样的数据结构最适合索引,首先我们要知道索引需要什么?

        首先,数据库的索引时保存在磁盘上的,因此我们在查询索引的时候,要先去磁盘上读取索引到内存,然后再通过索引找到要访问的数据,最后再去磁盘中读取数据,整个过程中会发生多次IO,那么我们自然希望发生磁盘IO的次数越小越好,这样可以提高数据查询的效率。

        其次,MySQL是支持范围查找的,所以我们希望通过索引可以进行高效的范围查找

二叉查找树

二叉查找树可以在logN的时间内找到目标值,那么二叉查找树适合用作索引吗?

答案是不适合

        首先,二叉查找树存在极端情况,如果每次插入的结点都是最小或者最大的,那么二叉查找树就会退化成链表,查询的时间复杂度就从O(logN)降到了O(N)

        其次,如果索引的数量很多,树的高度也会变得很高,磁盘需要的IO次数也会不断增加。

平衡二叉树

         平衡二叉树相比于二叉查找树加上了一个条件:左右子树高度差不能超过1;虽然这个条件避免了原先二叉查找树中极端情况下会退化成链表的问题。

        但是同样的,当树中的结点不断增加的时候,树的高度高度也会不断增加,同样会使得IO次数不断增加。

B树

        实际上,二叉查找树和平衡二叉树不适合作为索引的数据结构,究其本质还是因为他们是二叉树,于是我们可以看一下m叉树的一些数据结构,比如B树。

        B树不再限制一个节点就只能有2个子节点,而是允许M个子节点 (M>2),从而降低树的高度。B树的每一个节点最多可以包括M个子节点,M称为B树的阶,所以B树就是一个多叉树

        使用了多叉树的数据结构以后,就解决了传统二叉查找树中随着索引数量的增多,IO次数会变高的问题。在实际使用中,只要M大于100,即便是千万级的数据量,仍然可以保证在3-4次IO内就找到数据。相比与传统的二叉树,多叉树会更加矮胖,更适合作为索引的数据结构。

但是,MySQL仍然没有选择B树,为什么呢?

        首先B树的每个节点都包含数据(索引+记录),而用户的记录数据的大小很有可能远远超过了索引数据,这就需要花费更多的磁盘 I/O 操作次数来读到真正需要的索引数据信息。

        其次,MySQL是支持范围查询的,B树进行范围查询需要进行树的中序遍历,需要使用递归或者迭代搜索来进行遍历,效率不高。

B+树

最后,MySQL选择了B+树,B+树的结构大致如下所示:

B+树和B树很相似,差异如下:

  • 叶子节点(最底部的节点)才会存放实际数据(索引+记录),非叶子节点只会存放索引

  • 所有索引都会在叶子节点出现,叶子节点之间构成一个有序链表;

 这样就解决了B树的两个缺陷。

        B+树的非叶子节点不存放实际的记录数据,仅存放索引,因此数据量相同的情况下,相比存储即存索引又存记录的B树,B+树的非叶子节点可以存放更多的索引,因此B+树可以比B树更矮胖,查询底层节点的磁盘 I/O次数会更少。

        B+树所有叶子结点使用双向链表连接,这使得其进行范围查找的时候,十分方便,相较于B树范围查询效率更高。

总结

为什么采用B+树作为索引的数据结构?

1.和传统的二叉查找树相比,B+树是一棵多叉树,树的高度更小,整个树更加矮胖,查询的效率更高;二叉树的话,数据量上去了树的高度就会很高。

(tips:实际使用中,m的值会超过100,此时即便是千万级的数据量,仍然可以保证在3-4次IO内就找到数据)

2.和B树相比

  • B+树的磁盘IO效率更高。B+树的数据只会存放在叶子结点(非叶子节点只存索引信息),而B树在每个节点上都要存放数据,所以在相同的空间内,B+树可以存放更多地索引信息,IO效率更高(单次IO获得的索引信息量更大)
  • B+树范围查找效率更高,B树进行范围查找需要进行树中序遍历,而B+树的叶子结点使用了双向链表连接起来,范围查找效率更高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/37616.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【框架篇】对象注入的三种实现方式

对象注入的实现 一,实现方式的使用 对象注入也可被称为对象装配,是把Bean对象获取出来放到某个类中。 对象注入的实现方式有3种,分别为属性注入,Setter注入和构造方法注入。 为了更好地理解对象注入的实现方式,搞个…

Spring管理事务知识

目录 1.什么是事务 2.事务的特性ACID 3.Spring 管理事务的方式 4.Spring管理事务的体现:JDBCTemplate 5.声明式事务的属性有哪些 6.声明式事务属性---只读 7.声明式事务属性---超时 8.声明式事务属性---回滚策略 9.声明式事务属性---事务隔离级别 10.声明…

1、Kubernetes 概述和架构

目录 一、基本介绍 二、kubernetes功能和架构 2.1、 概述 2.2 、功能 (1)自动装箱 (2)自我修复(自愈能力) (3)水平扩展 (4)服务发现 (5)滚动更新 &a…

【Vue】给 elementUI 中的 this.$confirm、this.$alert、 this.$prompt添加按钮的加载效果

文章目录 主要使用 beforeClose 方法实现 loading 的效果beforeClose MessageBox 关闭前的回调,会暂停实例的关闭 function(action, instance, done)1. action 的值为confirm, cancel或close。 2. instance 为 MessageBox 实例,可以通过它访问实例上的属…

C语言中定义和声明的区别

声明(declaration)与定义(definition) 为了使不同的文件都可以访问同一个变量,C会区 分变量的声明和定义。 变量的定义会为这个变量分配存储空间,并且 可能 会为其指定一个初始化的值, 一个变量的定义有且 仅有一处。 定义实际上是一种特殊…

【网络】HTTPS协议原理

目录 “加密”相关概念 为什么要加密 常见加密方式 对称加密 非对称加密 HTTPS工作过程探究 方案1-只使用对称加密 方案2-只使用非对称加密 方案3-客户端和服务端双方都使用非对称加密 方案4-非对称加密 对称加密 上述方案问题分析 方案5-证书认证 非对称加密对…

Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

一、案例说明 现有一电商网站数据文件,名为buyer_favorite1,记录了用户对商品的收藏数据,数据以“\t”键分割,数据内容及数据格式如下: 二、前置准备工作 项目环境说明 Linux Ubuntu 16.04jdk-7u75-linux-x64scal…

C++的switch函数用法

一个 switch 语句允许测试一个变量等于多个值时的情况。每个值称为一个 case,且被测试的变量会对每个 switch case 进行检查。 语法 C 中 switch 语句的语法: switch(expression){ case constant-expression : statement(s); break; // 可选的 case c…

解决MAC IDEA终端每次都要source ~/.zshrc

安装nvm之后,发现每隔一段时间(不清楚是新打开一个终端还是会定时刷新)就要重新执行source ~/zshrc,才能执行nvm命令。找了一圈发现idea默认使用的shell是bash,将默认的shell改成zsh就可以,更改位置&#x…

多模态系列论文--CoCa 详细解析

论文地址:CoCa: Contrastive Captioners are Image-Text Foundation Models 代码地址:CoCa CoCa 1 摘要2 网络结构3 损失函数4 实验结果5 总结 1 摘要 CoCa代表Contrastive Captioners的缩写,代表模型用两个目标函数训练出来的,一…

selenium怎么使用代理IP

什么是selenium Selenium 是一个自动化测试框架,用于测试 Web 应用程序的功能性。它支持多个编程语言(如Java,Python,C#等)并且可以在操作系统和不同浏览器上运行测试。Selenium 可以模拟用户在浏览器中的操作&#x…

PyTorch从零开始实现Transformer

文章目录 自注意力Transformer块编码器解码器块解码器整个Transformer参考来源全部代码(可直接运行) 自注意力 计算公式 代码实现 class SelfAttention(nn.Module):def __init__(self, embed_size, heads):super(SelfAttention, self).__init__()self.e…

RDS-Tools RDS-Knight Crack

RDS 高级安全性 利用全面的网络安全工具箱中有史以来最强大的安全功能集来保护您的 RDS 基础架构。 全方位 360 保护 无与伦比的功能集 无与伦比的物有所值 企业远程桌面安全。现代工作空间的智能解决方案。 办公室正在权力下放。远程办公室和移动员工数量创历史新高。随…

机器学习技术(四)——特征工程与模型评估

机器学习技术(四)——特征工程与模型评估(1️⃣) 文章目录 机器学习技术(四)——特征工程与模型评估(:one:)一、特征工程1、标准化2、特征缩放3、缩放有离群值的数据4、非线性转换5、样本归一化6、特征二值化7、标称特征编码(one-…

设计模式——命令模式

命令模式 定义 将一个请求封装成一个对象,从而让你使用不同的请求吧客户端参数化,对请求排队或者记录请求日志,可以提供命令的撤销和恢复功能。 命令模式是一个高内聚的模式。 优缺点、应用场景 优点 类间解耦。调用者与接收者之间没有任…

Linux系统使用(超详细)

目录 Linux操作系统简介 Linux和windows区别 Linux常见命令 Linux目录结构 Linux命令提示符 常用命令 ls cd pwd touch cat echo mkdir rm cp mv vim vim的基本使用 grep netstat Linux面试题 Linux操作系统简介 Linux操作系统是和windows操作系统是并列…

Github Pages使用自定义域名

Github Pages使用自定义域名 部署好网站后默认访问地址是xxx.github.io,我们想要自定义为自己的域名 1.DNS解析 这里我使用的是腾讯云,DNS解析DNSPod 添加两条解析记录: 第一个解析记录的记录类型为A,主机记录为,记录值为ping 你的github用户名.githu…

【Java】单例模式

单例模式 设计模式概述单例模式实现思路饿汉式懒汉式饿汉式 vs 懒汉式 设计模式概述 设计模式是在大量的实践中总结和理论化之后优选的代码结构、编程风格、以及解决问题的思考方式。设计模式免去我们自己再思考和摸索。就像是经典的棋谱,不同的棋局,我…

【unity之IMGUI实践】单例模式管理面板对象【一】

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:uni…

electron globalShortcut 快捷键与系统全局快捷键冲突

用 electron 开发自己的接口测试工具(Post Tools),在设置了 globalShortcut 快捷键后,发现应用中的快捷键与系统全局快捷键冲突了,导致系统快捷键不可正常使用。 快捷键配置 export function initGlobalShortcut(main…