[Collection与数据结构] B树与B+树

🌸个人主页:https://blog.csdn.net/2301_80050796?spm=1000.2115.3001.5343
🏵️热门专栏:
🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm=1001.2014.3001.5482
🍕 Collection与数据结构 (93平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm=1001.2014.3001.5482
🧀线程与网络(96平均质量分) https://blog.csdn.net/2301_80050796/category_12643370.html?spm=1001.2014.3001.5482
🍭MySql数据库(93平均质量分)https://blog.csdn.net/2301_80050796/category_12629890.html?spm=1001.2014.3001.5482
🍬算法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12676091.html?spm=1001.2014.3001.5482
🍃 Spring(97平均质量分)https://blog.csdn.net/2301_80050796/category_12724152.html?spm=1001.2014.3001.5482
🎃Redis(97平均质量分)https://blog.csdn.net/2301_80050796/category_12777129.html?spm=1001.2014.3001.5482
🐰RabbitMQ(97平均质量分) https://blog.csdn.net/2301_80050796/category_12792900.html?spm=1001.2014.3001.5482
感谢点赞与关注~~~
在这里插入图片描述

目录

  • 1. 常见的基本搜索结构
  • 2. B树的概念
  • 3. B树的插入分析
  • 4. B树的插入实现
    • 4.1 B树的结点设计
    • 4.2 插入key的过程
    • 4.4 B树的性能分析
    • 4.5 B树的删除
  • 5. B+树和B*树
    • 5.1 B+树
    • 5.2 B*树

1. 常见的基本搜索结构

在这里插入图片描述
以上的结构适合用于数量不是很大的情况,如果数量非常巨大,一次性无法加载到内存中,使用上述结构就不是很方便,比如: 使用平衡树搜索一个大文件.
在这里插入图片描述
上面方法其实只在内存中保存了每一项数据信息中需要查询的字段以及数据在磁盘中的位置,整体的数据实际也在磁盘中.
缺陷:

  1. 树的高度比较高,查找的时候最差情况之下要比较树的高度次.
  2. 数据量如果特别大的时候,树的结点可能无法一次性加载到内存中,需要多次硬盘IO,这时候就会拖慢查找的速度.
    那如何提高对数据访问的速度呢?
  3. 提高IO的速度
  4. 降低树的高度,即使用多叉平衡树.

2. B树的概念

B树是一种平衡的多叉树,称为B树(有些地方可能写的是B-树,注意不要读作"B减数").一棵M阶(M>2)的B树,是一棵平衡的M路搜索平衡搜索树,可以是空树或者满足一下的性质:

  1. 根结点至少有两个孩子
  2. 每个非根结点至少有M/2-1(向上取整)个关键字,至多有M-1个关键字,并且以升序的方式排列.
  3. 每个非根节点至少有M/2(向上取整)个孩子,至多有M个孩子.
  4. 孩子结点永远比关键字多一个.
    在这里插入图片描述
  5. key[i]和key[i+1]之间的孩子结点的值介于key[i],key[i+1]之间.
  6. 所有的叶子结点都在同一层.

非根节点中至少有M/2-1(向上取整)个关键字和M/2(向上取整)个孩子是因为在每次节点满了之后都会拷走一半,这和节点的分裂有关,我们后续介绍.

3. B树的插入分析

为了简单起见,假设M=3,即是一棵三叉树,每个节点中保存两个数据,两个数据可以将区间分为三个部分,因此结点应该有三个孩子,为了后续实现简单起见,结点的结构如下.上一层存储的书该结点的数据,下一层存储的是孩子结点的地址.
在这里插入图片描述
我们之前规定的是3叉树,这里之所以要把4叉树当做3叉树来看待是因为数据满了之后,需要先进行插入再进行分裂,如果数据只有两个存储空间的话,新数据无法插入结点,也就无法正常进行分裂.下面我们来解释一下结点的分裂:

在我们插入的过程当中,有可能结点是需要分裂的.
前提是:
当前这棵树是一个M叉树,当一个关键字插入之后,关键字数目>M-1就要对结点进行拆分.拆分的规则是,把中间的元素提出来,放到父节点上(如果分裂的是根结点,则父节点不存在,需要新建一个结点),中间元素左边的的元素单独构成一个结点(保留在原来的结点中),中间元素右边的元素单独构成一个结点(这个结点一半不存在,需要新建).
比如我们使用53,139,75,49,145,36,101构建B树的过程如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里我们发现,B树的分裂是横向的分裂,新老结点在同一层,也就是不会使得树的高度增加,正是因为结点的横向分裂,所以B树才是天然平衡的.只有在分裂根节点的时候,高度才会增加.
在这里插入图片描述
在这里插入图片描述
注意在对根节点分裂的时候,139的两个孩子结点也要跟着139这个结点一起复制过来.
在这里插入图片描述
插入过程总结:

  1. 如果树为空,直接插入新结点中,该结点为树的根节点.
  2. 树非空,找待插入元素在树中的位置(注意:找到插入结点的位置一定在叶子结点上)
  3. 树中的key唯一,即该元素已经存在的时候则不插入.
  4. 按照插入顺序的思想将该元素插入到找到的结点中
  5. 检测该结点是否满足B树的性质: 即该结点中的元素个数是否<=M-1.
  6. 如果插入结点后结点不满足B树的性质,需要对该结点进行分裂:
    • 申请新的结点
    • 找到该结点的中间位置
    • 将该结点的中间位置右侧的元素以及其孩子搬移到新结点中.
    • 将中间位置元素以往该结点的双亲节点中插入.之后调整树的连接方式,把分裂出去的数据的孩子一起调整走.
  7. 如果向上分裂已经到了根结点的位置,插入结束.
  8. 如果更节点在插入之后也是满的,则要继续重复上述步骤分裂根节点.

4. B树的插入实现

4.1 B树的结点设计

结点需要包含这几部分:

  • 一个是存储数据的数据域
  • 一个是存储孩子结点的地址域
  • 为了方便分裂中中间元素向上插入,我们还要记录当前结点的双亲节点.
  • 记录有效数据的size.
  • 最后在给构造方法的时候注意要多给一个数据域和指针域.
public class BTreeNode {
    public int[] keys;//存储数据
    public BTreeNode[] subs;//存储孩子结点
    public BTreeNode parents;//存储双亲
    public int size;//有效数据个数
    public BTreeNode(int M){//M叉树
        this.keys = new int[M];//多给一个位置
        this.subs = new BTreeNode[M+1];
        this.size = 0;
    }
}

4.2 插入key的过程

  • 首先判断该树是否是一棵空树,如果是空树,则需要新建一棵树,并让根节点数据域的第一个元素为key;
  • 之后寻找该树中是否存在该数据,如果存在,直接返回,如果不存在,则继续下一步的插入逻辑
  • 在最终找到的叶子结点中进行数据的插入
  • 看看叶子结点是否为满
  • 如果满了,需要进行下一步的分裂操作.

我们在判断结点中是否存在指定的值的时候,如果直接返回一个结点,我们无法判断直接判断这个节点返回的是未找到数据最终到达的叶子结点还是找到数据的结点,所以我们必须通过一个Integer来标记这个数据是否真的存在.我们定义一种数据类型叫做Pair,前面存放结点,后面存放整形以判断这个值是否存在.

//键值对
public class Pair <K,V>{
    public K key;
    public V val;

    public Pair(K key, V val) {
        this.key = key;
        this.val = val;
    }
}

插入逻辑

public class Insert {
    public BTreeNode root;//定义根节点
    public final int M = 3;//定义的是一个三叉树
    public boolean insert(int key){
        //查看root是否为空
        if (root == null){
            root = new BTreeNode(M);
            root.keys[0] = key;
            root.size = 1;
            return true;
        }
        //接下来寻找元素在树中是否存在
        Pair<BTreeNode,Integer> pair = find(key);
        //如果返回的不是-1,证明是存在的
        if (pair.val != -1){
            return false;
        }
        BTreeNode cur = pair.key;
        //拿到当前结点之后进行数据插入
        int index = cur.size-1;
        for (;index > 0;index--){
            if (cur.keys[index] > key){
                cur.keys[index+1] = cur.keys[index];
            } else if (cur.keys[index] < key) {
                break;
            }
        }
        cur.keys[index+1] = key;
        cur.size++;
        //之后查看是否需要分裂节点
        if (cur.size < M){
            return true;//不需要分裂,直接返回
        }else {
            split(cur);//不满足B树性质,需要分裂
            return true;
        }
    }

    /**
     * 寻找key在树中是否存在
     * @param key 需要寻找的key
     * @return 返回键值对
     */
    private Pair<BTreeNode,Integer> find(int key){
        BTreeNode cur = root;
        BTreeNode parent = null;
        while (cur != null){//在整棵树中遍历
            int i = 0;
            while (i != cur.size){
                //在当前结点中遍历
                if (cur.keys[i] == key){
                    return new Pair<>(cur,cur.keys[i]);
                }else if (cur.keys[i] < key){
                    i++;
                }else {
                    break;
                }
            }
            parent = cur;//如果最后没有找到,parent记录的是叶子结点
            cur = cur.subs[i];//如果最后没有找到,这个结点记录的是null
        }
        //走到了最后证明没有找到
        return new Pair<>(parent,-1);
    }

    /**
     * 分裂当前结点
     * @param cur 需要分裂的结点
     */
    private void split(BTreeNode cur){
        BTreeNode newNode = new BTreeNode(M);//保存中间数据右边数据的结点
        BTreeNode parent = cur.parents;//记录该结点的父节点,把中间的数据提到父节点上去
        int mid = cur.size/2;
        int j = 0;
        int i = mid+1;
        for (;i < cur.size;i++){
            newNode.keys[j] = cur.keys[i];//数据复制走
            newNode.subs[j] = cur.subs[i];//孩子一起复制走
            //如果孩子不为空,就把孩子的父亲改成newNode
            if (newNode.subs[j] != null){
                newNode.subs[j].parents = newNode;
            }
            j++;
        }
        //孩子还需要再复制一次
        newNode.keys[j] = cur.keys[i];//数据复制走
        newNode.subs[j] = cur.subs[i];//孩子一起复制走
        //如果孩子不为空,就把孩子的父亲改成newNode
        if (newNode.subs[j] != null){
            newNode.subs[j].parents = newNode;
        }
        //更改newNode的size和原结点的size
        newNode.size = j;
        cur.size = cur.size-j-1;//包括复制走的数据和提到父节点上的数据
        if (cur.parents == null){//如果该结点是根结点
            root = new BTreeNode(M);
            root.keys[0] = cur.keys[mid];
            root.subs[0] = cur;
            cur.parents = root;
            root.subs[1] = newNode;
            newNode.parents = root;
            root.size = 1;
            return;
        }
        //如果该结点不是根结点
        newNode.parents = parent;
        int end = parent.size-1;
        int midVal = cur.keys[mid];
        //进行数据的插入
        for (;end > 0;end--){
            if (parent.keys[end] > midVal){
                parent.keys[end+1] = parent.keys[end];
                parent.subs[end+2] = parent.subs[end+1];//把数据和孩子都复制过去
            }else if (parent.keys[end] < midVal){
                break;
            }
        }
        parent.keys[end+1] = midVal;//把中间值移动过来
        parent.subs[end+2] = newNode;//把新节点连接到root上
        parent.size++;
        if (parent.size >= M){//如果根结点满了,继续分裂
            split(parent);
        }
    }
}

4.4 B树的性能分析

对于一棵结点为N度为M的B树,查找和插入需要logM-1N到logM/2N次比较,证明如下:对于度为M的B树,每个节点的子节点个数为M/2到(M-1)之间,因此树的高度应该要在logM-1N和logM/2N之间,在定位到该节点之后,每个节点中的数据个数一般非常有限,再采用二分查找的方式可以很快定位到该元素,时间复杂度可以近似看做O(1).
B-树的效率是很高的,对于N = 62*1000000000个节点,如果度M为1024,则
logM/2N<= 4,即在620亿个元素中,如果这棵树的度为1024,则需要小于4次即可定位到该节点,然后利用二分查找可以快速定位到该元素,大大减少了读取磁盘的次数.

4.5 B树的删除

参考<<算法导论>>或者<<数据结构-严蔚敏版>>.

5. B+树和B*树

5.1 B+树

B+树为B树的升级版,也是一种多路搜索树,它通常被用于数据库中建立索引以加快查找的速度.我们在MySQL的索引章节也有所介绍.
B+树的性质如下:

  1. 非叶子结点的子树指针域的个数和关键字的个数相同.
  2. 非叶子结点的子树指针p[i],指向关键字属于[k[i],k[i+1])的子树.也就是它的孩子中一定存在一个元素k[i].
  3. 为所有叶子结点增加一个链指针.把所有的叶子结点都串联起来,都指向自己的下一个兄弟节点,是一个链表,且链表中的节点数据都是有序的.
  4. 所有的真正的数据都在叶子结点出现.非叶子结点的关键字不是实际的数据记录,而是一种索引信息,用来引导搜索路径.
  5. 查找的次数相对于B树来说更加稳定,因为不管数据是多少,每次都要遍历到叶子结点.

在这里插入图片描述
B+树的搜索方式与B树基本相同,区别是B+树只有到达叶子结点才会命中数据,而B树有可能在非叶子结点就可以命中.
下面是B+树的分裂方式:
首先是叶子结点分裂:

  • 当一个结点满的时候,分配一个新的结点,并将原结点中1/2的数据(较大的那1/2)复制到新的结点
  • 原结点的下一个兄弟节点的指针指向新的结点.
  • 更新父节点的指针信息,使得父节点正确指向分裂之后的两个结点.

其次是非叶子结点的分裂:

  • 当为叶子结点插入数据的操作导致某个非叶子结点满,就需要对非叶子结点进行分裂.
  • 对于非叶子结点,同样选择中间的位置进行分裂,它左边的键值和指针留在原节点,右边的键值和指针移动到新节点.
  • 更新父节点的指针信息,使得父节点正确指向分裂之后的两个结点.
  • 如果父节点满,则继续上述的步骤,直到不再产生分裂或者是到根节点
  • 如果根节点发生了分裂,则创建一个新的根节点,将原根节点分裂后的两个节点作为新根节点的子节点,将分裂点键值放入新根节点.

5.2 B*树

B*树是B+树的变形,在B+树的非根和非叶子结点在增加了指向兄弟节点的指针.
在这里插入图片描述
分裂方式如下:
当一个结点满的时候,如果他的下一个兄弟节点未满,那么将一部分数据移动到他的兄弟节点中,再在原结点中插入关键字,最后修改父节点中兄弟节点的关键字(兄弟节点的数据发生了改变).如果兄弟节点也满了,则需要进行分裂,这里和B+树类似,不再赘述,唯一不同的是在非叶子结点分裂的时候,也需要修改兄弟节点指针的指向.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962618.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

origin如何在已经画好的图上修改数据且不改变原图像的画风和格式

例如我现在的.opju文件长这样 现在我换了数据集&#xff0c;我想修改这两个图表里对应的算法里的数据&#xff0c;但是我还想保留这图像现在的形式&#xff0c;可以尝试像下面这样做&#xff1a; 右击第一个图&#xff0c;出现下面&#xff0c;选择Book[sheet1] 选择工作簿 出…

Workbench 中的热源仿真

探索使用自定义工具对移动热源进行建模及其在不同行业中的应用。 了解热源动力学 对移动热源进行建模为各种工业过程和应用提供了有价值的见解。激光加热和材料加工使用许多激光束来加热、焊接或切割材料。尽管在某些情况下&#xff0c;热源 &#xff08;q&#xff09; 不是通…

Midjourney中的强变化、弱变化、局部重绘的本质区别以及其有多逆天的功能

开篇 Midjourney中有3个图片“微调”&#xff0c;它们分别为&#xff1a; 强变化&#xff1b;弱变化&#xff1b;局部重绘&#xff1b; 在Discord里分别都是用命令唤出的&#xff0c;但如今随着AI技术的发达在类似AI可人一类的纯图形化界面中&#xff0c;我们发觉这样的逆天…

嵌入式知识点总结 ARM体系与架构 专题提升(三)-中断与异常

针对于嵌入式软件杂乱的知识点总结起来&#xff0c;提供给读者学习复习对下述内容的强化。 目录 1.中断与异常有何区别? 2.中断与DMA有何区别&#xff1f; 3.中断能不能睡眠&#xff0c;为什么&#xff1f;下半部能不能睡眠&#xff1f; 4.中断的响应执行流程是什么&#…

Leetcode:541

1&#xff0c;题目 2&#xff0c;思路 用List集合来装字符串其中每k个为一个元素单位我们根据题目意思就可以明白list中偶数位需要反转reverse&#xff0c;奇数保持原样再全部拼接一块最后return tostring 3&#xff0c;代码 import java.util.ArrayList; import java.util.…

CSS 背景与边框:从基础到高级应用

CSS 背景与边框&#xff1a;从基础到高级应用 1. CSS 背景样式1.1 背景颜色示例代码&#xff1a;设置背景颜色 1.2 背景图像示例代码&#xff1a;设置背景图像 1.3 控制背景平铺行为示例代码&#xff1a;控制背景平铺 1.4 调整背景图像大小示例代码&#xff1a;调整背景图像大小…

【机器学习】自定义数据集使用框架的线性回归方法对其进行拟合

一、使用框架的线性回归方法 1. 基础原理 在自求导线性回归中&#xff0c;我们需要先自定义参数&#xff0c;并且需要通过数学公式来对w和b进行求导&#xff0c;然后在反向传播过程中通过梯度下降的方式来更新参数&#xff0c;从而降低损失值。 2. 实现步骤 ① 散点输入 有一…

DeepSeekMoE:迈向混合专家语言模型的终极专业化

一、结论写在前面 论文提出了MoE语言模型的DeepSeekMoE架构&#xff0c;目的是实现终极的专家专业化(expert specialization)。通过细粒度的专家分割和共享专家隔离&#xff0c;DeepSeekMoE相比主流的MoE架构实现了显著更高的专家专业化和性能。从较小的2B参数规模开始&#x…

【ESP32】ESP-IDF开发 | WiFi开发 | UDP用户数据报协议 + UDP客户端和服务器例程

1. 简介 UDP协议&#xff08;User Datagram Protocol&#xff09;&#xff0c;全称用户数据报协议&#xff0c;它是一种面向非连接的协议&#xff0c;面向非连接指的是在正式通信前不必与对方先建立连接&#xff0c; 不管对方状态就直接发送。至于对方是否可以接收到这些数据内…

Oracle Primavera P6自动进行进度计算

前言 在P6 Professional 有一个自动计划计算的选项&#xff0c;很多人不了解该设置如何使用&#xff0c;以及什么时候该启动这项配置。 详情 P6 Professional 默认为非自动进度计算。启用自动选项后&#xff0c;可以快速查看调度更改的效果。 ​ ​ 如图所示&#xff0c;当你…

gesp(C++六级)(6)洛谷:P10109:[GESP202312 六级] 工作沟通

gesp(C六级)&#xff08;6&#xff09;洛谷&#xff1a;P10109&#xff1a;[GESP202312 六级] 工作沟通 题目描述 某公司有 N N N 名员工&#xff0c;编号从 0 0 0 至 N − 1 N-1 N−1。其中&#xff0c;除了 0 0 0 号员工是老板&#xff0c;其余每名员工都有一个直接领导…

冯诺依曼结构和进程概念及其相关的内容的简单介绍

目录 ​编辑 冯诺依曼体系结构 操作系统(Operator System) 进程 引入 基本概念 描述进程-PCB task_ struct内容分类 进程 ID (PID)和查看进程 进程状态: 进程创建: 进程终止: 进程间通信 (IPC): 冯诺依曼体系结构 冯诺依曼体系结构是现代计算机的基础架构&#xf…

松灵机器人 scout ros2 驱动 安装

必须使用 ubuntu22 必须使用 链接的humble版本 #打开can 口 sudo modprobe gs_usbsudo ip link set can0 up type can bitrate 500000sudo ip link set can0 up type can bitrate 500000sudo apt install can-utilscandump can0mkdir -p ~/ros2_ws/srccd ~/ros2_ws/src git cl…

Excel 技巧23 - 在Excel中用切片器做出查询效果(★★★)

本文讲如何在Excel中用切片器做出查询效果。 目录 1&#xff0c;在Excel中用切片器做出查询效果 1-1&#xff0c;Excel 中的切片器是什么&#xff1f; 1-2&#xff0c;用切片器做出查询效果 1&#xff09;&#xff0c;点击任一表格内单元格&#xff0c;按下CtrlA&#xff0…

Python从0到100(八十六):神经网络-ShuffleNet通道混合轻量级网络的深入介绍

前言&#xff1a; 零基础学Python&#xff1a;Python从0到100最新最全教程。 想做这件事情很久了&#xff0c;这次我更新了自己所写过的所有博客&#xff0c;汇集成了Python从0到100&#xff0c;共一百节课&#xff0c;帮助大家一个月时间里从零基础到学习Python基础语法、Pyth…

cmd命令行无法进入D:盘怎么办

我找到了一个方法就是 增加一个/d cd /d d: 如下图,我不仅可以进入d盘符下&#xff0c;还可以访问盘符下的文件夹

万物皆有联系:驼鸟和布什

布什&#xff1f;一块布十块钱吗&#xff1f;不是&#xff0c;大家都知道&#xff0c;美国有两个总统&#xff0c;叫老布什和小布什&#xff0c;因为两个布什总统&#xff08;父子俩&#xff09;&#xff0c;大家就这么叫来着&#xff0c;目的是为了好区分。 布什总统的布什&a…

unity学习24:场景scene相关生成,加载,卸载,加载进度,异步加载场景等

目录 1 场景数量 SceneManager.sceneCount 2 直接代码生成新场景 SceneManager.CreateScene 3 场景的加载 3.1 用代码加载场景&#xff0c;仍然build setting里先加入配置 3.2 卸载场景 SceneManager.UnloadSceneAsync(); 3.3 同步加载场景 SceneManager.LoadScene 3.3.…

在线知识库创建与维护提升企业效率与知识共享能力

内容概要 在当今数字化快速发展的背景下&#xff0c;在线知识库逐渐成为企业管理信息的重要工具。其核心在于将知识进行系统化、结构化的整理和存储&#xff0c;便于员工获取和分享。这不仅提高了信息的访问效率&#xff0c;还促进了团队之间的协作。在线知识库的建立可以有效…

【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.24 随机宇宙:生成现实世界数据的艺术

1.24 随机宇宙&#xff1a;生成现实世界数据的艺术 目录 #mermaid-svg-vN1An9qZ6t4JUcGa {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-vN1An9qZ6t4JUcGa .error-icon{fill:#552222;}#mermaid-svg-vN1An9qZ6t4JUc…