【数据库】基于索引的扫描算法,不同类型索引下的选择与连接操作,不同的代价及优化

基于索引的算法

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 基于索引的算法
  • 前言
  • 概述
  • 索引类型
  • 使用索引的选择
    • 索引选择代价
    • 索引扫描对几种常见选择操作的优化
  • 使用索引的连接
  • 有序索引的连接
  • 总结
  • 结尾

在这里插入图片描述

前言

随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。

数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。

概述

在一张表的一个或多个列属性上带有索引,使得一些没有索引时,不可行的算法,在使用索引后就可行了。

对基于索引的选择操作,尤其有作用,连接和其它二元操作也使用索引可以获得较好的效率。

本文将分享带有索引的表中进行索引扫描操作时的流程,代价的分析。

索引类型

我们先来看一下聚簇索引和非聚簇索引,因为它们两者在索引扫描下的代价差异是非常大的。

如果一个表的元组紧缩到能存储它们的尽可能少的数据块中,那么这个表是“聚簇”的,之前分享的几种算法的代价估计,都是基于这种假设的。
一个或多个属性上的聚簇索引,具有索引查询关键的所有元组都出现在能容纳它们的尽可能少的数据块中;

而一个非聚簇关系,是不能够有一个聚簇索引的,相反是可以的。

使用索引的选择

对于表扫描的最基本操作就是选择,我们通过读取表的所有元组,来执行一个选择,看那个元组能满足某一条件,并且返回结果元组。

如果表R上没有索引,那么我们只能遍历表的所有数据块,扫描每个数据块上的所有元组,代价就是数据块数据的IO次数,最差情况是数据块的数量同元组数量相等。

而当表上选择对应的列上建有索引时,我们可能通过索引找到元组所在的数据块,如果表对应的元组分类的数量为V,表的数据块总数为B,那么对应的磁盘IO计算方法为 B/V;

索引选择代价

假如每个查询关键字都是不一样的,那么V的数量可以认为是表的元组数量,它比表的数据块数量大的多,此时的代价磁盘IO数量近似为1,当然还会有一些额外的磁盘IO发生,原因如下:

  • 索引一般也要从磁盘上来读取,它也需要一些磁盘IO;
  • 当对应元组的块加载到内存中,符合条件的其它元组不在同一个块中,所以还会再额外读取块;
  • 尽管是聚簇的,但也不可能完全填满数据块,因为数据库在运行过程中要留有一定空间方便以后插入元组;所以数据块的数量比完全填满 要大一些;

索引扫描对几种常见选择操作的优化

  • 对于范围的选择,可以通过索引找到范围内的所有元组,一次取回所有元组,达到顺序读取的效果。

  • 对于多条件复杂选择,可以将多个逻辑查询是做串联,第一个通过索引查询,第二个在此基础上再选择,当然还有其它查询优化方法,将在后续文章中介绍。

使用索引的连接

当两个表R(X,Y)与表S(Y,Z)进行自然连接时,同时连接属性列上都建有索引。索引对于连接操作的变动如下:

  1. 读取表R对应的Y的索引块,并依次获取索引项RY;
  2. 从头开始读取表S对应的Y的索引块,查找RY是否存在;
  3. 如果不存在,继续重复步骤1;
  4. 如果存在,执行表R和表S对应元组的连接;
  5. 直到表S的索引块结束,继续重复步骤1;

最后表R的索引块处理完毕;整个过程类似与之前的介绍的连接步骤,区别是这里不再读取表的数据块,而索引往往相对数据来说,非常小。

假设表S中Y属性列的值分类数量为V(S),S表的元组数量为T(S),那么对于S表的IO次数为T(S)/V(S);而表R的元组数量为T®,那么对应的索引连接操作的代价为 T®T(S)/V(S),这时S表的代价占比较大。

如果外层R表较小时,整体代价下降较大。

有序索引的连接

对于连接属性上含有索引,而且它是一个有序的索引,如BTree索引,类似之前分享的基于排序的连接,而且使用一趟算法即可完成。

对于R上的索引,在S的索引中查找,如果不存在,此时不需要访问各自的表数据块;对于找到的索引项,取R的元组与S的相同元组进行连接;因为索引是有序的,按照S的索引顺次往下遍历,也可以一次性拿出S符合的索引项,再依次找到对应数据元组。

总结

当表上有索引时,可以利用索引减少加载大量表数据块的磁盘IO成本,但是当数据表比较小时,优化效果不明显,当数据表非常大时,索引的使用对于磁盘IO减少是非常大的。

解释器模式是一种行为型设计模式,用于构建解释器系统,如编译器或解释器等。在这种模式中,我们定义了一个抽象语法树(AST),并使用解释器来遍历AST并解释执行。

下面是一个简单的解释器模式实现,使用C语言编写,可以解释并输出"Hello World":

#include <stdio.h>
#include <stdlib.h>

// 抽象语法树节点结构体定义
typedef struct Node {
    char *name; // 节点名称
    struct Node *children[10]; // 子节点数组
    int num_children; // 子节点数量
} Node;

// 创建节点函数
Node *create_node(char *name) {
    Node *node = (Node *)malloc(sizeof(Node));
    node->name = name;
    node->num_children = 0;
    return node;
}

// 添加子节点函数
void add_child(Node *parent, Node *child) {
    parent->num_children++;
    parent->children[parent->num_children - 1] = child;
}

// 解释器函数,遍历AST并输出"Hello World"
void interpreter(Node *root) {
    if (root == NULL) {
        return;
    }
    if (strcmp(root->name, "print") == 0) {
        printf("Hello World\n");
        return;
    }
    for (int i = 0; i < root->num_children; i++) {
        interpreter(root->children[i]);
    }
}

int main() {
    // 构建AST,根节点为"print",子节点为空
    Node *root = create_node("print");
    interpreter(root); // 遍历AST并输出"Hello World"
    return 0;
}

在上述代码中,我们定义了一个抽象语法树节点结构体Node,包含节点名称、子节点数组和子节点数量。然后,我们创建了create_nodeadd_child函数,用于构建AST。在interpreter函数中,我们遍历AST并判断根节点的名称是否为"print",如果是,则输出"Hello World"。如果是其他节点,则递归遍历其子节点。最后,在main函数中,我们构建了一个AST,根节点为"print",子节点为空,并调用interpreter函数来遍历AST并输出"Hello World"。

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/200847.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

乱序学机器学习——主成分分析法PCA

文章目录 概览PCA核心思想和原理PCA求解算法PCA算法代码实现降维任务代码实现PCA在数据降噪中的应用PCA在人脸识别中的应用主成分分析优缺点和适用条件优点缺点适用条件 概览 PCA核心思想和原理 PCA求解算法 特征向量表示分布的方向&#xff0c;特征值表示沿着个方向分布的程度…

微信异性发送“我想你了”,不要不相信

微信是一个很好的沟通工具。当你心情不佳时&#xff0c;总会想找个人倾心交谈&#xff0c;盼望对方能给你一丝安慰&#xff0c;或是通过对话来释放内心的烦躁。 找到一个值得信赖的倾诉对象并不容易&#xff0c;因为这需要对方的信任和认可。当对方找到你倾诉时&#xff0c;说明…

python监测GPU使用

参考&#xff1a; https://stackoverflow.com/questions/67707828/how-to-get-every-seconds-gpu-usage-in-python 自己测试 import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim import numpy as np import matplotlib.pyplot…

Libavutil详解:理论与实战

文章目录 前言一、Libavutil 简介二、AVLog 测试1、示例源码2、运行结果 三、AVDictionary 测试1、示例源码2、运行结果 四、ParseUtil 测试1、示例源码2、运行结果 前言 libavutil 是一个实用库&#xff0c;用于辅助多媒体编程&#xff0c;本文记录 libavutil 库学习及 demo 例…

【编写UI自动化测试集】Appium+Python+Unittest+HTMLRunner​

简介 获取AppPackage和AppActivity 定位UI控件的工具 脚本结构 PageObject分层管理 HTMLTestRunner生成测试报告 启动appium server服务 以python文件模式执行脚本生成测试报告 下载与安装 下载需要自动化测试的App并安装到手机 获取AppPackage和AppActivity 方法一 有源码…

探索低代码之路——JNPF

目录 一、低代码行业现状 二、产品分析 1.可视化应用开发 2.流程管理 3.整个平台源码合作 三、架构和技术 技术栈 四、规划和展望 低代码平台&#xff08;Low-code Development Platform&#xff09;是一种让开发者通过拖拽和配置&#xff0c;而非传统的手动编写大量代…

NTT 的各类优化:Harvey、PtNTT,Intel AVX2、ARM Neon、GPGPU

参考文献&#xff1a; [Har14] Harvey D. Faster arithmetic for number-theoretic transforms[J]. Journal of Symbolic Computation, 2014, 60: 113-119.[Sei18] Seiler G. Faster AVX2 optimized NTT multiplication for Ring-LWE lattice cryptography[J]. Cryptology ePr…

供应链 | “利刃出鞘”——顶刊POMS论文解读:制造商借助电子商务部门入侵

论文解读者&#xff1a;肖善&#xff0c;温梓曦&#xff0c;张怡雯&#xff0c;杨子豪 编者按&#xff1a; 解密品牌商在线电商平台&#xff1a;组织结构、策略选择、三方共赢 Manufacturer encroachment with an e‐commerce division 原文作者信息 Shi, S., Wang, C., Ch…

微信发红包,有哪些测试点

1、功能 1.在红包钱数&#xff0c;和红包个数的输入框中只能输入数字 2.红包里最多和最少可以输入的钱数 200 0.01 3.拼手气红包最多可以发多少个红包 100 3.1超过最大拼手气红包的个数是否有提醒 4.当红包钱数超过最大范围是不是有对应的提示 5.当发送的红包个数超过…

springboot开发更换Java版本要检查的所有地方

尤其是装了多个Java版本的小伙伴注意啦&#xff01; 首先就是要检查自己的环境变量&#xff0c;把环境变量设置好&#xff0c;然后出来打开cmd输入java -version查看是否更换成功 把系统的Java版本更换好以后&#xff0c;紧接着检查一下的idea&#xff0c;maven的所有和Java有…

4G工业路由器智慧楼宇门禁无人值守、实时监控

门禁是我们日常生活中常见的基础设施&#xff0c;就像是现代社会智慧城市中的“门神”&#xff0c;在楼宇管理领域中普遍采用的安防卫士。4G工业路由器的物联网应用则为楼宇门禁管理带来了更加便捷和高效的解决方案。 在传统的楼宇门禁系统中&#xff0c;人员需要手动刷卡、输…

JavaScript包装类型

前端面试大全JavaScript包装类型 &#x1f31f;经典真题 &#x1f31f;包装类型 &#x1f31f;真题解答 &#x1f31f;总结 &#x1f31f;经典真题 是否了解 JavaScript 中的包装类型&#xff1f; &#x1f31f;包装类型 在 ES 中&#xff0c;数据的分类分为基本数据类型…

YOLOv5改进之ShuffleNetV2

目录 一、原理 网络结构 二、代码 三、应用到YOLOv5 一、原理

3DMAX二维图片对象摆放插件安装使用方法

3DMAX二维图片对象摆放插件使用教程 3DMAX二维图片对象摆放插件自动对齐相机&#xff0c;可以有效地自动将简单的2D PNG图像添加到3dMax场景中。使用3DMAX二维图片对象摆放插件&#xff0c;你可以使用一次渲染来渲染具有正确阴影的快速预览和最终图像&#xff0c;而无需稍后合成…

对话式数据需求激增,景联文科技提供高质量多轮对话数据定制采集标注服务

大模型的快速发展使得数据服务需求激增&#xff0c;产品整体处于供不应求状态。对话式数据集成为当下需求热点&#xff0c;人们对于更复杂、更真实的多轮对话数据需求不断增加&#xff0c;定制化服务占据市场需求主流。 通过对多轮对话数据的训练&#xff0c;模型可以更好地理解…

Golang数据类型(字符串)

字符串重要概念 根据Go语言官方的定义&#xff1a; In Go, a string is in effect a read-only slice of bytes. 意思是Go中的字符串是一组只读的字节切片&#xff08;slice of bytes&#xff09;&#xff0c;每个字符串都使用一个或多个字节表示&#xff08;当字符为 ASCII 码…

【存储】blotdb的原理及实现(2)

【存储】etcd的存储是如何实现的(3)-blotdb 在etcd系列中&#xff0c;我们对作为etcd底层kv存储的boltdb进行了比较全面的介绍。但是还有两个点没有涉及。 第一点是boltdb如何和磁盘文件交互。 持久化存储和我们一般业务应用程序的最大区别就是其强依赖磁盘文件。一方面文件数…

【Java】NIO概述

本文主要介绍Java的IO。 这里主要按类的操作方式和操作对象对JavaIO进行分类&#xff0c;方便理解&#xff0c;后续使用时可以方便地查询。 一、操作方式分类 首先介绍几组概念&#xff1a; 字节流和字符流&#xff1a; 字节流&#xff1a;以字节为单位&#xff0c;每次次读…

【element-plus使用】el-select自定义样式、下拉框选项过长等问题解决

1、自定义样式 <template><el-select v-model"value" style"width: 150px"><el-option label"选项一" value"option1"></el-option><el-option label"选项二" value"option2"><…

Condition 源码解析

Condition 源码解析 文章目录 Condition 源码解析一、Condition二、Condition 源码解读2.1. lock.newCondition() 获取 Condition 对象2.2. condition.await() 阻塞过程2.3. condition.signal() 唤醒过程2.4. condition.await() 被唤醒后 三、总结 一、Condition 在并发情况下…