【数据库】数据库物理执行计划最基本操作-表扫描机制与可选路径,基于代价的评估模型以及模型参数的含义

物理执行计划基本操作符

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 物理执行计划基本操作符
  • 前言
  • 概述
  • 扫描表
    • 顺序扫描
    • 索引扫描
  • 排序扫描
  • 代价计算模型
    • 计算参数
  • 总结
  • 结尾

在这里插入图片描述

前言

随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。

数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。

因此,本专栏的分享希望可以提高大家对数据库理论的认识和理解,对于感兴趣的朋友带来帮助。

概述

数据库执行计划的最后一步,是生成物理执行计划,物理执行计划是由一系列操作节点构成。其中最基本的操作符扫描表,一般都是执行计划的叶子节点。

本文主要分享物理执行计划的最基本操作扫描表,扫描表时排序,以及它的代价计划模型和估算,希望大家得到启示,感谢各位的浏览和点赞。

扫描表

SQL执行的目的都是要从表里拿到想要的数据,一般对于扫描表的节点,都会含有一个谓词,符合谓词的数据都会被返回。

表对应的数据块,一般都会存放在内存缓冲区中,扫描表时可以一个接一个的找到。扫描表时,可以有多种方法可以选择,比如顺序扫描,索引扫描,仅索引扫描。

顺序扫描

最常见的就是顺序扫描,顾名思义,就是从表的第一个数据块开始,每个数据块从第一个元组开始扫描,直到这个块的结尾,然后继续下一个块,直到所有表的数据块扫描结束。

索引扫描

对于表上建有索引的情况,正好谓词对应字段有索引,那么可以使用索引,避免顺序遍历表的所有数据块。索引的数据也是存放在内存缓存区中,遍历索引文件的所有数据块,扫描索引数据块上的索引元组。

如果是密集索引,就可以直接找到符合谓词的元组在表中的数据块上的位置,然后直接访问对应的表数据块,从该块的offset处读取元组。

如果是稀疏索引,通过索引定位到表的某个位置,还需要继续从此位置扫描表,直到找到符合谓词的元组。

直到索引文件的所有数据块扫描结束,整个扫描就会结束。通常索引文件相比表文件来说,小非常多。

对于查询结查字段,只有索引字段时,此时只用扫描密集索引文件,就可以得到元组字段,不需要扫描表文件,这就是仅索引扫描,当然实际应用中,会有事务隔离的处理,并不是所有情况下密集索引都能使用仅索引扫描。

排序扫描

对于含有order by子句的查询来说,扫描表的结果需要以排序的方式返回,另外还有一些关系代数的运算,需要基于排序的结果,所以这就用到了排序-扫描方式。

排序扫描节点的输入是要扫描的表,和排序字段的说明,在物理执行计划中有很多方式选择。

  • 对于排序字段上含有索引,而且是索引是带有顺序,如Btree索引,或者表数据的存储是按排序字段的顺序存储的;此时只进行表扫描或索引扫描即可;

  • 对于比较小的表,查询结果全部可以装入缓冲区,那么可以用常用的排序算法进行排序即可;

  • 对于非常大的表,查询结果并不能全部装入缓冲区时,就需要使用外排,通过几趟读写的算法才能完成排序,后面分享多路归并算法;

代价计算模型

在将逻辑查询计划转换为物理查询计划时,我们需要选择执行效率比较高的物理操作符进行执行,也可以说是选择最优执行路径。当出现几种执行路径时,如顺序扫描,索引扫描,路径选择时,首先对每种操作符的执行代价进行评估,才能选出最优的路径。

这是一种基于代价的选择最优路径的模式,按什么模型来计算操作符的代价呢,下面我们一起看看。

可用的缓冲区都是有限的,数据一般都会存储在磁盘上,当使用到时会加载到缓冲区,缓冲区满时也会利用替换策略,将暂时不用的数据置换到磁盘上。

那么在查询的过程中,读写磁盘的IO次数会是代价的一个衡量值。同时磁盘的读写IO耗时远远大于内存中的操作,所以磁盘代价将占查询成本的大部分,这样就可以简化操作符的代价计算为磁盘IO次数的计算。

基于代价的计算模型就生成了,下面我们看有那些参数来计算。

计算参数

  • 缓冲区大小(M), 我们假设可用的缓冲区能容纳的数据块为M,缓冲区是远远小于物理内存大小的;
  • 表占用的数据块数量(B), 当我们扫描表时,需要一个数据块一个数块的读出,这就和表文件所占数据块的多少有关系了,假设表占用了B个数据块,那么最多也就会产生B次IO;
  • 表的元组数量(T), 表中所有元组的数量T/B,就得到了每个数据块上的平均元组数量,最差情况是元组数量与块数相同;
  • 查询列对应的值数量,假如查询列为货物类型,那么它对应的就是有限类型;最差情况是与元组数量相等;

以上参数值的不同,都会影响我们查询处理时,磁盘IO的数目,后面会继续分享在扫描算法中的应用。

总结

物理执行计划的最基本节点就是扫描表,实际扫描表中有多种方式可以选择,通过代价计算模型可以选择最优路径最终执行。

有菜也有肉的分享,下面插一段hello world的代码;
以下是一个简单的 “Hello world”,在初始化函数中输出,在main之前会被调用:

#include <stdio.h>  
  
__attribute((constructor))  void premain() {  
    printf("Hello, World!\n");  
}  
  
int main() {  
    return 0;  
}

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/187423.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

十大排序算法中的插入排序和希尔排序

文章目录 &#x1f412;个人主页&#x1f3c5;算法思维框架&#x1f4d6;前言&#xff1a; &#x1f380;插入排序 时间复杂度O(n^2)&#x1f387;1. 算法步骤思想&#x1f387;2.动画实现&#x1f387; 3.代码实现 &#x1f380;希尔排序 时间复杂度O(n*logn~n^2)希尔排序的设…

sql查询优化实际案例

1、第一步&#xff1a;sql优化 正对于海量数据的查询优化&#xff0c;且外键关联比较多的情况&#xff0c;通常情况是下sql层面的优化&#xff0c;有些时候是由于sql不合理的编写导致&#xff0c;如尽量少使用sql内查询等 如&#xff1a;避免使用 left join (select * form …

如何打造垂直LLM的护城河

B2B人工智能初创企业的一个伟大策略是打造“垂直人工智能”产品&#xff1a;成为特定行业的人工智能助手&#xff0c;比如律师、金融服务、医生。 听起来很简单&#xff1a;你可以利用LLM的超能力&#xff0c;并将其应用于宠物行业的特定数据和用例。 这就是我们在Explain所做的…

量子计算的发展

目录 一、量子力学的发展历程二、量子计算的发展历程三、量子计算机的发展历程四、量子信息科学的发展 一、量子力学的发展历程 量子力学是现代物理学的一个基本分支&#xff0c;它的发展始于20世纪初。以下是量子力学发展的几个重要阶段&#xff1a; 普朗克&#xff08;1900&…

基于JavaWeb+SpringBoot+Vue医院管理系统小程序的设计和实现

基于JavaWebSpringBootVue医院管理系统小程序的设计和实现 源码获取入口Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏[Java 源码获取 源码获取入口 Lun文目录 目录 1系统概述 1 1.1 研究背景 1 1.2研究目的 1 1.3系统设计思想 1 2相关技术 2 2.1微信小程序 2 2.2 …

「Java开发中文指南」IntelliJ IDEA插件安装(一)

IntelliJ IDEA是java编程语言开发的集成环境。IntelliJ在业界被公认为最好的Java开发工具&#xff0c;尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能是非常强大的。 插件扩展了Intel…

MYSQL基础知识之【创建,删除,选择数据库】

文章目录 前言MySQL 创建数据库使用 mysqladmin 创建数据库使用 PHP脚本 创建数据库 MySQL 删除数据库使用 mysqladmin 删除数据库使用PHP脚本删除数据库 MySQL 选择数据库从命令提示窗口中选择MySQL数据库使用PHP脚本选择MySQL数据库 后言 前言 hello world欢迎来到前端的新世…

网络层(IP协议)

文章目录 网络层IP协议IP协议报头32位源IP地址和目的IP地址:为了解决IP地址不够用的情况 IP地址管理子网掩码特殊IP 路由选择(简介) 网络层 网络层主要负责地址管理和路由选择.代表协议就是IP协议. IP协议 IP协议报头 4位版本: 4: 表示IPv4 ; 6: 表示IPv6 4位首部长度: 描述…

格式化输入输出

跟着肯哥&#xff08;不是我&#xff09;学格式化输入输出 C语言格式化输入 在C语言中&#xff0c;格式化输入&#xff08;Formatted Input&#xff09;是一种从标准输入读取数据并按照指定格式进行解析的操作&#xff0c;它主要通过使用标准库函数scanf()来实现格式化输入。 …

YOLOv8改进 | 2023 | FocusedLinearAttention实现有效涨点

论文地址&#xff1a;官方论文地址 代码地址&#xff1a;官方代码地址 一、本文介绍 本文给大家带来的改进机制是Focused Linear Attention&#xff08;聚焦线性注意力&#xff09;是一种用于视觉Transformer模型的注意力机制(但是其也可以用在我们的YOLO系列当中从而提高检测…

小程序项目:springboot+vue基本微信小程序的学生健康管理系统

项目介绍 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时…

基于协作搜索算法优化概率神经网络PNN的分类预测 - 附代码

基于协作搜索算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于协作搜索算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于协作搜索优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要&#xff1a;针对PNN神…

“升级图片质量:批量提高或缩小像素,赋予图片全新生命力!“

如果你想让你的图片更加清晰、更加美观&#xff0c;或者符合特定的像素要求&#xff0c;那么现在有一个好消息要告诉你&#xff01;我们推出了一款全新的图片处理工具&#xff0c;可以帮助你批量提高或缩小图片像素&#xff0c;让你的图片焕发出新的生机&#xff01; 第一步&a…

基于人工蜂鸟算法优化概率神经网络PNN的分类预测 - 附代码

基于人工蜂鸟算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于人工蜂鸟算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于人工蜂鸟优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要&#xff1a;针对PNN神…

我的崩溃。。想鼠??!

身为程序员哪一个瞬间让你最奔溃&#xff1f; 某天一个下午崩溃产生。。。 一个让我最奔溃的瞬间是关于一个看似无害的拼写错误。我当时正在为一个电子商务网站添加支付功能&#xff0c;使用了一个第三方支付库。所有的配置看起来都正确&#xff0c;代码也没有报错&#xff0c;…

zookeeper 单机伪集群搭建简单记录

1、官方下载加压后&#xff0c;根目录下新建data和log目录&#xff0c;然后分别拷贝两份&#xff0c;分别放到D盘&#xff0c;E盘&#xff0c;F盘 2、data目录下面新建myid文件&#xff0c;文件内容分别为1&#xff0c;2&#xff0c;3.注意文件没有后缀&#xff0c;不能是txt文…

数据结构—小堆的实现

前言&#xff1a;前面我们已经学习了二叉树&#xff0c;今天我们来学习堆&#xff0c;堆也是一个二叉树&#xff0c;堆有大堆有小堆&#xff0c;大堆父节点大于子节点&#xff0c;小堆父节点总小于子节点&#xff0c;我们在学习C语言的时候也有一个堆的概念&#xff0c;那个堆是…

栈和队列OJ题目——C语言

目录 LeetCode 20、有效的括号 题目描述&#xff1a; 思路解析&#xff1a; 解题代码&#xff1a; 通过代码&#xff1a; LeetCode 225、用队列实现栈 题目描述&#xff1a; 思路解析&#xff1a; 解题代码&#xff1a; 通过代码&#xff1a; LeetCode 232、用栈…

C/C++ 运用Npcap发送UDP数据包

Npcap 是一个功能强大的开源网络抓包库&#xff0c;它是 WinPcap 的一个分支&#xff0c;并提供了一些增强和改进。特别适用于在 Windows 环境下进行网络流量捕获和分析。除了支持通常的网络抓包功能外&#xff0c;Npcap 还提供了对数据包的拼合与构造&#xff0c;使其成为实现…

HarmonyOS简述及开发环境搭建

一、HarmonyOS简介 1、介绍 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。有三大系统特性&#xff0c;分别是&#xff1a;硬件互助&#xff0c;资源共享&#xff1b;一次开发&#xff0c;多端部署&#xff1b;统一OS&#xff0c;弹性部署。 HarmonyOS通过硬件互…