【数据库】物理操作的一趟扫描算法机制原理,理解关系代数据与物理计划的关系,以及代价评估的应用和算法优化

一趟扫描算法

专栏内容

  • 手写数据库toadb
    本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。
    本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段学习。

开源贡献

  • toadb开源库

个人主页:我的主页
管理社区:开源数据库
座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.

文章目录

  • 一趟扫描算法
  • 前言
  • 概述
  • 适用场景
  • 扫描迭代器
  • 扫描算法类型
  • 扫描操作应用类型
    • 一次一个元组的操作
    • 整个表的操作
      • 去重
      • 分组
  • 总结
  • 结尾

在这里插入图片描述

前言

随着信息技术的飞速发展,数据已经渗透到各个领域,成为现代社会最重要的资产之一。在这个大数据时代,数据库理论在数据管理、存储和处理中发挥着至关重要的作用。然而,很多读者可能对数据库理论感到困惑,不知道如何选择合适的数据库,如何设计有效的数据库结构,以及如何处理和管理大量的数据。因此,本专栏旨在为读者提供一套全面、深入的数据库理论指南,帮助他们更好地理解和应用数据库技术。

数据库理论是研究如何有效地管理、存储和检索数据的学科。在现代信息化社会中,数据量呈指数级增长,如何高效地处理和管理这些数据成为一个重要的问题。同时,随着云计算、物联网、大数据等新兴技术的不断发展,数据库理论的重要性日益凸显。

因此,本专栏的分享希望可以提高大家对数据库理论的认识和理解,对于感兴趣的朋友带来帮助。

概述

在前一篇博文中,我们介绍了操作符代价评估模型,根据代价来区分,在扫描操作中,如果对表的文件从磁盘只读取一遍,就叫做一趟扫描算法;并不是所有扫描能够在读取一遍时完成。

本文主要分享一趟扫描算法原理和机制,包括扫描迭代器的实现,对于一元操作和二元操作下的流程介绍。

适用场景

表扫描的操作,操作的数据块必须加载到缓冲区中,也就是在内存中使用,针对表的大小与缓存区的大小的关系,可以大致分为以下几种情况:

  • 读取一次磁盘,操作对象可以全部存放到缓冲区中,比如投影,选择操作;
  • 操作处理结果不能全部存放在缓冲区中,这就需要将中间结果的一部分再次写入磁盘,此时就需要多趟算法,比如去重等操作;

一趟算法适用于操作对象能装入缓冲区的操作,还有操作结果也能全部装入缓冲区的操作,此外就需要两趟,甚至更多趟算法。

扫描迭代器

在从基本表中获取数据时,我们并不会将整个表全部加载到缓冲区,因为数据库往往并发很多操作,分配给每个操作的缓冲区是有限的。因此,在扫描时,我们需要使用迭代器的模式,每次从迭代器中返回一个元组,然后进行处理,直到迭代器为空为止。

迭代器实现的接口主要有三个,打开表Open(), 获取一条元组GetNext(),关闭表Close();

用代码表示扫描如下:

void Open(relation r)
{
    r.Open(mode);
    curr = r;
}

tuple GetNext()
{
    t = curr.GetNext();

    return t;
}

void Close()
{
    curr.Close();
}

在GetNext调用时,会加一个数据块到缓冲区中,然后获取这个数据块上的一个元组之后返回,并迭代器中记录读取的位置,下次继续返回一个元组,直到一个块上的元组扫描完时,再加载下一个数据块。

这样就避够加载所有的数据到内存中。

扫描算法类型

一趟扫描算法根据采用的方法不同,主要有以下三种。

  • 基于排序的扫描方法;
  • 基于hash的扫描方法;
  • 基于索引的扫描方法;

在以后的扫描中,我们主要使用这三种路径进行扫描,当然索引分类也可以有好几种。

扫描操作应用类型

在物理操作中涉及到两类扫描流程,对于选择,投影可以使用一次一个元组的处理方法,而对于分组,去重操作,需要拿到全表数据之后才能处理。

下面我们看一下具体处理流程,对应的代价估计,以及可能的优化策略。

一次一个元组的操作

每次加载一个数据块到缓冲区中,然后使用迭代器的方法,一次获取一个元组,进行选择或投影操作,将得到的结果输出。

在这个流程中,缓冲区只要大于一个数据块的大小即可,操作的磁盘IO代价与表占用的数据块B相同,或者与使用hash,索引的块数相关。

如果缓冲区更多时,可以采用类似于文件系统缓存的预读策略进行优化,一次性顺序读M个数据块,这样顺序读的耗时小于随机读的。

另外,将一个数据块上的所有元组同时获取到本地缓冲区中,可以快速释放这个块,在多事务并发中,会大大降低数据块上的竞争。

整个表的操作

对于不能一条元组一条元组处理的操作,如去重和分组,主要流程描述如下:

去重

  • 从迭代器获取元组,将第一次见到的元组输出,同时将此元组保存到缓冲区块中;
  • 获取的元组,与保存在缓冲区块上的元组重复,则将它忽略;

从流程来看,为了得到唯一的元组,我们需要保存找到的元组,占用缓冲区与之前不同的时,除了一个加载表数据块外,另外的M-1个缓冲区块需要存放找到的元组的副本,每次拿到新元组时,都要在副本集中查找一遍。

能适用于一趟算法时,符合的副本全部必须能在缓冲区中存放。

这里的代价除了磁盘IO,与表的数据块有关外,如果副本数据较大时,查找的CPU耗时也是一个很大的开销,最差时能达到N平方。
所以副本存放时,可以采用查找树或者hash表的形式,减少查找开销,当然这会占用更多的缓冲区。

分组

分组操作一般配合聚合函数使用,开始扫描时,我们需要建立一个记录每个分组信息的结构,每个分组信息一个元组。当我们从迭代器中得到元组后,根据分组列的判断是旧分区还是新分区,如果是新分区,新建分组信息元组,并计算聚合数据,比如分组的count,那么就每个分组得到找到表元组时,count加1即可。

分组信息可以在迭代器开始时就全部创建,也可以在过程中扩展;最后再根据分组信息,生成输出结果。

总结

通过一趟查询算法,我们可以体会到不同操作下查询的流程,以及操作对应的代价计算,对查询优化有进一步的了解。

结尾

非常感谢大家的支持,在浏览的同时别忘了留下您宝贵的评论,如果觉得值得鼓励,请点赞,收藏,我会更加努力!

作者邮箱:study@senllang.onaliyun.com
如有错误或者疏漏欢迎指出,互相学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/200608.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

element table滚动到底部加载数据(vue3)

效果图 使用插件el-table-infinite-scroll npm install --save el-table-infinite-scroll局部导入 <template><div class"projectTableClass"><el-table v-el-table-infinite-scroll"load"></el-table></div> </temp…

企业微信应用文本消息

应用支持推送文本、图片、视频、文件、图文等类型&#xff0c;本篇主要实现发送应用文本消息。 获取企业凭证 发送应用消息首先需要获取调用凭证access_token&#xff0c;此处的凭证为企业凭证&#xff0c;可通过企业授权安装时返回的授权信息中获取access_token&#xff1b;之…

数据科学新招:Python揭秘Prometheus接口

更多资料获取 &#x1f4da; 个人网站&#xff1a;ipengtao.com 在现代云原生应用的监控体系中&#xff0c;Prometheus无疑是一颗璀璨的明星&#xff0c;而Python则是一门多才多艺的编程语言。将它们结合&#xff0c;通过Python读取Prometheus接口数据&#xff0c;成为了实时监…

【内网安全】搭建网络拓扑,CS内网横向移动实验

文章目录 搭建网络拓扑 ☁环境CS搭建,木马生成上传一句话&#xff0c;获取WebShellCS上线reGeorg搭建代理&#xff0c;访问内网域控IIS提权信息收集横向移动 实验拓扑结构如下&#xff1a; 搭建网络拓扑 ☁ 环境 **攻击者win10地址&#xff1a;**192.168.8.3 dmz win7地址&…

【IEEE出版】2024年第四届消费电子与计算机工程国际学术会议(ICCECE 2024)

2024年第四届消费电子与计算机工程国际学术会议&#xff08;ICCECE 2024&#xff09; 2024 4th International Conference on Consumer Electronics and Computer Engineering 进入21世纪以来&#xff0c;计算机技术的高速发展带来了消费电子产品的快速更迭。在技术迅速发展历…

多模态大模型总结2(主要2023年)

LLaVA-V1&#xff08;2023/04&#xff09; 论文&#xff1a;Visual Instruction Tuning 网络结构 如下图 所示为 LLaVA-v1 的模型结构&#xff0c;可以看出其简化了很多&#xff0c;但整体来说还是由三个组件构成&#xff1a; Vision Encoder&#xff1a;和 Flamingo 模型的 V…

vsphere系列 :虚拟机配置直通GPU后,启动时出现 模块“DevicePowerOn”打开电源失败 的解决方案

vsphere中的虚拟机配置直通GPU后&#xff0c;启动时出现 模块“DevicePowerOn”打开电源失败 的解决方案 vsphere中的虚拟机配置直通GPU后&#xff0c;启动时出现 模块“DevicePowerOn”打开电源失败 的解决方案1、虚拟机配置GPU直通1、打开虚拟机选项2、点击编辑配置3、添加如…

SpringMVC—拦截器

1 拦截器概念 1.1 简介 拦截器是一种动态拦截方法调用的机制&#xff0c;在 SpringMVC 中动态拦截控制器方法的执行 【注】拦截器底层实现为AOP 作用&#xff1a; 在指定的方法调用前后执行预先设定的代码阻止原始方法的执行 1.2 拦截器和过滤器的区别 ① 归属不同&#…

单片非晶磁性测量系统非晶特性

1. 非晶特性&#xff08;与硅钢相比&#xff09; 非晶带材的厚度很薄&#xff0c;一般为0.025 mm&#xff0c;只有取向硅钢带材的1/10左右。比总损耗很低&#xff0c;P1.5 / 50的典型值约为0.2 W/kg&#xff0c;该值是取向硅钢P1.7 / 50典型值的1/5左右。具有高磁致伸缩和低的…

JavaScript基础—函数、参数、返回值、作用域、变量、匿名函数、综合案例—转换时间,逻辑中断,转换为Boolean型

版本说明 当前版本号[20231129]。 版本修改说明20231126初版20231129完善部分内容 目录 文章目录 版本说明目录JavaScript 基础 - 第4天笔记函数声明和调用声明&#xff08;定义&#xff09;调用细节补充 参数形参和实参函数默认值 返回值作用域全局作用域局部作用域 变量全…

5V摄像机镜头驱动IC GC6208,可用于摄像机,机器人等产品中可替代AN41908

GC6208是一个镜头电机驱动IC摄像机和安全摄像机。该设备集成了一个直流电机驱动器的Iris的PID控制系统&#xff0c;也有两个通道的STM电机驱动器的变焦和对焦控制。 芯片的特点: 内置用于Iris控制器的直流电机驱动器 内置2个STM驱动程序&#xff0c;用于缩放和…

在线协作神器集结!全球Top5在线白板软件一网打尽。

创意往往在一群人协作时迸发&#xff0c;而数字白板可以实现这一点。在本文中&#xff0c;你将了解为什么人们选择在线白板软件&#xff0c;如何选择合适的白板工具以及一些令人惊叹的白板工具&#xff0c;话不多说&#xff0c;一起往下看吧。 在线白板软件是什么&#xff1f;…

在Windows 10中至少有7种方法进入安全模式,但不一定是按F8键

几十年来,安全模式一直用于加载操作系统,尽管功能有所减少,目的是通过仅加载操作系统的核心组件来排除与PC相关的问题并执行诊断。避开某些系统文件的处理和设备驱动程序的加载,以及停止特定服务,提供了一个最小化的表面,使回滚可能导致系统不稳定或以其他方式阻止计算机…

好用的json处理工具He3 JSON

官网地址&#xff1a;https://he3app.com/zh/ json格式化 https://portal.he3app.com/home/extension/json-to-pretty 其他 https://portal.he3app.com/home/category

LIN总线之基础

LIN总线特点 &#xff08;1&#xff09;工作方式&#xff1a;LIN总线为单主/多从方式。 &#xff08;2&#xff09;数据传输线&#xff1a;LIN总线为单线传输。 &#xff08;3&#xff09;工作电压&#xff1a;LIN总线为12V。 &#xff08;4&#xff09;传输速率&#xff1a;…

AI视频智能分析识别技术的发展与EasyCVR智慧安防视频监控方案

随着科技的不断进步&#xff0c;基于AI神经网络的视频智能分析技术已经成为了当今社会的一个重要组成部分。这项技术通过利用计算机视觉和深度学习等技术&#xff0c;实现对视频数据的智能分析和处理&#xff0c;从而为各个领域提供了广泛的应用。今天我们就来介绍下视频智能分…

【理解ARM架构】异常处理

&#x1f431;作者&#xff1a;一只大喵咪1201 &#x1f431;专栏&#xff1a;《理解ARM架构》 &#x1f525;格言&#xff1a;你只管努力&#xff0c;剩下的交给时间&#xff01; 目录 ⚡ARM系统中异常与中断处理流程&#x1f362;向量表&#x1f362;保存现场&#x1f362;恢…

怎么在NAS里找照片?教你一招,精准定位

每次拍照 咔咔一顿拍 好多文档 咔咔一顿存 需要到的时候 却依稀只记得时间和部分关键词 那么怎么快速在NAS里精准定位 找到“命中注定”的它呢 嘿还真有 铁威马的Terra Search 精准搜索 快速定位 So easy&#xff01; 01 什么是Terra Search Terra Search 通过建立数据…

2023年双十一报告(B站平台)

2023年双11购物节自10月24日开启预售&#xff0c;持续至11月13日落下帷幕。在购物狂欢期间&#xff0c;B站以更加成熟的姿态参战今年双11。 据B站官方数据显示&#xff0c;双11期间&#xff0c;B站带货GMV同比增长251%。其中视频带货GMV同比增长376%&#xff0c;直播带货GMV同…

算法基础之食物链

食物链 核心思想&#xff1a;带权并查集 用距根节点和距离表示与根节点的关系 求距离 #include<iostream>using namespace std;const int N50010;int n,m;int p[N],d[N];//找到祖宗节点(路径压缩) 并求出对应距离int find(int x){if(p[x]!x){int up[x]; //保存旧父节点…