深入探索MySQL:成本模型解析与查询性能优化

码到三十五 : 个人主页



在数据库管理系统中,查询优化器是一个至关重要的组件,它负责将用户提交的SQL查询转换为高效的执行计划。在MySQL中,查询优化器使用了一个称为“成本模型”的机制来评估不同执行计划的优劣,并选择其中成本最低的那个。本文将深入探讨MySQL的成本模型,以及如何利用这一知识来优化查询性能。

目录

    • 一、成本模型简介
    • 二、优化器如何工作
    • 三、如何利用成本模型优化查询
    • 四、成本值的存储和配置
      • 常用的成本条目
    • 五、全表扫码成本计算
      • 成本计算步骤
      • 优化器决策
      • 实际考虑因素
    • 结语

一、成本模型简介

成本模型是查询优化器用来估算查询执行成本的一组规则和算法。对于给定的查询,优化器会考虑多种可能的执行计划,并使用成本模型来预测每种计划的执行效率。执行成本通常是一个抽象的数值,它综合了CPU时间、I/O操作、内存使用等多个因素。

在MySQL中,成本模型主要基于以下几个方面的考量:

  1. 数据表的统计信息:包括表的行数、列的基数(不同值的数量)、索引的唯一性等。这些信息对于评估查询的过滤效果和索引的选择性至关重要。

  2. 索引的使用:索引可以显著提高查询性能,但并非所有情况下都是最优选择。成本模型会评估使用索引带来的I/O减少与索引维护成本之间的权衡。

  3. 连接操作:对于涉及多个表的查询,成本模型会考虑不同连接策略(如嵌套循环连接、哈希连接等)的成本。

  4. 排序和分组操作:这些操作通常需要额外的CPU和内存资源。成本模型会估算不同排序和分组策略的成本,并选择最优方案。

在这里插入图片描述

二、优化器如何工作

MySQL的查询优化器在执行查询之前会经历以下几个步骤:

  1. 解析查询:将SQL文本转换为抽象语法树(AST)。

  2. 预处理:检查查询的语义正确性,进行常量折叠等优化。

  3. 查询重写:根据规则和启发式方法修改原始查询,以简化结构或提高性能。

  4. 生成执行计划:考虑所有可能的执行路径,并使用成本模型评估每种路径的成本。

  5. 选择最优执行计划:根据成本模型的估算结果,选择成本最低的执行计划。

  6. 执行查询:按照选定的执行计划执行查询并返回结果。

三、如何利用成本模型优化查询

了解MySQL的成本模型对于数据库管理员和开发来说是非常有价值的。下面的一些实践建议可以帮助你利用成本模型来优化查询性能:

  1. 保持统计信息更新:定期运行ANALYZE TABLE命令来更新表的统计信息,确保优化器有准确的数据来评估查询成本。

  2. 合理设计索引:根据查询模式和数据分布来设计索引,避免过度索引导致的性能下降。使用EXPLAIN命令来检查查询是否使用了合适的索引。

  3. 优化查询语句:简化复杂的SQL查询,避免不必要的连接、子查询和计算。使用索引覆盖扫描(Covering Index)来减少数据查找的开销。

  4. 调整配置参数:某些MySQL配置参数会影响成本模型的计算方式。例如,optimizer_search_depth参数可以控制优化器搜索执行计划的深度。根据你的硬件环境和查询负载来调整这些参数。

  5. 监控和分析:使用性能监控工具(如Percona Monitoring and Management, PMM)来跟踪查询的性能指标,并找出性能瓶颈。结合EXPLAIN命令的输出和慢查询日志来分析问题查询的执行计划。

在这里插入图片描述

四、成本值的存储和配置

MySQL在server_costengine_cost这两个系统表中存储了默认的成本值。这些表位于MySQL的系统数据库中(通常是mysql数据库)。服务器在启动时会读取这些成本值到内存中,以便在运行时使用。如果需要,管理员可以通过执行特定的命令(如FLUSH OPTIMIZER_COSTS)来重新从磁盘加载成本表。

重要的是这些成本值是特定于服务器的,并且不会复制到副本或备用服务器。这意味着每台服务器的成本模型可能会根据其硬件配置、工作负载和性能调优策略而有所不同。

常用的成本条目

  • row_evaluate_cost(默认值通常为0.2):这个成本值代表处理一行数据时的CPU成本。随着查询需要处理的行数增加,这个成本也会相应增加。计算公式是:CPU成本 = 行数 * row_evaluate_cost。

  • io_block_read_costmemory_block_read_cost(默认值通常为1.0):这两个成本值分别代表从磁盘和内存中读取一个数据块(通常是一个数据页,大小约为16KB)的成本。IO成本的计算公式是:IO成本 = (总数据大小(以字节为单位)/ 1024) * io_block_read_cost 或 memory_block_read_cost。

  • disk_iotask_cost(磁盘I/O任务成本):这个值表示执行一次磁盘I/O操作的成本。由于磁盘I/O操作通常比内存操作要慢得多,因此这个成本值相对较高。优化器在考虑是否使用索引或进行全表扫描时会考虑这个成本。

  • key_compare_cost(键比较成本):当MySQL使用索引来过滤数据时,需要对索引键进行比较。这个成本条目表示进行一次键比较的成本。这个值通常较低,因为键比较操作相对较快。

  • memory_temptable_create_cost(内存临时表创建成本):在某些查询中,MySQL可能需要创建临时表来存储中间结果。这个成本条目表示在内存中创建一个临时表的成本。如果内存不足,MySQL可能会选择使用磁盘来存储临时表,这会增加I/O成本。

  • memory_temptable_batch_row_cost(内存临时表批量行成本):当向内存临时表中插入多行数据时,这个成本条目表示每插入一批数据的成本。这个值通常较低,因为批量插入比单独插入每一行要高效。

  • disk_temptable_create_cost(磁盘临时表创建成本):如果MySQL选择在磁盘上创建临时表,这个成本条目表示创建磁盘临时表的成本。这个值通常比内存临时表创建成本要高,因为磁盘操作更慢。

  • disk_temptable_batch_row_cost(磁盘临时表批量行成本):类似于内存临时表批量行成本,但这个成本条目是针对磁盘临时表的。它表示向磁盘临时表中批量插入数据的成本。

  • sort_merge_passes(排序合并传递成本):在进行排序操作时,如果数据量很大且内存不足,MySQL可能需要使用归并排序算法。这个成本条目表示进行一次归并传递的成本。归并排序涉及多次合并传递,因此这个成本在评估排序操作的总体成本时很重要。

要获取特定MySQL实例中这些成本条目的实际值,可以查询mysql系统数据库中的server_cost和engine_cost表:

SELECT * FROM mysql.server_cost;  
SELECT * FROM mysql.engine_cost;

在这里插入图片描述

要查看特定表的信息,包括其数据大小(Data_length字段),可以执行以下SQL查询:

SHOW TABLE STATUS LIKE 'your_table_name';

在这个查询结果中,Data_length字段表示表的数据部分占用的字节数。这个值可以用来计算读取整个表数据的IO成本。

在这里插入图片描述

五、全表扫码成本计算

MySQL 优化器会考虑那些因素来决定是否执行全表扫描,以及如何计算其成本的呢,下面我们来基于成本原理计算一下:

我们有一个 employees 表,其中包含员工信息,如 ID、姓名、部门和薪水等。该表具有以下特点:

  • 表大小:约 1GB(这取决于每行数据的大小和总行数)
  • 总行数:5,000,000 行
  • 每行数据大小:约 200 字节(包括所有字段)
  • 数据页大小:16KB(InnoDB 默认页大小)
  • 存储引擎:InnoDB
  • 无有效索引:对于我们要执行的特定查询,没有可以利用的索引

成本计算步骤

  1. 确定数据页数量

    • 首先,计算表占用的数据页数量。由于每行数据约 200 字节,每个数据页 16KB,每个数据页可以容纳大约 80 行数据(16,384 字节 / 200 字节 = 81.92,取整为 80)。
    • 因此,整个表占用的数据页数量为 5,000,000 行 / 80 行/页 = 62,500 页。
  2. I/O 成本计算

    • 假设每次从磁盘读取一个数据页的成本是 1.0(这个值可能因硬件性能而异)。
    • I/O 成本 = 数据页数量 × 每次读取成本 = 62,500 页 × 1.0 = 62,500。
  3. CPU 成本计算

    • CPU 成本通常与需要处理的行数成正比。假设每行数据处理的 CPU 成本是 0.2(这个值也是假设的,实际值可能不同)。
    • CPU 成本 = 总行数 × 每行处理成本 = 5,000,000 行 × 0.2 = 1,000,000。
  4. 总成本计算

    • 总成本 = I/O 成本 + CPU 成本 = 62,500 + 1,000,000 = 1,062,500。

这个总成本是一个估算值,用于与优化器考虑的其他查询执行计划(如使用索引)进行比较。请注意,这里的成本是一个相对值,用于比较不同执行计划的优劣,而不是一个绝对值或货币成本。

优化器决策

基于上述成本计算,如果优化器发现使用索引的成本低于全表扫描的成本,它会选择使用索引。否则,如果没有合适的索引或全表扫描被认为更高效(例如,在需要检索表中大部分行的情况下),优化器将选择全表扫描。

实际考虑因素

在实际应用中,全表扫描的成本会受到多种因素的影响:

  • 缓存中的数据:如果表的部分或全部数据已经缓存在内存中(如 InnoDB 的缓冲池),则实际的 I/O 成本可能会降低。
  • 系统负载:高并发环境下的系统负载可能会影响 CPU 和 I/O 的性能。
  • 表的结构和存储格式:表的列数、数据类型和存储格式(如压缩)都会影响数据的存储和检索效率。
  • 硬件和配置:服务器的硬件配置(如 CPU 速度、内存大小、存储性能)和 MySQL 的配置设置(如缓冲区大小、I/O 相关参数)也会对全表扫描的成本产生显著影响。

结语

MySQL的成本模型是查询优化器的核心组件之一,它对于生成高效的执行计划至关重要。通过深入了解成本模型的工作原理,并结合实际的查询优化实践,可以显著提高数据库的性能和响应速度。



听说...关注下面公众号的人都变牛了,纯技术,纯干货 !

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/575084.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一般神经网络的微分与网络参数的初始化

(文章的主要内容来自电科的顾亦奇老师的 Mathematical Foundation of Deep Learning, 有部分个人理解) 一般深度神经网络的微分 上周讨论的前向和反向传播算法可以推广到任意深度神经网络的微分。 对于一般的网络来说,可能无法逐层分割,但仍然可以用流…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(三)

课程地址: 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程,一套精通鸿蒙应用开发 (本篇笔记对应课程第 4 - 6节) P5《04.快速入门》 本节来实现一个 HelloWorld 效果: 1、打开编辑器,选择新建项目&…

洁盟超声波清洗机怎么样?希亦好用还是洁盟?超声波清洗机推荐

是不是还有很多朋友在选超声波清洗机方面还是觉得是越贵的就越好用!或者说是不是还有很多小伙伴是不知道怎么选超声波清洗机?盲目跟风选超声波清洗机后才会知道真的很容易话冤枉钱,也并不是越贵的超声波清洗机就是越好的,在选超声…

Pandas 模块-操纵数据(11)-二元运算--超级add、sub、mul、div、mod、pow等等

目录 1. DataFrame.add 1.1 DataFrame.add 语法结构 1.2 DataFrame.add 参数说明 1.3 DataFrame.add 用法示例 1.3.1 正常的使用 1.3.2 需要注意类型相符合 2. DataFrame.sub 2.1 DataFrame.sub 语法结构 2.2 DataFrame.sub 参数说明 2.3 DataFrame.sub 用法示例 3.…

MySQL中什么情况下会出现索引失效?如何排查索引失效?

目录 1-引言:什么是MySQL的索引失效?(What、Why)1-1 索引失效定义1-2 为什么排查索引失效 2- 索引失效的原因及排查(How)2-1 索引失效的情况① 索引列参与计算② 对索引列进行函数操作③ 查询中使用了 OR 两边有范围查询 > 或 …

2.7设计模式——Proxy 代理模式(结构型)

意图 为其它对象提供一种代理以控制这个对象的访问。 结构 Proxy保存一个引用使得代理可以访问实体;提供一个与Subject的接口相同的接口,使代理可以用来替代实体;控制实体的存取,并可能负责创建和删除它;其他功能依赖…

项目分享|基于ELF 1开发板的MQTT远程温湿度监测系统

今天非常荣幸向各位小伙伴详细展示一个由共创社成员完成的MQTT远程温湿度监控系统项目。该项目借助ELF 1开发板作为核心技术支撑,成功实现了对各类环境空间中温湿度数据的实时、远程、稳定监测。该系统不仅集成了先进的数据采集模块,用于精确感知现场环境…

uniapp问题归类

最近使用uniapp中,遇到了一些问题,这边mark下。 1. 启动页变形 设置启动页的时候发现在部分android手机上启动页被拉伸了,最后看了下官方建议使用9.png图 生成9.png地址,推荐图片大小为1080x2340 uniapp推荐官方地址传送门 我…

JAVA实现easyExcel动态生成excel

添加pom依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>2.2.6</version> </dependency><!--工具类--> <dependency><groupId>cn.hutool</groupId><…

在Mac M1笔记本上跑大语言模型llama3的4个步骤?(install、pull、run、ask)

要点 Ollama一个功能强大的本地大语言模型LLM运行工具&#xff0c;支持很多模型&#xff0c;并且操作极其简单快速回忆步骤&#xff1a; 下载ollama工具&#xff1a;https://ollama.com/download 下载模型&#xff1a;ollama pull llama3 #根据libs列表直接指定名字 运行模型…

安卓studio插件开发(一)本地搭建工程

下载idea 社区版本 建立IDE Plugin工程 点击create就行&#xff0c;新建立的工程长这样 比较重要的文件 build.gradle&#xff1a;配置工程的参数 plugin.xml&#xff1a;设置插件的Action位置 build.gradle.kts内容如下&#xff1a; plugins {id("java")id(&quo…

常用的时间序列分析方法总结和代码示例

时间序列是最流行的数据类型之一。视频&#xff0c;图像&#xff0c;像素&#xff0c;信号&#xff0c;任何有时间成分的东西都可以转化为时间序列。 在本文中将在分析时间序列时使用的常见的处理方法。这些方法可以帮助你获得有关数据本身的见解&#xff0c;为建模做好准备并…

网站建设价格多少合理

网站建设价格多少合理&#xff0c;是很多企业和个人在寻找网站建设服务时&#xff0c;最为关心的问题之一。在选择好的网站建设服务商前&#xff0c;了解合理的网站建设价格&#xff0c;对于选择合适的网站建设服务商具有重要的参考作用。下面我们就来讨论一下&#xff0c;网站…

vue+element 树形结构 改成懒加载模式(原理element有),这里只做个人理解笔记

1 找到属性标签添加 lazy 和 :load"loadNode" 这两个属性 2 引入树形接口,并和后端约定好传值,(拿我的举例 第一次获取全部父级默认第一次传参数:{ parentId : 0},可获取全部父级 第二次通过点击的子级把子级id传进去,这一步就用到了:load"loadNode&quo…

区块链技术与应用学习笔记(10-11节)——北大肖臻课程

目录 10.分岔 ①什么是分叉&#xff1f; ②导致分叉的原因&#xff1f; ③在比特币新共识规则发布会会导致什么分叉&#xff1f; 什么是硬分叉&#xff1f; 硬分叉例子&#xff1f; 什么是软分叉&#xff1f; 软分叉和硬分叉区别&#xff1f; 软分叉实例 11.问答 转…

在no branch上commmit后,再切换到其他分支,找不到no branch分支的修改怎么办?

解决办法 通过git reflog我们可以查看历史提交记录&#xff0c;这里的第二条提交&#xff08;fbd3ea8&#xff09;就是我在no branch上的提交。 再通过git checkout -b backup fbd3ea8&#xff0c;恢复到上次提交的状态&#xff0c;并且为其创建个分支backup&#xff0c;此时…

ES6要点

ES6/ES7内容解析 一、变量/赋值1、变量2、解构赋值 二、函数1、箭头函数2、默认参数3、参数展开&#xff08;剩余参数&#xff0c;数组展开&#xff09; 三、数组/JSON1、 数组2、JSON 四、字符串1、字符串模版2、字符串方法 五、面向对象1、类2、bind()3、箭头函数的this 六、…

【Python特征工程系列】递归特征消除法分析特征重要性-SVC模型为例(案例+源码)

这是我的第268篇原创文章。 一、引言 递归特征消除&#xff08;RFE&#xff09;是一种高效的特征选择方法&#xff0c;它通过递归减少特征的数量来找出模型最重要的特征。本文基于支持向量机分类器作为选择器的基模型&#xff0c;采用递归消除法进行特征筛选。 二、实现过程 2…

HTTP与HTTPS 对比,区别详解(2024-04-25)

一、简介 HTTP&#xff08;超文本传输协议&#xff0c;Hypertext Transfer Protocol&#xff09;是一种用于从网络传输超文本到本地浏览器的传输协议。它定义了客户端与服务器之间请求和响应的格式。HTTP 工作在 TCP/IP 模型之上&#xff0c;通常使用端口 80。 HTTPS&#xf…

Jmeter(十九) - 从入门到精通 - JMeter监听器 -上篇(详解教程)

宏哥微信粉丝群&#xff1a;https://bbs.csdn.net/topics/618423372 有兴趣的可以扫码加入 1.简介 监听器用来监听及显示JMeter取样器测试结果&#xff0c;能够以树、表及图形形式显示测试结果&#xff0c;也可以以文件方式保存测试结果&#xff0c;JMeter测试结果文件格式多样…