作为一个java程序员,mysql数据库面试应该是比较多的了;而关于数据库的面试,最多的就是性能问题,而以性能为起点,延伸出很多具体的问题。
我们使用第一性原理的方法来分析,为什么面试中一定会问数据库的索引问题。
数据的管理主要涉及到几个问题,数据的存储,使用以及安全等问题;那么为什么要使用数据库呢,文本文件通用可以实现数据等管理功能。
原因就是使用数据库管理数据,更加高效,简单,方便。
而随着现在互联网时代的发展,每天都会产生大量的数据,各大企业内部都存储了大量的用户,产品等相关的数据;
而怎么处理这些数据,怎么快速处理这些数据就成为了一个问题;所以,数据库技术就是其中比较重要的一个方面,而数据库的优化等问题,也理所当然的成为一个重要的问题。
数据库等性能优化主要涉及到以下几个方面:
1. sql语句的优化,主要是sql语句能命中索引,也就是索引的优化
2. 数据表结构的设计
3. 读写分离
3. 分库分表
从成本与效率来说,sql语句的优化 > 数据表结构的优化 > 读写分离 > 分库分表
从市场的实际情况来说,市面上大部分公司都是小型企业,并没有大型企业那种几十亿,甚至几百亿,千亿级别的数据量;所以对这些公司来说,主要使用的还是前两种方式,也就是数据表的设计,以及sql语句方面的优化;
1. sql语句优化
sql语句的问题,本质上是索引的问题。
那索引到底是什么,为什么会有索引,索引解决了什么问题?
首先,索引的本质是一种数据结构,以常用的mysql为例,现在的mysql索引使用的是b+树,其本质是一种平衡二叉树,关于b+树的问题可以找一些数据结构的文章看一下。
至于为什么会有索引,以及索引解决了什么问题;
mysql数据库是一种关系型数据库,其数据库是由一张张数据表构成的;而数据表中会有一个一个的字段,也就是数据列;而每一行数据就是一条数据记录。
我们设想一下,如果没有索引会出现什么情况?
如下表所示,这就是一个典型的关系型数据库结构,里面存储了用户信息,包括编号,姓名和年龄。
编号 | 姓名 | 年龄 |
001 | 张三 | 30 |
而我们使用数据最常用的一个操作就是查询,比如查询张三的信息;而我们常规的查询方式是遍历,也就是查询这张表中所有的数据,然后进行匹配,匹配姓名叫张三的人。
而如果这个数据表中的数据很多怎么办,假如有几百万,几千万,甚至上亿的数据量;那么匹配起来要多长时间,而这在实际应用中是不被允许的;
所以,就有了索引的出现;所谓的索引就类似于字典和书籍的目录,我们可以根据目录更加快速的找到我们需要的内容。
而为什么说索引是一种数据结构呢?
就类似于书籍的目录,目录中有书本章节的标题,然后每个章节中还有小的节点,然后还有这些节点所在的页码。
同样,索引同样需要有数据的信息,以及数据所在的位置;比如,主键索引就会保存数据记录的主键id,以及当前数据所在的数据页。而保存这些索引的结构,就是b+树。
就像书本一样,内容是写在一页一页的纸上面;而数据库的数据保存在计算机的磁盘上面,而且也是通过页的方式进行保存的,这就是数据页。
而磁盘上的数据,需要加载到内存中才能使用;所以,如果没有索引的情况下,数据库查询数据时,就要每次加载一页数据到内存中进行匹配,如果没匹配到就继续从磁盘加载一页数据到内存,往复循环。
而我们知道,磁盘的io性能是很慢的, 而数据库性能瓶颈主要也在io上;所以,我们就要尽量减少数据库查询时io的次数。
而索引就解决了这个问题;就像我们看书一样,我们翻看书籍的目录,这样就可以直接找到内容所在的页数,直接翻到那一页,这样就不用频繁的io,提升了数据的查询效率。
为什么选择b+树作为索引的结构,那是因为b+树比较矮,比较胖,也就是说其节点层级比较少,这样最多三到四次的io就可以查到结果。具体的内容可以看一下为什么使用b+树作为索引的存储结构的文章。
而根据不同的索引类型,查询效率又不尽相同;比如,根据主键索引就可以快速定位的数据所在的位置;而普通索引,也叫二级索引可能会导致出现 回表 查询;
什么是 回表 查询?
回表查询就是,比如你使用姓名作为二级索引,这时b+树的非叶子结点上就保存的是用户的id和姓名;并不能直接查询到用户的信息。其具体流程是,根据姓名张三查找索引,在索引中查找到了一个或多个名字叫张三的人的信息,然后从这个信息中获取到了张三这个人的id,然后需要根据这个id 再次查询才能获取到用户的全部信息,比如性别,年龄,家庭住址等;
这个需要根据id再次查询用户信息的方式,就叫做回表,也就是要查询两次,第一次查询索引,第二次查询表数据。
也就是说二级索引并不能直接查询全部信息,需要通过id这个中间人,才能获取到用户的真实信息。而如果根据姓名查询到名叫张三的人有多个,这个可能需要多次回表查询才能得到真实的结果。
正常情况下,数据库会把我们写入的数据安装主键id进行排序,如果没有主键,那么就会把具有唯一索引的字段作为排序字段,如果这个字段也没有,那么mysql会自动给增加一个主键。
所以,如果使用主键排序的情况下,数据库会默认把我们写入的数据安装顺序排列在磁盘上,而且是连续的;这样根据局部数据原理,就能更快到找到所需要的数据;而如果我们使用uuid等随机数据作为主键,那么数据的存储就会东一个,西一个,导致数据读取的时候,出现随机读取,而在磁盘上,磁头就需要不断的“摇头”,也就是不断的去找磁盘上数据所在的位置。导致效率低下。
在mysql的索引实现中,数据库会把数据进行组队,比如1到5是一队,6到10是一队,这样在索引中就可以把每队最大值和最小值保存下来,这样查询的时候就可以使用二分法,判断当前数据是在那一队,这样更加快速的查询数据。而这些每队的节点就叫做——槽。
根据不同的实现方式,索引又分为主键索引,普通索引,联合索引,聚集索引,非聚集索引等。
而怎么分析sql语句是否命中索引,explain计划关键字,就可以查看当前sql语句的执行过程,以及是否命中索引,命中了那个索引。