面试官:说一说mysql的varchar字段最大长度?

在mysql建表sql里,我们经常会有定义字符串类型的需求。

CREATE TABLE `user` (
  `name` varchar(100) NOT NULL DEFAULT '' COMMENT '名字'
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 ;

比方说user表里的名字,就是个字符串。mysql里有两个类型比较适合这个场景。

char和varchar。

声明它们都需要在字段边上加个数组,比如char(100)varchar(100),这个100是指当前字段能放的最大字符数

char和varchar的区别在于,varchar虽然声明了最大能放100个字符,但一开始不需要分配100个字符的空间,可以根据需要慢慢增加空间。而char一开始声明是多少,就固定预留多少空间。

所以,varchar比起char更省空间,一般没啥大事,大家都爱用varchar

那问题来了,声明varchar字段时,它的最大长度是多少呢?

相信大家应该听说过varchar字段的最大长度是65535吧。

没听过也没关系,你现在听到了。

但实际上是这样吗?

我们来做个实验。

varchar最大值是多少

我们直接拿65535来试一下。

长度为65535的varchar报错

很明显报错了。

报错内容也说了, 由于列长度过大导致报错,最长是16383

把上面的65535改成 16383,确实是成功了。

哦?所以说varchar最大值是16383?

当然不是。

这其实还有好几个因素影响这这个最大值。

不同字符集的影响

varchar里放的是字符串,而字符串看起来可以是英文字母,也可以是数字或中文。但不管怎么样,都可以把这样的中英文数字转成二进制的01串。

按照一定规则把符号和二进制码对应起来,这就是编码。而把n多这种已经编码的字符聚在一起,就是我们常说的字符集

建表语句里有个CHARSET,这里填的是字符集。

不同的字符集要求使用的字节个数也不同,我们可以通过 show charset; 看到mysql支持哪些字符集,以及这些字符集里存储一个字符所需的最大字节数(Maxlen)。

查看mysql支持哪些charset

我们尝试下把建表sql语句里的CHARSET改一改,比如改成utf8mb3

我们再执行下,会发现,最大值又不一样了。

utf8mb3下的报错

并且,上面虽然提示max=21845,但要是真执行起来会发现还是报错。在改为21844之后才成功。

不讲武德。

再把字符集改为 latin1。会发现,最大值会是 65533

varchar为65533时创建成功

这里渐渐可以发现规律。

  • utf8mb4的maxlen=4,对应varchar最大长度=16383。4*16383 = 65532。

  • utf8mb3的maxlen=3,对应varchar最大长度=21844。3*21844 = 65532。

  • latin1的maxlen=1,对应varchar最大长度=65533。   1 * 65533 = 65533。

也就是说varchar边上的长度代表的是这一列能放的最大字符数,而maxlen代表单个字符占用的最大字节数。相乘的结果很接近65535。说明65535是指的字节数,而不是字符数

也就是说varchar的最大长度,根据选择的字符集的不同,会有区别。

总的来说接近于 65535 除以 字符集的maxlen。

但其实这样还不够严谨。还有其他影响因素。

是否可以为NULL的影响

上面的建表语句里声明了test字段都是NOT NULL,也就是非空,如果我们将这个改成可以为NULL,再用 CHARSET=latin1去试试。这时候就会发现,前面NOT NULL的时候最大能使用65533去建表,现在报错了。

改成65532,就能成功了,也就是最长长度少了1个字节

是否为NULL的影响

这是因为一个字段是否为NULL这件事情,是需要一个字节去记录下来的。

而当字段为NOT NULL的时候,则可以省下这个字节。

列数的影响

上面提到的情况都是在表里只有一列时的结果,当我们表里有更多的列时,我们会发现varchar的最大值还会有变化。比如同样还是latin1字符集,我们再增加一列varchar类型,并且用的还是前面允许的最大值65533。

结果发现这次会失败。

两个varchar列的情况

查了一下资料发现,原来65535是mysql单行的最大长度(不包含blob和text等类型的情况下)

mysql表里单行中的所有列加起来(不考虑其他隐藏列和记录头信息) ,占用的最大长度是65535个字节。

注意上面加粗的部分,加起来不超过65535。

比如如果还有int的列,那它占用4个字节,bigint占用8个字节,字段越多,留给单个varchar列的空间就越少。

因此,前面提到的 varchar 的最大长度,接近于 65535 除以 字符集的maxlen,但前提是只有一列not null 的varchar类型的字段。

为什么不是65535而是65533?

不过问题又来了,上面建表sql里,不管是那种字符集,最后得到的字符数都约等于65533。

但数据库单行最大值应该是65535。65535 - 65533 = 2 。这里面还差了个2,为什么呢?

这就要聊一下mysql单行里数据到底是怎么存储的。

数据表行存储的格式

我们可以通过 show table status 命令,查看到当前表格使用的行格式。

查看到当前表格使用的行格式

通过上面的 Row_format 字段可以看到这个表用的是 Dynamic 行格式。

事实上,现在的mysql数据表一般都是采用Dynamic行记录格式。

我们来看下Dynamic行格式长什么样子。

Dynamic行记录格式

Dynamic格式将行记录分为两部分,分为是行记录的额外信息行记录的真实数据

行记录的额外信息:

  • 变长字段长度列表:指的是varchar,text,blob这种类型,它们属于变长字段,这里表示的就是这些字段的长度。

  • NULL值列表:用来记录当前行里哪些列是为null的。如果全部列都是not null的话,那就不需要有这个字段。

  • 记录头信息:这是固定5个字节,用来记录一些特殊的信息,比如这一行是否被删了,这一行在这个16k的数据页内是不是最小的,以及指向下一条记录的指针之类的一些信息,不需要太关注。

行记录的真实数据:

里面放的就是一行里,每一列的真正内容。除了我们建表时里涉及到的列以外,还有一些隐藏列。

比如Row_ID,这个是在建表是没有声明主键时,数据表自动会生成的隐藏主键。另外还有trx_id字段,用于记录当前这一行数据行是被哪个事务修改的,和一个roll_pointer字段,这个字段是用来指向当前这个数据行的上一个版本,通过这个字段,可以为这行数据形成一条版本链,从而实现多版本并发控制(MVCC)。有没有很眼熟,这个在之前写的文章里出现过。

隐藏列有哪些

所以我们回过头来看我们建的表,当只有一列not null的 varchar字段时,行记录长下面这样。

单条varchar数据的Dynamic行记录格式.drawio

前面提到,行最大值65535字节是不包含隐藏列和记录头信息的,所以其实是指上图中红色的部分。

而最左边的变长字段长度列表中,为了表示varchar列的长度,占用了两个字节,也就是16位,2的16次方,最大可以表示65535的长度,正好足够用来表示varchar列当前的长度是65533。

所以65535 - 65533 = 2 。这里面差的2,是用来存varchar字段长度去了。

一个页才16k,怎么保存65533(64k)数据?

之前的文章里其实多次提到了mysql底层是以页的形式去存储数据的,而一个页固定16k,而一个varchar字段最大能放65533字节数据,换算一下大概是64k,整整4个16k的页。

页结构

这里面是怎么实现的?

对于这种情况,其实行数据里针对这个超大的varchar字段只保存个20字节的指针(实际上是个偏移量),这个指针会指向新的页(off page),这些页里保存的是实际的varchar字段里的65533字节数据。这种由于字段过长导致需要额外的页来保存数据的现象叫行溢出

行溢出

大于64k的字符串该怎么处理?

如果离谱点,数据量更大,比64k还大,这时候就不能继续用varchar了,需要改用text和blob类型字段。

而text和blob类型本身也是分TINY、MEDIUM,LONG三个档位的,对应着不同的数据长度,最大到4G左右。

像下面这样就可以将数据类型定义为LONGTEXT。

CREATE TABLE `test_max_length` (
  `test` LONGTEXT NOT NULL COMMENT '测试长度字段'
) ENGINE=InnoDB DEFAULT CHARSET=latin1 ;

而他们的存储方式也跟varchar的情况类似,只保存20个字节的指针,实际数据保存在其他溢出页里。

以前我们查某一行数据,他们都在一个16k的数据页里,查询时只要一次磁盘IO就能将这个数据页读取出来。

当一个数据库里某行数据里有个特别大的字符串时,我们如果还想把整行数据给读出来,那我们还得把off page的数据给全部读出来,这意味着更多的磁盘IO,性能就更差了

为了规避这个问题,我们写select sql的时候,如果发现某列字段,是个特别长的字符串时,能不读它就尽量不加到select里,这也是为什么大家不建议使用select * from table的原因。

blob和text的区别

一般来说,blob和text都可以用来放超长字符串。但它们会有一点点区别。

我们知道字符集(charset)下还有个校对规则(collation)的概念,比如同样是a,大写A和小写a能不能算作是一个字符,这会影响比较和排序,collation就是定义这个规则用的。

blob没有字符集的概念,而text有。这意味如果用blob来存文本的话,就没法用字符集的校对规则来排序和做比较。

还有一个区别,blob还能保存二进制数据,比如压缩过的文本数据,图片或者视频,别笑,虽然不合适,但我确实见过有人拿它来保存视频。。。

总结

  • 现在的mysql数据表一般采用Dynamic行记录格式。它由行记录的额外信息和行记录的真实数据组成。

  • mysql表里单行中的所有列加起来(不考虑其他隐藏列和记录头信息) ,占用的最大长度是65535个字节。

  • 如果数据表里只有一列 not null 的varchar字段,它的最大长度,接近于 65535 除以 字符集的maxlen

  • 如果要存放大于64k的字段数据,可以考虑使用longtext和longblob等类型。

  • mysql的数据页大小是16k,为了保存varchar或者text,blob这种长度可能大于16k的字段,在Dynamic行格式中,会只保留20个字节的指针,实际数据则放在其他溢出页中。为了将它们读取出来,会需要更多的磁盘IO。

  • blob和text很像,但blob没有字符集的概念,并且还能存放二进制的数据,比如图片或视频,但实际上图片和视频更推荐放在对象存储(Object Storage Service,简称oss)中。

原文:mysql的varchar字段最大长度真的是65535吗?

作者:小白debug

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/7900.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Maven】2—命令行创建Web工程依赖排除

⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记链接👉https://github.com/A-BigTree/Code_Learning ⭐⭐⭐⭐⭐⭐ 如果可以,麻烦各位看官顺手点个star~😊 如果文章对你有所帮助,可以点赞👍…

【游戏逆向】FPS游戏玩家对象数据分析

目标(Objective) Ÿ Health Ÿ Rifle Ammo Ÿ Pistol Ammo Ÿ Player Pointer 0x01 玩家健康 查找玩家健康值,玩家健康值是100,但是我们并不知道数值类型,我们可以使用精确搜索方式搜索100-所有类型 CE搜索 结果很多,我们…

Windows/Mac/Linux测试远程端口是否开放

目录 Windows 第一种 第二种 Mac/Linux Windows 第一种 WinR快捷键, 在弹出的运行框中输入powershell 接着在powershell窗口中输入: Test-NetConnection ip地址 -Port 端口号 使用这个命令有个好的地方是如果失败了, 那么它会帮你去ping远程ip, 这样就不需…

ARIMA序列分析

1. 什么是平稳序列 (stationary series):基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是随机的。 2. ARMA模型 ARIMA的优缺点 优点&am…

2023Q2押题,华为OD机试用Python实现 -【查找舆情热词 or 热词排序】

最近更新的博客 华为 od 2023 | 什么是华为 od,od 薪资待遇,od 机试题清单华为 OD 机试真题大全,用 Python 解华为机试题 | 机试宝典【华为 OD 机试】全流程解析+经验分享,题型分享,防作弊指南华为 od 机试,独家整理 已参加机试人员的实战技巧本篇题解:查找舆情热词 or 热…

学校的地下网站(学校的地下网站1080P高清)

这个问题本身就提得有问题,为什么这么说,这是因为YouTube本身就不是一个视频网站或者说YouTube不是一个传统的视频网站!!! YouTube能够一家独大,可不仅仅是因为有了Google这个亲爹,还有一点&…

牛客网在线编程SQL篇非技术快速入门题解

大家好,我是RecordLiu。 初学SQL,有哪些合适的练习网站推荐呢? 如果你有编程基础,那么我推荐你到Leetcode这样的专业算法刷题网站,如果没有,也不要紧,你也可以到像牛客网一样的编程网站去练习。 牛客网有很多面向非技…

为什么数字工厂管理系统是电子企业的必备品

与许多电子制造企业观望心态有所不同的是,电子产品分销商正在积极投身于实施数字工厂系统,部分分销商对已完成实施的系统赞不绝口。 数字工厂在元器件分销业的应用逐渐普遍 在一些大型分销商的影响下,数字工厂在分销行业的应用加快。相比而…

Java I/O流

I/O流I/O流IO流体系字节流体系FileOutPutStream(字节输出流)FileInPutStream(字节输入流)练习:文件拷贝Java中编码与解码的方法字符流FileReaderFileWriter综合练习缓冲流体系字节缓冲流字符缓冲流综合练习2转换流序列化流(对象操作输出流)/反序列化流(对象操作输入…

小白必看,吐血整理Facebook新手指南(一)

Facebook广告是营销人员工具包中最强大的工具。脸书广告可以帮助你实现几个高层次的商业目标,包括提高品牌知名度,产生线索,为你的商业网站带来流量,等等。本指南将帮助你创建你的第一个Facebook广告活动。它还将提供经过验证的技…

全链路追踪系统在技术运营层面的应用

随着微服务和分布式架构的引入,各类应用和基础组件形成了网状的分布式调用关系,这种复杂的调用关系就大大增加了问题定位、瓶颈分析、容量评估以及限流降级等稳定性保障工作的难度。正是这样的背景,催生了全链路追踪的解决方案。 这里的一个…

java版工程项目管理系统 Spring Cloud+Spring Boot+Mybatis+Vue+ElementUI+前后端分离 功能清单

ava版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目显示1…

学习数据结构第3天(线性表的定义和基本操作)

线性表的定义和基本操作前言线性表的定义线性表的基本操作经典试题前言 线性表是算法题命题的重点。这类算法题实现比较容易且代码量较少,但是要求具有最优的性能(时间复杂度、空间复杂度),才能获得满分。因此应牢固掌握线性表的…

【牛客刷题专栏】0x18:JZ16 数值的整数次方(C语言编程题)

前言 个人推荐在牛客网刷题(点击可以跳转),它登陆后会保存刷题记录进度,重新登录时写过的题目代码不会丢失。个人刷题练习系列专栏:个人CSDN牛客刷题专栏。 题目来自:牛客/题库 / 在线编程 / 剑指offer: 目录前言问题…

安全防御 --- APT、密码学

APT 深度包检测技术:将应用层内容展开进行分析,根据不同的设定从而做出不同的安全产品。 深度流检测技术:与APS画像类似。会记录正常流量行为,也会将某些应用的行为画像描述出来。也可将加密流量进行判断,并执行相应措…

程序员必知必会7种UML图(类图、序列图、组件图、部署图、用例图、状态图和活动图)画法盘点

众所周知,软件开发是一个分阶段进行的过程。不同的开发阶段需要使用不同的模型图来描述业务场景和设计思路,在不同的阶段输出不同的设计文档也是必不可少的,例如,在需求分析阶段需要输出领域模型和业务模型,在架构阶段…

2023疫情当头,3个月转行软件测试拿下8k+offer,我心满意足了

从2020年的疫情开始,全世界好像按下了暂停键一般,大量新网民涌入互联网。我们的生活方式也随之改变,失业也如洪流般席卷整个世界,宅家的人数在变多,当然大多数人开始寻求新的工作方式,随之进军互联网的人开…

域名过户操作流程及常见问题

模板添加及模板过户操作流程: 一、添加模板操作流程: 1.在业务管理-域名管理-模板管理中找到“添加模板” 2.选择所有者类型(个人或是企业/组织),填写新的域名所有者资料,填写无误后点击“确定”。 目前…

记录分享vscode里面非常好用的两个markdown插件

文章目录Markdown PDFMarkdown All in One效果图Markdown PDF 主要用于将markdown文件转为pdf文件 使用方法 安装此插件编辑区鼠标右键就会出来一个弹框,在弹框里面选择 Markdown All in One 我主要用它来生成文章的目录结构,然后转为pdf文件后,目录结构默认就是pdf文章目录,…

告别至暗时刻,高端与全系列手机市场前景可期

作者|落笔 近年来,智能手机用户换机周期持续拉长,市场出货量逐年走低,IDC数据显示,2022年全年中国智能手机市场出货量约2.86亿台,同比下降13.2%,创有史以来最大降幅,全球智能手机发展已进入成熟…