逐字节讲解 Redis 持久化(RDB 和 AOF)的文件格式

前言

相信各位对 Redis 的这两种持久化机制都不陌生,简单来说,RDB 就是对数据的全量备份,AOF 则是增量备份,而从 4.0 版本开始引入了混合方式,以 7.2.3 版本为例,会生成三类文件:RDB、AOF 和记录 aof 文件的元数据信息文件,如下图所示,这时的 AOF 可以看作是一种差异备份。

image-20231117142130770

接下来本文将结合具体的备份文件,通过分析其结构,从另一种角度来看两种持久化方式的差异。

RDB

首先是对 RDB 全量备份文件的解析,想要生成 RDB 文件,有两种方式,一种是手动方式:使用 save(阻塞)或者 bgsave(非阻塞)命令生成,一种是在配置文件中增加save m n(表示在 m 内,至少出现了 n 次变更就会执行 bgsave 命令)配置来实现。

下面就以一个具体的dump.rdb(在 0 号库中有一条键为 hello,值为 world 的记录)文件为例来解析其文件格式,由于 RDB 文件是二进制格式,这里使用了一个在线的十六进制编辑器进行查看:

image-20231117151039644

下文均是结合 Redis 7.2.3 版本的源码的 rdb.c 文件进行解析,对应源码地址。

0x00 Redis 版本

52 45 44 49 53 30 30 31 31,根据源码snprintf(magic,sizeof(magic),"REDIS%04d",RDB_VERSION);可以看到这里前五位是固定值REDIS,后四位用于标识RDB的版本对应11。

0x01 辅助信息

这部分涉及数据较多,先放出源码:

if (rdbSaveAuxFieldStrStr(rdb,"redis-ver",REDIS_VERSION) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb,"redis-bits",redis_bits) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb,"ctime",time(NULL)) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb,"used-mem",zmalloc_used_memory()) == -1) return -1;
if (rdbSaveAuxFieldStrInt(rdb, "aof-base", aof_base) == -1) return -1;

结合编辑器右侧的信息,可以发现这部分数据下图中选中的数据:

在这里插入图片描述

  1. redis-ver(Redis 版本)

    这部分对应FA 09 72 65 64 69 73 2D 76 65 72 05 37 2E 32 32 2E 33,其中开头的FA(250)代表这部分数据是 AUX 属性字段,根据源码#define RDB_OPCODE_AUX 250可以了解到。然后是09 72 65 64 69 73 2D 76 65 72,09 代表随后的 9个字节是属性名,即redis-ver,最后是05 37 2E 32 32 2E 33,其中 05 代表随后的 5 个字节是属性名对应的字段值,即 Redis 的版本号7.2.3

  2. redis-bits(位架构)

    这部分对应FA 0A 72 65 64 69 73 2D 62 69 74 73 C0 40。参考 1 可知开始的FA代表AUXOA代表随后的 10 字节是属性名,即redis-bits。但是随后的C0就不再是代表值的长度了,这里先说明C0代表后续的一个字节按照整数进行读取,对应0x40(64),即代表是 Redis 的 64位架构。下面我们再来说明为什么会有以上的区别:

    其实代表值长度的不一定只有一个字节,这里会根据前两位进行判断(C0 对应1100 0000):

    • 如果前两位是 00 ,那么后续的 6 位(可表示 0 ~ 63)就代表实际的字符串长度。

    • 如果前两位是 01,那么接下来的一个字节也会用于表示长度,加上第一个剩下的 6 位,总共 14 位(可表示0 ~ 16383)代表实际的字符串长度。

    • 如果前两位是 10,那么剩下 6 位的值如果是 0,就代表随后的 32 字节代表具体长度,如果剩下 6 位的值是 1,就代表随后的 64 字节代表具体长度。

    • 如果前两位是 11,则需要根据整个字节的值再进行判断,如果是C0就代表将随后的 1 字节表示整数,如果是 C1 就代表随后的 2 字节表示整数,如果是 C2 就代表随后的 4 字节表示整数,如果是C3就代表随后的内容是使用LZF 压缩算法处理后的内容。

  3. ctime(文件创建时间)

    这部分对应FA 05 63 74 69 6D 65 C2 44 11 57 65,参考 1 可知开始的FA代表AUX05代表随后的 5 字节是属性名,即ctime。参考 2 中解析,可知随后的C2代表后续的 4 字节即44 11 57 65表示整数,由于需要按照小端序读取,因此对应的内容是 0x65571144,即秒级时间戳,如下图所示:

    image-20231120085845280

  4. used-mem(内存使用大小)

    这部分对应FA 08 75 73 65 64 2D 6D 65 6D C2 40 15 12 00,参考 1 可知开始的FA代表AUX08代表随后的 8 字节是属性名,即used-mem。参考 3 ,可知随后的C2代表后续的 4 字节即40 15 12 00表示整数,对应的内容是 0x00121540,即 Redis 在 创建 rdb 文件前占用的内存是 1185088 字节(1.13 MB)。

  5. aof-base (是否为 aof 基准文件)

    这部分对应FA 08 61 6F 66 2D 62 61 73 65 C0 00,参考 1 可知开始的FA代表AUX08代表随后的 8 字节是属性名,即aof-base。参考 2 中解析,可知随后的C0代表后续的 1 字节即00表示整数,即该 RDB 文件不是作为 AOF 的基准文件,后文中可以看到在 AOF 中生成的 RDB 文件中该值为 1。

0x02 数据部分

FE 00 FB 01 00 00 05 68 65 6C 6C 6F 05 77 6F 72 6C 64,这部分开始对应具体的数据信息,先展示源码:

/* save all databases, skip this if we're in functions-only mode */
if (!(req & SLAVE_REQ_RDB_EXCLUDE_DATA)) {
    for (j = 0; j < server.dbnum; j++) {
        if (rdbSaveDb(rdb, j, rdbflags, &key_counter) == -1) goto werr;
    }
}

// 以下内容是 rdbSaveDb 函数内的语句

/* Write the SELECT DB opcode */
if ((res = rdbSaveType(rdb,RDB_OPCODE_SELECTDB)) < 0) goto werr;
written += res;
if ((res = rdbSaveLen(rdb, dbid)) < 0) goto werr;
written += res;
/* Write the RESIZE DB opcode. */
unsigned long long expires_size = dbSize(db, DB_EXPIRES);
if ((res = rdbSaveType(rdb,RDB_OPCODE_RESIZEDB)) < 0) goto werr;
written += res;
if ((res = rdbSaveLen(rdb,db_size)) < 0) goto werr;
written += res;
if ((res = rdbSaveLen(rdb,expires_size)) < 0) goto werr;
written += res;

可以看出这部分是遍历所有的数据库内容然后进行保存,下面再结合具体的内容进行介绍。

首先是FE 00,其中FE(254)对应RDB_OPCODE_SELECTDB常量是查询数据库的标志,00即代表 0 号数据库。

然后是FB 01 00,其中FB(251)对应RDB_OPCODE_RESIZEDB常量是查询该数据库大小的标志,根据if ((res = rdbSaveLen(rdb,db_size)) < 0) goto werr;知道01代表数据库的大小,即只有一条数据,根据if ((res = rdbSaveLen(rdb,expires_size)) < 0) goto werr;知道00代表没有包含过期标志的数据。

最后是00 05 68 65 6C 6C 6F 05 77 6F 72 6C 64,代表具体的数据内容。其中开始的00代表类型是字符串,参考源码可知(RDB_TYPE_STRING 的值是 0):

/* Save the object type of object "o". */
int rdbSaveObjectType(rio *rdb, robj *o) {
    switch (o->type) {
    case OBJ_STRING:
        return rdbSaveType(rdb,RDB_TYPE_STRING);
    case OBJ_LIST:
        if (o->encoding == OBJ_ENCODING_QUICKLIST || o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb, RDB_TYPE_LIST_QUICKLIST_2);
        else
            serverPanic("Unknown list encoding");
    case OBJ_SET:
        if (o->encoding == OBJ_ENCODING_INTSET)
            return rdbSaveType(rdb,RDB_TYPE_SET_INTSET);
        else if (o->encoding == OBJ_ENCODING_HT)
            return rdbSaveType(rdb,RDB_TYPE_SET);
        else if (o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb,RDB_TYPE_SET_LISTPACK);
        else
            serverPanic("Unknown set encoding");
    case OBJ_ZSET:
        if (o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb,RDB_TYPE_ZSET_LISTPACK);
        else if (o->encoding == OBJ_ENCODING_SKIPLIST)
            return rdbSaveType(rdb,RDB_TYPE_ZSET_2);
        else
            serverPanic("Unknown sorted set encoding");
    case OBJ_HASH:
        if (o->encoding == OBJ_ENCODING_LISTPACK)
            return rdbSaveType(rdb,RDB_TYPE_HASH_LISTPACK);
        else if (o->encoding == OBJ_ENCODING_HT)
            return rdbSaveType(rdb,RDB_TYPE_HASH);
        else
            serverPanic("Unknown hash encoding");
    case OBJ_STREAM:
        return rdbSaveType(rdb,RDB_TYPE_STREAM_LISTPACKS_3);
    case OBJ_MODULE:
        return rdbSaveType(rdb,RDB_TYPE_MODULE_2);
    default:
        serverPanic("Unknown object type");
    }
    return -1; /* avoid warning */
}

随后的05 68 65 6C 6C 6F中的 05表示键的长度是5,对应68 65 6C 6C 6Fhello。最后的05 77 6F 72 6C 64代表值的长度也是 5,内容是77 6F 72 6C 64world

0x03 尾部信息

FF 18 7F 33 2E 0F C6 20 19,根据源码#define RDB_OPCODE_EOF 255可知,FF(25)是文件的 EOF 即结束标志。随后的 8 位根据源码可知对应 CRC64 校验码:

/* EOF opcode */
if (rdbSaveType(rdb,RDB_OPCODE_EOF) == -1) goto werr;

/* CRC64 checksum. It will be zero if checksum computation is disabled, the
 * loading code skips the check in this case. */
cksum = rdb->cksum;
memrev64ifbe(&cksum);
if (rioWrite(rdb,&cksum,8) == 0) goto werr;

AOF

AOF 用于对数据库的增量备份,如果需要开启,需要将配置文件中的appendonly设置为 yes。同时,根据需要可以,设置appenddirname对应保存的文件夹,设置appendfilename用于配置文件名,设置appendfsync 用于配置频率。开启后,可以在指定的文件夹下看到类似以下的文件结构:

image-20231117142130770

其中 rdb 结尾的代表是 AOF 备份的基准文件,aof 文件是增量备份的执行命令信息,manifest 文件是记录 aof 文件的元数据信息。

0x00 dump.aof.1.base.rdb

通过十六进制编辑器打开该文件,可以发现内容和 RDB 中的格式一致(创建数据前备份的,所以没有数据部分):

在这里插入图片描述

而由于是 AOF 的基准文件,这里aof-base的值是01即代表是基准文件。

0x01 dump.aof.1.incr.aof

文本文件,内容如下(*开头代表命令包含的参数个数,$开头代表命令的长度):

*2       // 两个参数
$6       // 第一个参数长度为 6, 对应 SELECT 的长度
SELECT   
$1       // 第二个参数长度为 1, 对应 0, 即 0 号数据库
0
*3       // 三个参数
$3       // 第一个参数长度为 3, 对应 set 的长度
set
$5       // 第二个参数长度为 5, 对应 hello 的长度
hello
$0       // 第三个参数长度为 0

*3       // 三个参数
$3       // 第一个参数长度为 3, 对应 set 的长度
set
$5       // 第二个参数长度为 5, 对应 hello 的长度
hello
$5
world    // 第三个参数长度为 5, 对应 world 的长度

0x02 dump.aof.manifest

文本文件,内容如下:

file dump.aof.1.base.rdb seq 1 type b
file dump.aof.1.incr.aof seq 1 type i

其中seq 1 代表文件序号为 1,type b代表type base即基准文件,type i代表type increment即增量文件。

总结

本文根据一个简单的 RDB 文件讲解了 RDB 文件的存储格式,同时也简单介绍了 AOF 的文件格式。关于 RDB 中的 LZF 压缩算法和更复杂数据的存储方式(包含过期时间,数据类型为 Set,Map)等未作介绍,将留到下次。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/175305.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mysql中正则表达式Regexp常见用法

Mysql中正则表达式Regexp常见用法_regexp不包含-CSDN博客

Uniapp扫码预览连接地址与手机不在同一网段

在开发Uniapp应用时&#xff0c;这里有一个扫码预览的功能&#xff0c;电脑与手机都是在一网络下&#xff0c;之前点开后预览地址一直是169.254.3.x的地址&#xff0c;通过WINR键输入cmd运行&#xff0c;然后ipconfig查看所有网络连接。发现有一个虚拟网络连接的地址是169.251.…

代码随想录Day51 完结篇 LeetCode T84 柱状图的最大矩形

前言 今天代码随想录一刷也告一段落了,没想到我居然坚持下来了,一节都没有落下,学习到了很多种不同的解题思路,也和大家一块交流了很多,哈哈也许不久以后我还得再次二刷代码随想录,希望这一系列的题解能给大家带来帮助,如想要系统学习,请参照代码随想录网站的题解以及b站的配套…

OpenLayers实战,WebGL图层根据Feature要素的变量动态渲染多种颜色和不同直径大小的圆形和圆点图形,适用于大量圆形圆点渲染不同颜色不同大小

专栏目录: OpenLayers实战进阶专栏目录 前言 本章使用OpenLayers根据Feature要素的变量动态渲染不同颜色和不同直径大小的圆形和圆点图形。 通过一个WebGL图层生成四种不同颜色和不同大小的圆形圆点图形要素,适用于WebGL图层需要根据大量点要素区分颜色区分不同大小显示圆形…

【开源】基于Vue.js的天然气工程业务管理系统的设计和实现

项目编号&#xff1a; S 021 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S021&#xff0c;文末获取源码。} 项目编号&#xff1a;S021&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、使用角色3.1 施工人员3.2 管理员 四…

51单片机LED灯渐明渐暗实验

51单片机LED灯渐明渐暗实验 1.概述 这篇文章介绍使用单片机控制两个LED彩灯亮度渐明渐暗效果&#xff0c;详细介绍了操作步骤以及完整的程序代码&#xff0c;动手就能制作的小实验。 2.操作步骤 2.1.硬件搭建 1.硬件准备 名称型号数量单片机STC12C2052AD1LED彩灯无2晶振1…

《golang设计模式》第三部分·行为型模式-06-备忘录模式(Memento)

文章目录 1. 概述1.1 角色1.2 类图 2. 代码示例2.1 设计2.2 代码2.3 类图 1. 概述 备忘录&#xff08;Memento&#xff09;用于在不破坏目标对象封装特性的基础上&#xff0c;将目标对象内部的状态存储到外部对象中&#xff0c;以备之后恢复状态时使用。 1.1 角色 Originato…

ABAP调用Https接口 Ssl证书导入

ABAP调用Https接口 Ssl证书导入 一、证书导入 谷歌浏览器打开对方系统URL地址&#xff0c;下载SSL Server certificate,步骤如下&#xff1a; 浏览器打开要导出certificate(证书)的网站&#xff0c;点击这个小锁的图标&#xff1a; 点击连接是安全的后面小播放按钮 点击证…

【教3妹学编程-算法题】最大异或乘积

3妹&#xff1a;2哥&#xff0c;你有没有看到新闻“18岁父亲为4岁儿子落户现身亲子鉴定” 2哥 : 啥&#xff1f;18岁就当爹啦&#xff1f; 3妹&#xff1a;确切的说是14岁好吧。 2哥 : 哎&#xff0c;想我30了&#xff0c; 还是个单身狗。 3妹&#xff1a;别急啊&#xff0c; 2…

化繁为简——2021版本Adobe InDesign

今天&#xff0c;我们来谈谈Id软件&#xff0c;它是一个定位于专业排版领域的设计软件&#xff0c;虽然出道时间比较晚&#xff0c;但是在功能上反而更加完美与成熟。InDesign可以将文档直接导出为Adobe的PDF格式&#xff0c;而且有多语言支持。它也是第一个支持Unicode文本处理…

TVS瞬态抑制二极管的工作原理和特点?|深圳比创达电子EMC

TVS二极管一般是用来防止端口瞬间的电压冲击造成后级电路的损坏。防止端口瞬间的电压冲击造成后级电路的损坏。有单向与双向之分&#xff0c;单向TVS一般应用于直流供电电路&#xff0c;双向TVS应用于交流供电电路。 TVS产品的额定瞬态功率应大于电路中可能出现的最大瞬态浪涌…

SpringCloud 微服务全栈体系(十六)

第十一章 分布式搜索引擎 elasticsearch 六、DSL 查询文档 elasticsearch 的查询依然是基于 JSON 风格的 DSL 来实现的。 1. DSL 查询分类 Elasticsearch 提供了基于 JSON 的 DSL&#xff08;Domain Specific Language&#xff09;来定义查询。常见的查询类型包括&#xff1…

初学者必读书籍——两个月速成Python

想学Python的你是不是一直被它生涩难懂的劝退&#xff1f;作为一个自学入门的程序员&#xff0c;依靠这样几本书&#xff0c;两个月就学会了python。不卖关子&#xff0c;我学的就是”python编程三剑客“系列。那么接下来就让我给你介绍介绍吧。 1.《Python编程&#xff1a;从入…

解析生成式人工智能 | 它真的有这么强大吗?

原创 | 文 BFT机器人 当人们说“生成式人工智能”时&#xff0c;你知道这代表着什么意思吗&#xff1f;为什么这些系统似乎正在覆盖所有涉及联想的应用程序&#xff1f;近日&#xff0c;麻省理工学院的人工智能专家帮助剖析了这种日益流行且无处不在的技术。 当你快速浏览一下头…

如何看待程序员领域内的“内卷”现象?

要搞清楚这个问题&#xff0c;我首先就来阐释一下“内卷”的概念。 内卷本身是从一个学术名词演化为网络流行词的&#xff0c;本是指文化模式因达到某种最终形态&#xff0c;既无法保持稳定也不能转化为更高级的新形态&#xff0c;而只能在这种文化模式内部无限变得复杂的现象。…

HTML+CSS+ElementUI搭建个人博客静态页面展示(纯前端)

网站演示 搭建过程 技术选取 HTML/CSSVUE2ElementUI(Version - 2.15.14) 环境配置与搭建 安装指令 1. 先确保你的电脑已经安装好了npm和node npm -vnode -v2. ElementUI下载&#xff0c;推荐使用 npm 的方式安装 npm i element-ui -S3. CDN引入 <!-- 引入样式 --> <…

Redis 与其他数据库的不同之处 | Navicat

Redis&#xff0c;即远程字典服务器&#xff08;Remote Dictionary Server&#xff09;&#xff0c;它是一个多功能且高性能的键值存储系统&#xff0c;在数据库领域中已获得广泛关注和认可。在处理简单数据结构方面&#xff0c;它因其快速和高效而著称。本文中&#xff0c;我们…

基于高质量训练数据,GPT-4 Turbo更出色更强大

11月7日消息&#xff0c;OpenAI在首届开发者大会上正式推出了GPT-4 Turbo。 与GPT-4相比&#xff0c;GPT-4 Turbo主要有6方面的提升&#xff1a; 1、扩展下文对话长度&#xff1a;GPT4最大只能支持8k的上下文长度&#xff08;约等于6000个单词&#xff09;&#xff0c;而GPT-4…

SOLIDWORKS实用技巧——工程图模板替换

概述 工程师常在出图时选择最佳模板&#xff0c;在编辑一段时间后&#xff0c;发现需要更改图纸大小&#xff0c;怎样更改图纸大小还不影响现有工作。你是否也有此类问题&#xff1f; 那么&#xff0c;新建工程图时的模板从哪里来&#xff1f;如何轻松替换已有工程图的图纸格…

你还记得你常用的数据库有哪些吗?

接上文&#xff0c;常用数据库有哪些 Oracle 开发厂商&#xff1a;甲骨文公司 最新版本&#xff1a;Oracle Database 19c&#xff08;长期支持版&#xff09;、Oracle Database 21c&#xff08;创新版&#xff0c;已生产可用&#xff09; 发行方式: 商业软件&#xff08;Comme…