【存储】blotdb的原理及实现(2)

【存储】etcd的存储是如何实现的(3)-blotdb

在etcd系列中,我们对作为etcd底层kv存储的boltdb进行了比较全面的介绍。但是还有两个点没有涉及。

第一点是boltdb如何和磁盘文件交互。
持久化存储和我们一般业务应用程序的最大区别就是其强依赖磁盘文件。一方面文件数据结构和内存数据结构的差异很大,需要设计合适的文件数据结构(文件布局)来保证足够的读写效率;另一个方面,在与磁盘文件的读写交互上也需要做各种优化以提升db的整体性能。boltdb的文件布局在上一篇中已经介绍过了,本篇中会介绍mmap,boltdb用来做文件交互的技术。

第二点是boltdb如何管理free page。
在第一篇中我们讲过,boltdb采用了shadow paging(影子分页)的实现,这种类似copy

文章目录

  • mmap
  • freelist
    • 数组freelist
    • map freelist
    • 页的释放
      • 事务的记录
      • 页的释放

mmap

mmap是linux提供的一个系统调用。

mmap的作用是将进程的一块虚拟内存和文件相映射,通过对该虚拟内存的读写就可以直接对文件进行读写。相对于一般的使用read、write系统调用来读写文件的情况,使用mmap可以减少用户空间和内核空间之间的数据拷贝,提高效率。

mmap的原理是将一块虚拟内存和一块内核物理内存相映射,以此来减少用户空间和内核空间的数据拷贝。更具体的细节这里就不展开,网上有不少文章都介绍的非常详细,感兴趣可自行了解。

mmap是一种高效的操作文件的方式,但是应用在数据库也会有一些问题。这些问题产生的根本原因就是在mmap中,内存回写文件完全由内核管理而无法由存储应用层控制。可能导致的后果有:

  • 事务安全

在mmap中,内存刷盘的过程完全由操作系统控制,其无法感知上层应用的情况,会存在事务尚未提交,就将脏页刷盘的情况。这种情况可能会对事务造成影响。

博主认为在存在mvcc的db中其实是没有影响的,如果没有mvcc,则确实会产生中间状态。因为mvcc是存储应用层针对事务设计,如果没有mvcc,则事务完全依赖持久化能力。当然实际情况会更复杂,应该根据不同的实现具体情况具体分析。

解决mmap事务安全可以采用wal+copy-on-write,或者采用shadow paging(影子分页)。boltdb采用的是shadow paging。其能解决问题的根本原因是shadow paging中,每次写入都会将更新写入新的页而不是在原有页上update。在页表刷盘前,即使新的页被回写磁盘,该页也只会被当作空白页对待。

  • i/o停顿

操作系统无法感知存储应用层对数据的使用情况,其页面的置换无法保证db的热点数据在内存中,会导致i/o的性能波动。

除以上问题外,mmap还存在一些其他的问题,数据库大神andy专门写了一篇论文来论证为什么不要在数据库中使用mmap,详情见论文。但实际上,在工业界的很多知名项目中都使用了mmap,其中的考量博主目前也没有深入研究,留待下回分解。

freelist

freelist在内存中维护了所有的空闲页,以便快速的进行页的分配。boltdb支持两种形式的freelist,分别以数组和map的形式维护空闲页面,可以在创建DB对象时通过option中的FreelistType参数控制。

const (
    // FreelistArrayType indicates backend freelist type is array
    FreelistArrayType = FreelistType("array")
    // FreelistMapType indicates backend freelist type is hashmap
    FreelistMapType = FreelistType("hashmap")
)

官方解释中,数组形式的freelist实现简单,但是性能较差,尤其当db比较大时,并且容易产生文件碎片。map形式的freelist性能很快,在文件碎片问题上表现更好,但不能保证分配的页是offset最小的页。默认使用数组形式的freelist。

数组freelist

数组形式的freelist使用数组按照升序来维护所有的page id。当需要分配一块n页的连续空间时,会从前向后找到第一块大于n页的连续空间,从中截取n页分配。这种形式保证了我们一定能拿到offset最小的符合要求的page。但是遍历的方式是O(n)的复杂度,当db很大时,可能会产生严重的性能问题。同时这种方式也很容易产生文件碎片。

// 省略其他字段
type freelist struct {
    freelistType   FreelistType                // freelist type
    ids            []pgid                      // all free and available free page ids.
}

map freelist

map形式的freelist采用三个map维护空闲页,或者说连续的页面组成的不同大小的连续空间。

  • freemaps的key是空间大小(页数表示),value是以对应大小连续空间的起始page id表示的集合;
  • forwardMap的key是连续空间起始page id,value为连续空间大小;
  • backwardMap的key是连续空间结束page id,value为连续空间大小;
// 省略其他字段
type freelist struct {
    freelistType   FreelistType                // freelist type
    freemaps       map[uint64]pidSet           // key is the size of continuous pages(span), value is a set which contains the starting pgids of same size
    forwardMap     map[pgid]uint64             // key is start pgid, value is its span size
    backwardMap    map[pgid]uint64             // key is end pgid, value is its span size
}

type pidSet map[pgid]struct{}

当需要分配一块n页的连续空间时,会在freemaps中查找是否存在n页的连续空间,如有,则选择一块分配,否则随机选择大于n页的连续空间分配(这样看在碎片问题上也没好到哪去)。forwardMap和backwardMap的作用则是在释放内存时进行连续空间的合并。

页的释放

上面提到了freelist有数组和map两种实现,其差别主要在空闲页的分配上。个人觉得freelist的最有意思的点在页的释放上,这也是freelist跨事务管理page的体现。

在介绍具体的实现前,我们先回顾下boltdb事务的特点。

  • boltdb支持同时进行多个读事务和最多一个写事务。
  • 读事务是快照读,快照的内容是读事务开始前最近一次已提交写事务。
  • 读事务不会对db的数据造成影响,但是会导致过期的页不能被释放。(长读事务会导致db空间暴涨)

回顾过以上内容,我们再来看具体的实现。

事务的记录

boltdb会将读写事务和只读事务分别记录。其中读写事务同时最多存在一个,只读事务同时存在多个,采用数组记录,并且boltdb会按照txnid升序维护只读事务。

// 省略其他字段
type DB struct {
    rwtx     *Tx         // 读写事务
    txs      []*Tx       // 只读事务
}

当事务结束(提交或者回滚)时,会调用事务的close方法消除事务。

// 省略多余代码
func (tx *Tx) close() {
    if tx.db == nil {
       return
    }
    if tx.writable {
       // Remove transaction ref & writer lock.
       tx.db.rwtx = nil
    } else {
       tx.db.removeTx(tx)
    }
}

页的释放

页的释放分为两部分:

  • 读写事务中有delete或者update(影子分页的特点)时将page标记为待释放;
  • 持有待释放page的只读事务结束,读写事务开始前将不被只读事务持有的待释放page释放;

在读写事务中,当发生update或者delete操作时,对应的页需要被释放。但是这些页不能在读写事务提交时立刻被释放,因为可能会被只读事务的快照持有。

所以freelist对外提供free方法,记录当前事务需要释放的页。读写事务中在对应的位置调用free方法。

待释放的page以txPending的方式组织,这种组织方式是为了在事务回滚时快速进行回滚操作。

type txPending struct {
    ids              []pgid
    alloctx          []txid // txids allocating the ids
    lastReleaseBegin txid   // beginning txid of last matching releaseRange
}

free方式的实现如下。其会记录释放的页以及对应分配该页的txnid。在boltdb中只有开启读写事务才会对txnid进行递增,所以txnid可以认为是版本的概念。当一个版本不被只读事务持有,那么该版本分配的待释放页就可以释放。在boltdb中,只读事务永远只能拿到最新版本的快照而无法获取旧版本的快照,所以页总是可以被释放。但同时长的只读事务也会导致页迟迟不能释放,从而可能会导致db空间快速增长。

// free releases a page and its overflow for a given transaction id.
// If the page is already free then a panic will occur.
func (f *freelist) free(txid txid, p *page) {
    if p.id <= 1 {
       panic(fmt.Sprintf("cannot free page 0 or 1: %d", p.id))
    }

    // Free page and all its overflow pages.
    txp := f.pending[txid]
    if txp == nil {
       txp = &txPending{}
       f.pending[txid] = txp
    }
    allocTxid, ok := f.allocs[p.id]
    if ok {
       delete(f.allocs, p.id)
    } else if (p.flags & freelistPageFlag) != 0 {
       // Freelist is always allocated by prior tx.
       allocTxid = txid - 1
    }

    for id := p.id; id <= p.id+pgid(p.overflow); id++ {
       // Verify that page is not already free.
       if _, ok := f.cache[id]; ok {
          panic(fmt.Sprintf("page %d already freed", id))
       }
       // Add to the freelist and cache.
       txp.ids = append(txp.ids, id)
       txp.alloctx = append(txp.alloctx, allocTxid)
       f.cache[id] = struct{}{}
    }
}

在新读写事务开启时,会根据txPending和当前只读事务的状态来释放待释放的page,可以认为是一种lazy的策略,但是在这个场景下效果很好。

boltdb会遍历进行中的所有只读事务(db.Txs),调用release和releaseRange方法来释放已结束版本的待释放页。

func (db *DB) freePages() {
    // Free all pending pages prior to earliest open transaction.
    sort.Sort(txsById(db.txs))
    minid := txid(0xFFFFFFFFFFFFFFFF)
    if len(db.txs) > 0 {
       minid = db.txs[0].meta.txid
    }
    if minid > 0 {
       db.freelist.release(minid - 1)
    }
    // Release unused txid extents.
    for _, t := range db.txs {
       db.freelist.releaseRange(minid, t.meta.txid-1)
       minid = t.meta.txid + 1
    }
    db.freelist.releaseRange(minid, txid(0xFFFFFFFFFFFFFFFF))
    // Any page both allocated and freed in an extent is safe to release.
}

至此,我们对boltdb的各个方面进行了比较完善的讲解。


如果觉得本文对您有帮助,可以请博主喝杯咖啡~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/200825.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Java】NIO概述

本文主要介绍Java的IO。 这里主要按类的操作方式和操作对象对JavaIO进行分类&#xff0c;方便理解&#xff0c;后续使用时可以方便地查询。 一、操作方式分类 首先介绍几组概念&#xff1a; 字节流和字符流&#xff1a; 字节流&#xff1a;以字节为单位&#xff0c;每次次读…

【element-plus使用】el-select自定义样式、下拉框选项过长等问题解决

1、自定义样式 <template><el-select v-model"value" style"width: 150px"><el-option label"选项一" value"option1"></el-option><el-option label"选项二" value"option2"><…

Condition 源码解析

Condition 源码解析 文章目录 Condition 源码解析一、Condition二、Condition 源码解读2.1. lock.newCondition() 获取 Condition 对象2.2. condition.await() 阻塞过程2.3. condition.signal() 唤醒过程2.4. condition.await() 被唤醒后 三、总结 一、Condition 在并发情况下…

虚幻学习笔记7—蓝图接口

一、前言 蓝图接口就是可以在蓝图中实现的接口&#xff0c;有它方便的地方&#xff0c;可以很方便的调用到实现了接口的函数。 二、实现 2.1、创建一个蓝图接口 1&#xff09;可以添加多个函数。 2&#xff09;函数在蓝图接口中只能规定输入和输出参数。 只有输入参数的可以…

OSHI-操作系统和硬件信息库

文章目录 引言一、快速入门1.1 OSHI的简介1.2 引入依赖1.3 涉及的包&#xff08;package&#xff09;1.4 涉及的核心类 二、操作系统信息&#xff1a;OperatingSystem2.1 总揽2.2 文件系统信息&#xff1a;FileSystem2.3 网络参数信息&#xff1a;NetworkParams2.4 进程信息&am…

手势识别4:C/C++实现手部检测和手势识别(含源码下载)

手势识别4&#xff1a;C/C实现手部检测和手势识别(含源码下载) 目录 手势识别4&#xff1a;C/C实现手部检测和手势识别(含源码下载) 1. 前言 2. 手势识别模型&#xff08;YOLOv5&#xff09; &#xff08;1&#xff09;手势识别模型训练 &#xff08;2&#xff09;将Pyto…

家电产品扇叶零部件自动化三维检测设备高精度3D测量系统-CASAIM-IS(2ND)

一、背景介绍 某家电制造商希望对其生产的家电产品零部件进行高精度的3D测量&#xff0c;以确保零部件的尺寸精度和质量符合严格的标准&#xff0c;零部件的形状复杂且多样化&#xff0c;对于一些细节部位的测量精度要求极高。本文将介绍CASAIM-IS&#xff08;2ND&#xff09;…

【Seata源码学习 】篇五 注册分支事务

【Seata源码学习 】篇五 分支事务注册 1.远程服务调用绑定XID 回到事务模版方法类TransactionalTemplate中 beginTransaction(txInfo, tx);Object rs;try {// Do Your Business// 执行执行拦截器链路rs business.execute();} catch (Throwable ex) {// 3. The needed busine…

【java】图书管理系统

完整代码链接&#xff1a;https://gitee.com/zeng-xuehui/Java_repository/tree/master/test_11_27_1/src我们在写这个系统时&#xff0c;首先需要搭建框架&#xff0c;再实现业务逻辑&#xff1b;图书管理系统是用户通过各种功能对图书进行操作的一个系统&#xff1b;我们需要…

Google play开发者账号付款资料暂停的原因及解决方案

相信大多数Google play开发者都收到过这封邮件 邮件内容的大致意思是“由于可疑的活动&#xff0c;我们暂停了你的付款资料。” “要恢复您的帐户&#xff0c;请转到您的帐户并执行所要求的操作。” 这是触发了谷歌的付款风控机制&#xff0c;根据开发者们的反馈&#xff0c;账…

Making Reconstruction-based Method Great Again for Video Anomaly Detection

Making Reconstruction-based Method Great Again for Video Anomaly Detection 文章信息&#xff1a; 发表于ICDM 2022&#xff08;CCF B会议&#xff09; 原文地址&#xff1a;https://arxiv.org/abs/2301.12048 代码地址&#xff1a;https://github.com/wyzjack/MRMGA4VAD…

深入理解 Vue 中的指针操作(二)

文章目录 ☘️引言☘️基本用法&#x1f342;v-for指令&#x1f342;v-model指令&#x1f331;v-model适用表单控件 ☘️结论 ☘️引言 Vue.js 是一款非常流行且功能强大的前端框架&#xff0c;它以其响应式的数据绑定和组件化的开发方式赢得了众多开发者的喜爱。而在 Vue.js …

泗博Modbus转Profinet网关TS-180对水表流量的监控应用

应用场景&#xff1a; 陕西某工程技术有限公司在一民生工程项目中&#xff0c;需要对公园直饮水进行净化保证其水质。直饮水净化装置需根据用水量不定期的维护&#xff0c;通过统计各个净化装置净化的直饮水的流量&#xff0c;来实现提前维护目的。 应用痛点&#xff1a; 项目…

二叉树(判断是否为单值二叉树)

题目&#xff08;力扣&#xff09;&#xff1a; 判断二叉树上每个节点的值是否相同&#xff0c;就需要让root节点分别与左节点和右节点分别比较是否相同。 注意&#xff1a;root等于空时&#xff0c;直接可以返回true&#xff1b; 首先&#xff0c;先判断他的特殊情况&#x…

C++ day38 动态规划 斐波那契数列 爬楼梯 使用最小花费爬楼梯

题目1&#xff1a;509 斐波那契数列 题目链接&#xff1a;斐波那契数列 对题目的理解 斐波那契数列由0和1开始&#xff0c;后面每一项数字(F(n))都是前两个数字的和&#xff0c;给一个n&#xff0c;计算F(n)&#xff0c;&#xff08;0<n<30&#xff09; 动规五部曲 …

“Install Js dependencies failed“JS SDK安装失败【Bug已解决-鸿蒙开发】

文章目录 项目场景:问题描述原因分析:解决方案:解决措施1解决方案2:其他解决方案解决方案3:此Bug解决方案总结项目场景: 在下载JS SDK时,出现下载失败的情况,并显示“Install Js dependencies failed”。 在使用版本为DevEco Studio 3.0.0.601 Beta1进行低代码开发时…

Echarts-使用渐变色填充

垂直方向的渐变 color: {type: linear,// x0,y1,柱子的颜色在垂直方向渐变x: 0,y: 1,colorStops: [// 0%处的颜色{offset: 0,color: #12c2e9,},// 50%处的颜色{offset: 0.5,color: #c471ed,},// 100%处的颜色{offset: 1,color: #f64f59,},],global: false // 缺省为 false} 水…

力扣347. 前 K 个高频元素(java,最小堆,快速排序法)

Problem: 347. 前 K 个高频元素 文章目录 前言题目描述思路解题方法复杂度Code 前言 对于求取Top K一般有如下两种题型&#xff1a; 1.针对静态数据&#xff08;查询TopK操作&#xff09; 2.针对动态数据&#xff08;包括添加数据操作和查询TOPK操作&#xff09; 一般解决思路…

第22章 NIO编程

在本章中需要掌握NIO中的缓冲区的作用&#xff0c;并理解缓冲区中的数据处理模型&#xff0c;掌握Channel的作用&#xff0c;并结合缓冲区实现数据I/O操作&#xff0c;理解文件锁的作用&#xff0c;并且掌握字符编码处理支持类的使用&#xff0c;掌握Reactor设计模型&#xff0…

Electron+Ts+Vue+Vite桌面应用系列:sqlite增删改查操作篇

文章目录 1️⃣ sqlite应用1.1 sqlite数据结构1.2 初始化数据库1.3 初始化实体类1.4 操作数据类1.5 页面调用 优质资源分享 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.net/weixin_43151418 ElectronTsVueVite桌面应用系列 &#xff1a;这个系列包括了从桌…