谈一谈内存池

文章目录

  • 一,什么是内存池
  • 二,进程地址空间中是如何解决内存碎片问题的
  • 三,malloc的实现原理
  • 四,STL中空间配置器的实现原理
  • 五,高并发内存池
    • 该内存池的优势在哪里
    • 内存池的设计框架
    • 内存申请流程
      • ThreadCache层
      • CentreCache层
      • PageCache层
    • 内存释放流程
    • 项目中的细节处理
      • 锁的应用
    • 项目优化
      • 项目中遇到的问题

一,什么是内存池

内存池就是先向系统要一定量的内存资源,放在我们自己的结构中,自己进行管理,以备不时之需,要是我们每次都直接向系统申请资源,对系统的开销是很大的,所以内存池主要目的就是提高我们的性能。当程序需要申请内存时,从我们事先做好的内存池中直接拿,程序要释放内存时,再放回到我们的内存池中。只有程序完全退出时,再将内存池中的资源归还给系统。
内存池可以解决两个主要问题:
一,提高效率
二,解决内存碎片问题
什么是内存碎片呢?

内存碎片分为外部碎片和内部碎片
外部碎片就是:我们在申请内存时,给我们的内存在进程地址空间上是连续的,我们申请65字节,128字节,64字节,43字节的内存,当我们将65,43字节的内存释放后,此时我们若在想申请108字节的内存是申请不下来的。因为其不是一段连续的空间。有了内存池后我们可以减少这样的问题,申请一大块内存放到池子中,在对其进行切割成不同大小的块,以备不同的需求。

内部碎片就是:我们将这大块内存进行切割后,不可能将所有大小的块都切割一遍,管理这些块也是需要成本的,所以就有了我需要6字节的内存,由于没切割6字节的块,只能分给你8字节大小的块。

二,进程地址空间中是如何解决内存碎片问题的

我们都知道我们程序中的地址都是虚拟地址,并非真正的物理地址,这是因为我们希望我们的OS上,可以跑多个进程,若是使用物理地址,则会发生冲突,所以我们要为每一个进程都引入其独立的一套虚拟地址,将虚拟地址与物理地址进行映射。
那么OS是如何管理虚拟地址和物理地址之间的关系呢?
通过内存分段和内存分页。

我们先来看看内存分段,这也是较早提出的一种管理方式。
我们的程序中,不同的变量可能有不同的属性,就像全部变量,局部变量等。。其属性是不一样的,所以对齐的访问权限也是不同的,为了方便管理内存,也是方便让程序可以进行定位,段地址+偏移量的方式还能够使得我们访问到所有的内存。
虚拟地址通过段表与物理内存进行映射每个段在段表中都有一个项,段表里还保存了这个段的的基地址,界限和特权等级。
分段会产生外部内存碎片,每个段的长度不固定,多个段未必能够恰好使用完所有的内存空间,所以会产生多个不连续的小物理内存,为了解决外部内存碎片我们就需要进行内存交换,就是将某一程序的一段所占的空间,通过磁盘,交换到内存中的其他地方,使得内存碎片形成的小块内存,空出更大的连续空间。
看似是解决了内存碎片,但是效率 却变得非常低,我们在进行内存置换时,一次要将一大段数据进行交换,磁盘的访问速度又比内存慢的很多,所以为了解决这个问题就又出现了分页。
要解决内存碎片就要进行分页,但我们却要一次将很大一块连续空间进行交换,效率变得非常低下,那么我们能不能每一次让内存交换时,交换的数据少一些呢?内存分页将虚拟和物理内存都切割长一段段的固定尺寸大小,我们称作页,Linux下,一页为4kb,此时虚拟地址和物理地址之间通过页表来映射,页表存储在内存中,MMU将虚拟地址转换为物理地址,当进程去访问某个虚拟地址时,该地址在页表中查不到,系统就会产生一个缺页中断,这时才进行物理内存的分配,由于页与页之间,不像段与段之间一样会产生间隙,所以采用分页就不会有外部内存碎片,并且,当内存不足时,OS会把其他在运行的进程中最近没有使用的页换出到磁盘上,需要时再进行加载,这样,一次写出磁盘的只有几页也就不会花太多的时间,效率就比较高。分页机制下,虚拟地址通过页号和页内偏移和物理地址进行映射。
这样内存转换就变为了三步:
1.将虚拟内存地址,切分成页号和偏移量
2.根据页号,在页表中查询物理页号
3.物理页号+偏移量就得到了物理内存。

简单的分页是有缺陷的,我们的32位系统有4G大小的内存,一页是4KB,就有大约100万页,每页需要4字节来存储,进行管理,那么一个进程就需要4mb,100个进程就需要400MB,这样光花费在页表上的内存就太多了,因此就有了多级页表,我们将一级页表分为1024个二级页表,每个二级页表中包含1024个表项,这样看似是占用的内存更大了,但并非所有的空间我们都会使用,我们只让一级页表可以覆盖整个空间,二级页表只有需要这一页的时候在进行创建。
TLB,又叫块表,其将常用的几个页表项放到访问速度更快的硬件,从而提高速率。

再回到内存池,我们的内存池解决的是一个进程内部的碎片问题(或者说就是对于页内部碎片问题再进行优化),而,段页式分配机制解决的是整个内存的碎片问题。

三,malloc的实现原理

我们的常用的malloc也是一个内存池,其通过维护一个链表来管理需要分配的内存块,其实现也有很多中,我们以C 标准库中提供的 GNU malloc 为例,其使用的是分离适配法。
在分配时,先找到合适大小的块所对应的空闲链表,遍历该链表,若有能够分配的块,则在该块的首部填上该块的信息(如大小,属于哪一页等),返回首部后的地址;若该链表中没有,则向更大的块查找,进行切割,然后将切割的块重新挂到相应的位置,如果还找不到合适的块,则查找下一个更大的大小类的空闲链表,以此类推,直到找到或者向操作系统申请额外的堆内存。在释放一个块时,合并前后相邻的空闲块,并将结果放到相应的空闲链表中。
这中实现方法,一定程度上减少了外部内存碎片的问题。
malloc 分配的空间中包含一个首部来记录控制信息,因此它分配的空间要比实际需要的空间大一些。这个首部对用户而言是透明的,malloc 返回的是紧跟在首部后面的地址,即可用空间的起始地址。

malloc 分配的函数应该是字对齐的。在 32 位模式中,malloc 返回的块总是 8 的倍数。在 64 位模式中,该地址总是 16
的倍数。最简单的方式是先让堆的起始位置字对齐,然后始终分配字大小倍数的内存。 malloc
只分配几种固定大小的内存块,可以减少外部碎片,简化对齐实现,降低管理成本。 free
只需要传递一个指针就可以释放内存,空间大小可以从首部读取。

四,STL中空间配置器的实现原理

SGI版本的空间配置器有两级,一级用来处理128字节以上的内存申请需求,另一级则是用来处理128字节以下的内存申请需求。
128字节以上的需求则是通过直接malloc来获取的。
128字节以下则是通过自由链表来获取的,自由链表中挂的是一个个哈希桶,并且将用户申请的内存块对齐到了8的整数倍,这也与其结点的设计有关,因为其采用联合体的结构,若还没有分配该块,则该块中的头存储的是下一个结点的指针,分配出去后该头部可以被覆盖,这节省了空间的消耗。64位下指针大小为8,所以其以8为对齐数。
在这里插入图片描述
用户申请128字节以下的内存,分配时,先找到用户申请内存大小对齐后的内存块所在链表,若有,则返回,没有则向一个专门的内存池中申请20块,不够20,则有多少返回多少,返回给用户一块后,将剩余的挂起来,若一块都没有,则该内存池直接通过brk或sbrk向系统申请,若系统中也没有,则会去哈希桶中找更大快内存进行补充,若哈希桶中也没有了,则取向一级配置器取申请,(因为一级是直接调用malloc,其本质也是一个内存池)。若一级也没有,则会抛异常。
内存进行释放时,若大于128,则调用free,否则,将该内存块挂到相应的哈希桶中。
在这里插入图片描述

五,高并发内存池

该内存池是谷歌的一个开源项目tcmalloc。主要是解决多线程下的锁竞争等问题。
我们将tcmalloc的核心提取出来,从而实现了一个我们自己的内存池。

该内存池的优势在哪里

正如我们前面所提到的malloc,STL空间配置器等内存池,其功能都已经很强大,并且各有优势,那么我们的内存池的优势在哪里呢?
正如其名一样,我们的内存池所解决的主要问题就是多线程下锁竞争的问题,因为内存申请等操作都是非原子的,可能因为时序问题,而导致在申请内存时出现一些错误。
在解决锁竞争的同时,也解决了外部内存碎片的问题
下面我们就来看看这个内存池具体是如何实现的。

内存池的设计框架

该内存池有三层。
在这里插入图片描述
其中第一层是每个线程独有的(TLS),这也是其减少锁竞争的关键,剩下的两层,为线程共享,所以在进行访问时需要加锁。

线程局部存储(TLS),是一种变量的存储方法,这个变量在它所在的线程内是全局可访问的,但是不能被其他线程访问到,这样就保持了数据的线程独立性。而熟知的全局变量,是所有线程都可以访问的,这样就不可避免需要锁来控制,增加了控制成本和代码复杂度。

内存申请流程

ThreadCache层

在这里插入图片描述
这一层我们使用哈希桶的结构,其挂着的内存块的大小至少为8,这是因为我们在将内存块链接起来时,其头部存储的是下一个内存块的地址,64位下指针大小位8。因为我们没法将1byte-256kb所有大小的块都搞一个桶挂着,因为维持桶和链表本身也要消耗资源,所以原本要6字节,我们就只能分一块8字节出去,会造成内部内存碎片,为了减少内部内存碎片的浪费,我们以下面这样的结构进行对齐。

[1,128] 8byte对齐 freelist[0,16) [128+1,1024] 16byte对齐
freelist[16,72) [1024+1,81024] 128byte对齐 freelist[72,128)
[8
1024+1,641024] 1024byte对齐 freelist[128,184)
[64
1024+1,2561024] 81024byte对齐 freelist[184,208)

其大概能造成10%左右的内存的浪费。
在这一层,若申请的空间小于256kb,则直接从相应的桶中去取,若桶中也没有,则向第二层CentreCache中去要,返回一个内存块,将剩下的挂起来;大于256kb则直接取第三层PageCache中去要。

CentreCache层

这一层为所有线程所共享,所以在访问时,需要进行加锁。
当上一层哈希桶中的内存块不够时,便向这一层来申请一定量的内存块。
在这里插入图片描述
这一层也是哈希桶的结构,只不过每个桶是一个带头双向链表,链表中的每个节点下又挂着自由链表,该自由链表中其本质为一段连续的空间,根据桶的不同,将其切割成了不同大小。
当上一层向该层申请内存块时,先找到对应的桶,然后遍历该桶,返回一Span下的自由链表中一定量的内存块,返回的内存块的数量也是有讲究的。(Span以页为单位)
tcmalloc采用慢增长的方式,限制给上层的内存块的数量。
其有自己独特的分配策略。
在这里插入图片描述
在这里插入图片描述
我们以8字节的桶为例,当第一此问CentreCache要时,给分一个,第二次要时给分2个,。。。。直到到达设定的一次给的数量的最大值(这个值与内存块的大小有关,越大,这个值越小)。若这个桶中挂接的内存块的个数不够(至少为1),则返回实际的数量;要是桶中一个也没有了则向PageCache层中去申请。

PageCache层

在这里插入图片描述
这一层也是哈希桶的结构,桶中挂着的是一个个大的Span,以页为单位。通过保存页号和页数来挂接这个大内存块,我们的虚拟地址,通过除以页的大小,就可以计算处其页号。
CentreCache向这层的哪个桶去要Span也是有说法的。
在这里插入图片描述
至少给1页。
当第二层向我们申请Span时,先计算处其需要申请多大的Span,再找到该对应的桶,将该Span返回给上一层,并且进行切割后挂在上一层的自由链表中;若该桶没有,则取更大的桶中去找,找到后,进行切割,将另一块切割剩下的Span挂到其对应的桶中。直到找到128号桶还没有,则向系统申请,一次申请128页大小的内存,然后重复上述步骤。
我们申请的内存大于256kb时,也是直接向PageCache层申请,直接返回对应的Span;若大于128页时,则直接向系统进行申请。

在这里插入图片描述

内存释放流程

当释放的内存小于256kb时,回收到ThreadCache层中对应的桶中。若该桶的长度大于当前一批量给的长度时,则将其回收到CentreCache中其各小块对应的Span中,Span中会有一个use_count来记录这个Span中分配出去的内存块的数量,当Span中的use_count为0时,则说明,该Span中分配出去的所有内存块都回来了,则会到PageCache层中进行前后页的合并,合并出一个更大的页,一定程度上解决了内存碎片的问题。
哪么分配出去的每一块内存,怎么直到其是属于哪一个Span呢?
我们在分配之初就将页号与其对应的Span进行了映射,而通过地址又可以计算出其属于哪一页,,所以自然就可以找到其对应哪一个Span 。
free的接口只需要传一个指针参数,就可以将内存块挂到对应的桶中,原因是内存块的其头部存储了该块的大小等信息。而我们也希望能够向free一样,因此我们在Span中又加入了记录该Span所维持的自由链表中内存块大小的变量objsize,我们也是通过指针找到对应的页,从而找到对应的Span,最后访问其中的objsize。
大于256kb的内存释放,在PageCache中处理,若其小于等于128页,则直接挂接到PageCache中对应的桶中,并尝试前后页的合并,若大于128页,则直接归还给系统。

项目中的细节处理

锁的应用

在项目中,第二,第三层都是共享的所以都会涉及到锁的问题,如何加锁解锁,才能让其整体效率最高,是我们要解决的问题。
在第二层中,由于其各个桶之间是独立的,相互不影响,所以我们在加锁时选择的是给单个的桶进行加锁,当不对这个桶进行操作时就马上解锁:例如,向CentreCache中申请内存块时,若这个桶中没有,则需要去PageCache中去拿,此时就可以将这个桶锁解锁,使得当有对应的内存归还到该桶时,不受影响。待拿到申请到的Span后,要进行切割时在加锁。
因为第三层涉及到了切割和合并,所以要对整个结构进行加锁。
在进行内存的释放时也是同样的原理。

项目优化

我们对项目用gprof进行性能分析后发现,其映射Span和页号的结构对性能的降低较大,分析原因,是由于我们采用的是unordered_map,其在结构在发生变化:哈希表的扩容,桶的结点的增加等,所以我们在访问时,必须要进行加锁访问。为了避免锁竞争带来的消耗,我们采用一种一种提前确定的机构,即每个Span以及其对应的页号都确定好位置,且该位置只属于它,这类似于我们的页表,我们是在32为的环境下开发的该程序,所以我们提前为其每一页开好空间,4G空间,消耗4mb的空间,若是64位下,则我们可以采用类似多级页表的方式,并且在需要时再对齐开辟相应的空间。
上述结构本质上就是一个哈希表,由于其结构是固定的,一个萝卜一个坑,所以我们再进行读时,就不需要担心其正在写会改变结构,从而导致读到的数据有问题。
最终经过测试,我们的内存池的效率是要比malloc的效率高的。

项目中遇到的问题

由于该项目细节较多,并且调试时不方便观察,因此调式难度较大。
在进行该项目的开发时,写完每一个模块进行编译,观察期是否有语法错误,当申请内存的流程走完后,进行单个流程的调式,在调式过程中,有出现bug的情况,出现段错误的情况,由于为报具体是在哪里出错,我现实进行单步debug,找到报错位置,通过条件断点,进行打断点调式,我通过观察断点处的值,发现其某些值与预想的不一致,从而缩小范围,最后找到了问题所在。
整个流程都进行完后,我进行了简单测试,发现其没有错误出现,当在进行性能测试时,却出现了bug,我先是通过单步调试,将流程走了一遍,找到报错的地点(出现在内存释放流程中),然后通过调用堆栈和观察变量,并没有发现问题,接着,我为了缩小范围,进行单个流程的测试,即申请和释放分开测试,发现申请没有问题,接着就去释放流程中查找,经过调试发现,其在进行释放是,挂接到通中的块的数量,要比实际数量少,所以对空地址进行了赋值,引起了错误,然后就觉得可能是在内存申请时切割有问题,一查果然是在切割完后将为结点的指针的值=nullptr,写为了==nullptr。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/218961.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

优酷新国风动漫《师兄啊师兄 第二季》强势定档 看李长寿稳健归来!

看新国风,上优酷动漫!由优酷出品,玄机科技制作,改编自阅文集团旗下起点读书小说《我师兄实在太稳健了》(作者:言归正传)的修仙喜剧动画《师兄啊师兄》第二季《海神扬名篇》今日正式官宣定档&…

【Docker】从零开始:13.Docker安装tomcat

Docker】从零开始:13.Docker安装Tomcat 下载Tomcat镜像启动Tomcat镜像新版本Tomcat修改访问Tomact首页 下载Tomcat镜像 [rootdocker ~]# docker pull tomcat Using default tag: latest latest: Pulling from library/tomcat 0e29546d541c: Pull complete 9b829c7…

培训机构一定要做好网络安全措施,确保学员信息安全!

生活中大家对于培训机构一定很熟悉,因为从小到大都可以参加各种培训机构。参加培训机构时候,往往会登记各种信息,培训机构会记录存储。所以为了确保学员个人隐私安全,保障学员信息安全,培训机构一定要做好网络安全措施…

【设计模式】单例模式代码设计

目录 单例模式简介饿汉单例模式懒汉单例模式线程安全的懒汉单例模式 橙色 详细可参考该篇文章:C设计模式 - 单例模式 单例模式简介 单例模式指的是,无论怎么获取,永远只能得到该类类型的唯一一个实例对象,那么设计一个单例就必须…

RH850P1X芯片学习笔记-Pin Functions

文章目录 Pin Connection Diagrams术语定义 Pin ListPort OverviewIntroductionFunctional OverviewPort CategoryOperation Mode运行模式 Port Function寄存器地址映射 Port寄存器描述Pn/JP0 — Port RegisterPPRn/JPPR0 — Port Pin Read RegisterPMn/JPM0 — Port Mode Regi…

采集伪原创洗稿,实现文章创作的方法

各位写手小伙伴们,今天要和大家分享一些关于伪原创的方法和经验,希望这些建议能够在你们的写作之旅中派上用场。 首先我们需要明确一下,伪原创并不是鼓励抄袭,而是一种在保留原文核心思想的同时,通过巧妙的方式改写&a…

2024 年甘肃省职业院校技能大赛中职组 电子与信息类“网络安全”赛项竞赛样题-A

2024 年甘肃省职业院校技能大赛中职组 电子与信息类“网络安全”赛项竞赛样题-A 目录 2024 年甘肃省职业院校技能大赛中职组 电子与信息类“网络安全”赛项竞赛样题-A 需要环境或者解析可以私信 (二)A 模块基础设施设置/安全加固(200 分&…

Footprint Analytics x Future3 万字研报:AI 与 Web3 数据行业融合的现状、竞争格局与未来机遇探析(上)

GPT的横空出世将全球的目光吸引至大语言模型,各行各业都尝试着利用这个“黑科技”提高工作效率,加速行业发展。Future3 Campus携手Footprint Analytics共同深入研究AI与Web3结合的无限可能,联合发布了《AI与Web3数据行业融合现状、竞争格局与…

操作系统原理-作业二-进程调度与死锁

1.设某系统中有四个进程 P1 、 P2 、 P3 和 P4 ,它们的到达时刻依次为 0ms 、 1ms 、 2ms 、 3ms ,估计运行时间分别为 6ms 、 1ms 、 8ms 、 4ms ,若系统采用基于时间片轮转的三 级反馈队列调度算法进行调度,其中第一级队…

深度解析大模型背后的知识储存与提取:背诵不等于理解/MongoDB发布生成式AI新功能,大幅提高开发者工作效率和体验|魔法半周报

我有魔法✨为你劈开信息大海❗ 高效获取AIGC的热门事件🔥,更新AIGC的最新动态,生成相应的魔法简报,节省阅读时间👻 🔥资讯预览 Mistral AI发布开源语言模型Mistral 7B,性能超越规模更大的Llama…

机器学习实验四:贝叶斯分类器

系列文章目录 机器学习实验一:线性回归机器学习实验二:决策树模型机器学习实验三:支持向量机模型机器学习实验四:贝叶斯分类器机器学习实验五:集成学习机器学习实验六:聚类 文章目录 系列文章目录一、实验…

计算机网络之IP篇

目录 一、IP 的基本认识 二、DNS 三、ARP 四、DHCP 五、NAT 六、ICMP 七、IGMP 七、ping 的工作原理 ping-----查询报文的使用 traceroute —— 差错报文类型的使用 八、断网了还能 ping 通 127.0.0.1 吗? 8.1、什么是 127.0.0.1 ? 8.2、为…

11.10Redis基础

一.安装,启动,操作 二.远程连接 三.官方文档 https://redis.io/commands/ 四.Redis的数据类型 1.String 2.Hash(注意: value是字典类型) 3.List(类似于队列) 4.Set(无序) 5. ZSet(有序) 五.持久化 六.分布 七.SpringBoot集成Redis 1.添加依赖 2. 配置Redis 3.操作Redis(Serv…

如何选择适合自己的成品短视频app源码?

在当今数字化社会,短视频成为了人们日常生活中不可或缺的一部分。对于想要投身这一领域的创业者来说,选择适合自己的成品短视频app源码显得至关重要。在这篇文章中,我将为您提供一些建议,帮助您在众多选择中找到最合适的短视频app…

红警For Mac(RAM芯片可玩)

1、文件损坏解决版本! 执行以下命令,(注意:命令2应用路径根据实际情况修改) sudo spctl --master-disable sudo xattr -r -d com.apple.quarantine /Applications/红警2尤里复仇M芯片.app2、新系统14,第一…

【3】密评-物理和环境安全测评

0x01 依据 GB/T 39786 -2021《信息安全技术 信息系统密码应用基本要求》针对等保三级系统要求: 物理和环境层面: a)宜采用密码技术进行物理访问身份鉴别,保证重要区域进入人员身份的真实性; b)宜采用密码技术保证电子门…

Centos7.4安装nginx1.24.0_安装详细步骤---Linux工作笔记066

以前安装的太模糊了,干脆重新写一个: 1.首先下载对应的nginx-1.24.0.tar.gz安装文件 2.然后: 去执行命令 安装依赖 yum install -y gcc yum install -y pcre pcre-devel yum install -y zlib zlib-devel yum install -y openssl openssl-devel 3.然后:去解压 tar -zxvf ngi…

mac苹果笔记本电脑如何强力删除卸载app软件?

苹果电脑怎样删除app?不是把app移到废纸篓就行了吗,十分简单呢! 其实不然,因为在Mac电脑上,删除应用程序只是删除了应用程序的主要组件。大多数时候,系统会有一个相当长的目录,包含所有与应用程…

08、分析测试执行时间及获取pytest帮助

官方用例 # content of test_slow_func.py import pytest from time import sleeppytest.mark.parametrize(delay,(1.1,1.2,1.3,1.4,1.5,1.6,1.7,1.8,1.9,1.0,0.1,0.2,0,3)) def test_slow_func(delay):print("test_slow_func {}".format(delay))sleep(delay)assert…

分享68个节日PPT,总有一款适合您

分享68个节日PPT,总有一款适合您 68个节日PPT下载链接:https://pan.baidu.com/s/1c1-K7Gjw8bWT-cbToIZQTA?pwd6666 提取码:6666 Python采集代码下载链接:采集代码.zip - 蓝奏云 学习知识费力气,收集整理更不易…