gem5学习(19):gem5内存系统——The gem5 Memory System

目录

一、Model Hierarchy

二、CPU

三、Data Cache Object

四、Tags & Data Block

五、MSHR and Write Buffer Queues

六、Memory Access Ordering

七、Coherent Bus Object

八、Simple Memory Object

九、Message Flow

1、Memory Access Ordering(read access)

2、Memory Access Ordering(write access)


官网教程:gem5: gem5_memory_system

这个教程描述了gem5中的内存子系统,重点关注CPU在进行简单内存事务(读取或写入)期间的程序流程。

一、Model Hierarchy

该教程中使用的模型包括两个乱序(O3)ARM v7 CPU,带有相应的L1数据缓存和简单内存。通过以下参数在gem5中运行来创建该模型:

configs/example/fs.py –-caches –-cpu-type=arm_detailed –-num-cpus=2

针对gem5的示例配置文件configs/example/fs.py的命令行参数。命令行指定了以下参数:

  • --caches:启用缓存子系统,包括L1指令缓存和L1数据缓存。
  • --cpu-type=arm_detailed:使用ARM详细模型的CPU类型,这是一种准确模拟ARM处理器行为的CPU模型。
  • --num-cpus=2:指定使用两个CPU进行模拟。

(总之,这行命令就是通过使用这些参数,运行模拟器,并使用示例配置文件fs.py来模拟具有缓存子系统的两个ARM处理器的行为。)

Gem5使用派生对象的模拟对象作为构建内存系统的基本块。它们通过端口连接,并建立了主/从层次结构。数据流从主端口发起,而响应消息和嗅探查询则出现在从端口上。(这个在前面的教程已经介绍过了,master port和slave port分别为主端口和从端口)

二、CPU

数据缓存对象(Data Cache object)实现了标准的缓存结构。

【其中比较陌生的MSHR,是指“Miss Status Holding Register”(缺失状态保存寄存器)。MSHR用于在缓存发生缺失(miss)时跟踪和处理缺失的数据。它类似于一个缓存的“等待区域”,用于存储等待从主存加载的数据块。当发生缺失时,MSHR负责发起内存请求,并在数据返回后将其传递给等待的CPU或缓存行。】

教程中并没有详细介绍有关O3 CPU的具体细节,大概讲了一些和模型相关的注意点:

1、读取访问(Read access)是通过将消息发送到指向DCache对象的端口来启动的。如果DCache拒绝该消息(因为被阻塞或忙碌),CPU将清空流水线,并在稍后重新尝试访问。接收到来自DCache的回复消息(ReadRep)后,访问完成。

2、写入访问(Write access)是通过将请求存储到存储缓冲区中,其上下文在每个时钟周期被清空并发送到DCache。DCache也可能拒绝该请求。当接收到DCache的写入回复(WriteRep)消息时,写入访问完成。

3、读取和写入访问的加载和存储缓冲区(Load & store buffers (for read and write access))不对活动内存访问的数量施加任何限制。因此,CPU模拟对象对CPU的内存访问请求的最大数量没有限制,而是受底层内存系统模型的限制。

4、分割内存访问(Split memory access)是在gem5中已经实现的。这意味着当一个内存访问请求涉及到多个连续的内存地址时,gem5可以将其分割为多个较小的子请求进行处理。通过分割内存访问,gem5可以更好地处理大型、连续的内存访问请求。这样可以提高内存系统的效率,并允许其他的处理任务在大型内存操作进行时继续进行,从而提高整体的系统性能。分割内存访问的实现确保了内存操作的正确性和一致性。

CPU发送的消息包含访问区域的内存类型(Normal、Device、Strongly Ordered和可缓存性)。然而,其余模型对内存类型采用了更简化的方法,因此并未使用这些信息。

三、Data Cache Object

数据缓存对象实现了标准的缓存结构:

Cached memory reads:匹配特定缓存标签(具有有效和读取标志)的缓存内存读取将在可配置的时间后完成(通过向CPU发送ReadResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Cached memory writes:匹配特定缓存标签(具有有效、读取和写入标志)的缓存内存写入将在相同可配置的时间后完成(通过向CPU发送WriteResp)。否则,请求将转发到缺失状态和处理寄存器(MSHR)块。

Uncached memory reads:未缓存的内存读取将转发到缺失状态和处理寄存器(MSHR)块。这表示需要从主存中读取数据,而不是从数据缓存中获取。MSHR是用于跟踪缺失状态的寄存器,它类似于一个缓冲区,用于存储等待从主存加载的数据块。当发生未缓存的内存读取时,该读取请求将被添加到MSHR中,gem5会向主存发送请求以获取所需的数据。一旦数据返回,gem5将通过向CPU发送ReadResp来完成未缓存的内存读取操作。

Uncached memory writes:未缓存的内存写入将转发到写入缓冲区(WriteBuffer)块。这意味着需要将数据写入主存,而不是仅在数据缓存中进行修改。写入缓冲区是一个专门用于暂存待写入主存的数据的缓冲区。当发生未缓存的内存写入时,该写入请求将被添加到写入缓冲区中。然后,gem5会周期性地将写入缓冲区中的数据上载到主存中,以确保数据的持久化。

Evicted (& dirty) cache lines:被替换(且脏)的缓存行将转发到写入缓冲区(WriteBuffer)块。gem5会将被替换的脏缓存行转发到写入缓冲区(WriteBuffer)块进行处理。当缓存行被替换并且被标记为脏时,gem5会将该脏缓存行数据添加到写入缓冲区中。然后,写入缓冲区的数据将周期性地写入主存,以确保脏数据的持久化。通过使用写入缓冲区,gem5可以将脏缓存行的写入操作与后续的主存写入操作解耦。

如果满足以下任何条件,则阻塞CPU对数据缓存的访问:

  • MSHR块已满(MSHR缓冲区的大小可配置)。
  • 写回块已满(块缓冲区的大小可配置)。
  • 针对同一内存缓存行的未完成内存访问数量达到可配置的阈值。

数据缓存处于阻塞状态时,无论是缓存命中还是缓存未命中,都会拒绝来自从端口(CPU)的请求。请注意,主端口上的传入消息(响应消息和嗅探请求)永远不会被拒绝。

对不可缓存内存区域的缓存命中(根据ARM ARM的不可预测行为)将使缓存行失效并从内存中获取数据。

四、Tags & Data Block

缓存行(在源代码中称为块)按照可配置的关联度和大小组织成集合。它们具有以下状态标志:

  • Valid(有效):表示缓存行中存储的数据是有效的,地址标签也是有效的。
  • Read(读取):在设置了该标志之前,不会接受读取请求。例如,当缓存行等待写入标志完成写入访问时,它是有效的但不可读取。
  • Write(写入):可以接受写入操作。带有写入标志的缓存行表示唯一状态 - 没有其他缓存存储器持有该副本。
  • Dirty(脏):当被替换时,需要执行写回(Writeback)操作。

如果地址标签匹配,并且设置了Valid和Read标志,读取访问将命中缓存行。如果地址标签匹配,并且设置了Valid、Read和Write标志,写入访问将命中缓存行。

五、MSHR and Write Buffer Queues

缺失状态和处理寄存器(MSHR)队列保存了CPU的未完成内存请求的列表,这些请求需要对较低内存级别进行读取访问。它们包括:

  • 缓存读取未命中(Cached Read misses)。
  • 缓存写入未命中(Cached Write misses)。
  • 未缓存的读取(Uncached reads)。

写入缓冲区队列保存了以下内存请求:

  • 未缓存的写入(Uncached writes)。
  • 来自被替换(且脏)的缓存行的写回(Writeback)【Writeback from evicted (& dirty) cache lines】。

每个内存请求都分配给相应的MSHR对象(上图中的读或写),该对象表示必须读取或写入的特定内存块(缓存行),以完成相应的命令。如上图所示,针对同一缓存行的缓存读取/写入具有共同的MSHR对象,并将通过单个内存访问完成。

块的大小(因此也是对较低内存的读写访问的大小)如下:

  • 对于缓存访问和写回,使用缓存行的大小;
  • 对于未缓存访问,根据CPU指令指定的大小。

一般来说,数据缓存模型区分了两种内存类型:

  • 普通缓存内存:始终被视为写回、读取和写入分配。
  • 普通未缓存、设备和强序类型被等同对待(视为未缓存内存)。

六、Memory Access Ordering

对于每个CPU读/写请求(按照它们在从属端口上出现的顺序),都会分配一个唯一的顺序号。MSHR对象的顺序号是从第一个分配的读/写请求中复制而来的。

这两个队列中的内存读取/写入将按照分配的顺序号依次执行。当这两个队列都不为空时,模型将从MSHR块执行内存读取,除非写入缓冲区已满。然而,它总是保持相同(或重叠)内存缓存行(块)上读取/写入的顺序。

总结一下:

  • 对于缓存内存的访问顺序不会被保留,除非它们针对同一缓存行。例如,访问#1、#5和#10将在同一个时钟周期内同时完成(仍然按顺序)。访问#5将在访问#3之前完成。
  • 所有未缓存内存写入的顺序都会被保留。Write#6始终在Write#13之前完成。
  • 所有未缓存内存读取的顺序都会被保留。Read#2始终在Read#8之前完成。
  • 未缓存访问的读取和写入的顺序不一定被保留,除非它们的访问区域重叠。因此,Write#6始终在Read#8之前完成(它们针对同一内存块)。然而,Write#13可能在Read#8之前完成。

七、Coherent Bus Object

一致性总线对象提供基本的Snoop协议支持:

所有从属端口上的请求都会转发到相应的主控端口。对于缓存内存区域的请求,也会转发到其他从属端口(作为Snoop请求)。

主控端口的回复会转发到相应的从属端口。

主控端口的Snoop请求会转发到所有从属端口。

从属端口的Snoop回复会转发到发出请求的端口。(请注意,Snoop请求的来源可以是从属端口或主控端口。)

在以下事件之后,总线会自行阻塞一段可配置的时间:

  • 将数据包发送(或发送失败)到从属端口。
  • 向主控端口发送回复消息。
  • 将一个从属端口的Snoop响应发送到另一个从属端口。

总线处于阻塞状态时,会拒绝以下传入消息:

  • 从属端口的请求。
  • 主控端口的回复。
  • 主控端口的Snoop请求。

八、Simple Memory Object

它永远不会阻塞从属端口上的访问。

内存读取/写入会立即生效。(读取或写入在收到请求时执行)。

回复消息会在可配置的一段时间后发送。

九、Message Flow

1、Memory Access Ordering(read access)

下图显示了命中具有有效和读取标志的数据缓存行的读取访问:

缓存未命中的读取访问将生成以下消息序列:

注意,总线对象从DCache2和Memory对象永远不会收到响应。它将完全相同的ReadReq数据包(消息)对象发送到内存和数据缓存。当数据缓存想要对Snoop请求进行回复时,它会使用MEM_INHIBIT标志标记该消息,告诉内存对象不要处理该消息。

2、Memory Access Ordering(write access)

下图显示了命中具有有效和写入标志的DCache1缓存行的写入访问:

接下来的图显示了命中具有有效但没有写入标志的DCache1缓存行的写入访问,这被视为写入未命中。DCache1发出UpgradeReq以获取写入权限。DCache2::snoopTiming将使命中的缓存行失效。请注意,UpgradeResp消息不携带数据。

下一个图显示了DCache中的写入未命中。ReadExReq使DCache2中的缓存行失效。ReadExResp携带内存缓存行的内容。

最后,还是有很多一知半解的零碎知识,先学完后再继续补充吧~

大年初一,祝大家新年快乐,龙年大吉!多发论文,篇篇顶刊顶会!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/382239.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++模版(初阶)

🌈函数复用的两种不恰当方式 ☀️1.函数重载 以Swap函数为例,有多少种参数类型组合,就要重载多少个函数: void Swap(int& left, int& right) {int temp left;left right;right temp; } void Swap(double& left,…

ChatGPT高效提问—prompt常见用法(续篇十一)

ChatGPT高效提问—prompt常见用法(续篇十一) 1.1 增加角色 ​ 在prompt里可以适当增加角色,来满足一些特殊场景的需求。先来看一个不带角色的简单示例。 输入prompt: ​ ChatGPT输出: ​ 如上所示,问题比较难,ChatGPT的答案也确实晦涩难懂。试想一下,如果将这个解释将…

fast.ai 深度学习笔记(四)

深度学习 2:第 2 部分第 8 课 原文:medium.com/hiromi_suenaga/deep-learning-2-part-2-lesson-8-5ae195c49493 译者:飞龙 协议:CC BY-NC-SA 4.0 来自 fast.ai 课程的个人笔记。随着我继续复习课程以“真正”理解它,这…

【深度学习】:实验6布置,图像自然语言描述生成(让计算机“看图说话”)

清华大学驭风计划 因为篇幅原因实验答案分开上传,深度学习专栏持续更新中,期待的小伙伴敬请关注 实验答案链接http://t.csdnimg.cn/bA48U 有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~ 案例 6 :图像自…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Web组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Web组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、Web组件 提供具有网页显示能力的Web组件,ohos.web.webview提供web控制能…

网络的基本概念和socket编程

网络的基本概念 1.协议1.1 协议的基本概念1.2 常见的协议 2.分层模型2.1网络七层OSI 7层模型:物数网传会表应(口诀)2.2TCP/IP模型2.3数据通信的过程2.4网络的设计模式2.5以太网帧的格式 3.SOCKET编程3.1网络字节序3.2 相关结构体和函数3.3 代码实现 1.协议 1.1 协议…

2.9日学习打卡----初学RabbitMQ(四)

2.9日学习打卡 一.RabbitMQ 死信队列 在MQ中,当消息成为死信(Dead message)后,消息中间件可以将其从当前队列发送到另一个队列中,这个队列就是死信队列。而在RabbitMQ中,由于有交换机的概念,实…

《CSS 简易速速上手小册》第8章:CSS 性能优化和可访问性(2024 最新版)

文章目录 8.1 CSS 文件的组织和管理8.1.1 基础知识8.1.2 重点案例:项目样式表结构8.1.3 拓展案例 1:使用BEM命名规范8.1.4 拓展案例 2:利用 Sass 混入创建响应式工具类 8.2 提高网页加载速度的技巧8.2.1 基础知识8.2.2 重点案例:图…

MySQL-视图(VIEW)

文章目录 1. 什么是视图?2. 视图 VS 数据表3. 视图的优点4. 视图相关语法4.1 创建视图4.2 查看视图4.3 修改视图4.4 删除视图4.5 检查选项 5. 案例6. 注意事项 1. 什么是视图? MySQL 视图( View)是一种虚拟存在的表,同…

论文笔记:相似感知的多模态假新闻检测

整理了RecSys2020 Progressive Layered Extraction : A Novel Multi-Task Learning Model for Personalized Recommendations)论文的阅读笔记 背景模型实验 论文地址:SAFE 背景 在此之前,对利用新闻文章中文本信息和视觉信息之间的关系(相似…

Java并发基础:LinkedBlockingQueue全面解析!

内容概要 LinkedBlockingQueue类是以链表结构实现高效线程安全队列,具有出色的并发性能、灵活的阻塞与非阻塞操作,以及适用于生产者和消费者模式的能力,此外,LinkedBlockingQueue还具有高度的可伸缩性,能够在多线程环…

剑指offer——替换空格

目录 1. 题目描述与背景1.1 题目描述1.2 背景 2. 一般思路 (时间复杂度为O(n))3. 分析4. 完整代码4.1 标准答案 1. 题目描述与背景 1.1 题目描述 请实现一个函数,把字符串中的每个空格替换成 “ %20 ” 。例如:输入“ we are hap…

【Linux】学习-动静态库

动静态库 头文件与库的区别 头文件一般而言,是声明和宏定义。头文件是在预处理阶段使用的 库文件是已经编译好的二进制代码。是一种目标文件,库文件是在链接阶段使用的 对于头文件和库我们可以这样理解,就是头文件提供的是一个函数的声明&…

【5G NR】【一文读懂系列】移动通讯中使用的信道编解码技术-Turbo编码原理

目录 Turbo码:无线通信中的革命性技术 引言 一、Turbo码的基本原理 1.1 卷积码基础: 1.2 Turbo码的构造: 1.2.1 分量编码器 1.2.2 随机交织器 1.2.3 穿刺和复接单元 1.3 编码器结构的重要性和影响 1.4 迭代解码: 1.4.1 …

C#使用RabbitMQ-5_主题模式(主题交换机)

简介 主题模式允许发送者根据主题发布消息,而订阅者可以订阅特定的主题。 在主题模式中,生产者发送的消息被发送到一个交换机(Exchange),该交换机根据消息的路由键(Routing Key)和绑定&#x…

springcloud分布式架构网上商城源码和论文

首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设计。本项…

React18原理: Fiber架构下的单线程CPU调度策略

概述 React 的 Fiber 架构, 它的整个设计思想就是去参考CPU的调度策略CPU现在都是多核多进程的,重点研究的是 CPU是单核单线程,它是如何调度的?为什么要去研究单线程的CPU? 浏览器中的JS它是单线程的JS 的执行线程和浏览器的渲染GUI 是互斥…

小兔鲜项目网页版

头部模块 <!-- 头部模块 --><header><!-- 快捷菜单模块 --><div class"xtx-shortcut"><!-- 版心的盒子 --><nav class"container"><ul class"fr"><li><a href"#">请先登录<…

前端JavaScript篇之对象继承的方式有哪些?

目录 对象继承的方式有哪些&#xff1f;1. 原型链继承2. 借用构造函数3. 组合继承4. 原型式继承5. 寄生式组合继承 对象继承的方式有哪些&#xff1f; 1. 原型链继承 当使用原型链继承时&#xff0c;子类型的原型对象被设置为父类型的一个实例。这意味着子类型通过其原型可以…

Python爬虫——请求库安装

目录 1.打开Anaconda Prompt 创建环境2.安装resuests3.验证是否安装成功4.安装Selenium5.安装ChromeDriver5.1获取chrom的版本5.1.1点击浏览器右上三个点5.1.2点击设置5.1.3下拉菜单&#xff0c;点击最后关于Chrome&#xff0c;获得其版本 5.2 打开网址 [chromedriver](https:/…