【从浅学到熟知Linux】程序地址空间分布与进程地址空间详谈(含虚拟地址到物理地址的映射)

在这里插入图片描述

🏠关于专栏:Linux的浅学到熟知专栏用于记录Linux系统编程、网络编程等内容。
🎯每天努力一点点,技术变化看得见

文章目录

  • 程序地址空间概览
  • 进程地址空间


程序地址空间概览

我们在执行一个C语言程序时,它包含代码、变量,这些数据均需要空间,那它们的存储规律是什么样的呢?下面我们通过一段代码来验证一下↓↓↓

#include <stdio.h>
#include <stdlib.h>

int g_val = 100;
int u_g_val;

int main(int argc, char* argv[], char* env[])
{
	printf("code:%p\n", main);
	printf("init_g_val:%p\n", &g_val);
	printf("uninit_g_val:%p\n", &u_g_val);
	
	char* arr1 = (char*)malloc(sizeof(char) * 4);
	char* arr2 = (char*)malloc(sizeof(char) * 4);
	char* arr3 = (char*)malloc(sizeof(char) * 4);
	char* arr4 = (char*)malloc(sizeof(char) * 4);

	printf("heap:%p\n", arr1);
	printf("heap:%p\n", arr2);
	printf("heap:%p\n", arr3);
	printf("heap:%p\n", arr4);

	printf("stack:%p\n", &arr1);
	printf("stack:%p\n", &arr2);
	printf("stack:%p\n", &arr3);
	printf("stack:%p\n", &arr4);

	printf("&argc=%p\n", &argc);
	printf("argv=%p\n", argv);
	printf("env=%p\n", env);

	return 0;
}

在这里插入图片描述
由上面代码的执行结果可知,从低地址到高地址存储的依次是:代码段、初始化全局数据区、未初始化全局数据区、堆区、栈区、命令行参数与环境变量。其中,堆区的空间是从小到大增长的,而栈区的空间是从大到小增长的。因而,可以总结出下图↓↓↓

★ps:32位机器中,表示一个地址时使用的是32个比特位,32个比特位能表示的空间为 2 32 2^{32} 232,即4GB;64位机器中,表示一个地址时则使用64个比特位,64个比特能表示的空间为 2 64 2^{64} 264,即16EB。

在这里插入图片描述

但这个空间是真正的内存吗?我们来看一段程序及其运行结果↓↓↓

#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>

int g_val = 100;

int main()
{
	pid_t id = fork();
	if(id == 0)
	{
		//子进程
		int cnt = 5;
		while(1)
		{
			printf("I am child process, pid = %d, g_val = %d, &g_val = %p\n", getpid(), g_val, &g_val);
			sleep(1);
			if(cnt == 0)
			{
				printf("Child process change g_val from 100 to 200\n");
				g_val = 200;
			}
			cnt--;
		}
	}
	else
	{
		while(1)
		{
			printf("I am parent process, pid = %d, g_val = %d, &g_val = %p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	return 0;
}

在这里插入图片描述
我们发现,子进程将g_val从100改为200后,父子进程的g_val数值不同,但g_val的地址却是相同的!怎么可能从同一个地址中读取不同的数据呢?如果是物理地址,则不可能出现这种情况,说明这里的程序地址空间并不是物理地址。也说明了,我们平时在使用的C/C++指针保存的地址并不是物理地址。这种地址被称为线性地址或虚拟地址。

进程地址空间

对于每个进程,它维护着一片虚拟地址空间,进程中各个变量的地址是该虚拟空间内的地址,虚拟地址空间中的地址并不是真正的物理地址。那这里的地址如何与真正的物理地址空间产生关联的呢?进程的PCB中指向一张维护虚拟空间与物理地址映射关系的页表(左侧为虚拟地址,右侧为物理地址的key-value映射表)。

当我们获取初始化全局数据g_val时,它的虚拟地址为0x00601054;拿着它的虚拟地址到页表中查找它的物理地址,再从物理地址中返回g_val的值。
在这里插入图片描述
当父进程fork出一个子进程时,由于每个进程都有自己的虚拟地址空间,因而子进程也有自己的虚拟地址空间,该空间是从父进程那里继承下来的。这时,子进程的页表中虚拟地址到物理地址的映射关系与父进程相同。也就是说,子进程与父进程共享同一个g_val的存储位置及正文代码。
在这里插入图片描述
当子进程尝试修改g_val的值时,为了保证进程之间的独立性(也就是说,子进程的数值修改不应该影响父进程),此时就会发生写时拷贝。会给子进程的g_val开辟独立的物理地址空间,而不是与父进程共享同一空间。

★ps:如果子进程在创建时,就将父进程的所有数据拷贝一遍,若此时子进程只用到父进程的1个/2个数据,则会出现大量的空间浪费。引入写时拷贝后,如果子进程不需要对父进程的数据做修改,就不会为子进程的该数据创建独立的物理空间,可以大大提高内存的使用效率,提高整机效率。
在这里插入图片描述
下面我们来探索一下三个问题↓↓↓

  • 什么叫做地址空间?
    在这里插入图片描述

在32位机器下,数据与地址总线共32根,每根数据与地址线可以产生充电和放电两种状态,即产生0或1。因此地址总线排列组合形成地址范围[0,2^32],这就是地址空间。

  • 如何理解地址空间上的区域划分?

【示例】小学生划分38线
小明和李华是同桌,他们的桌子长度为200cm,他们约定每个人占用100cm的空间。即将课桌划分为[0,100],[101,200]这两个区域。这也就是区域划分。

如果要记录区域的结果,我们就需要先描述再组织。即使用结构体保存。

struct deskstop
{
	int xiaoming_start;
	int xiaoming_end;
	int lihua_start;
	int lihua_end;
}

操作系统为每个进程创建了进程地址空间的结构体mm_struct,用于记录每个进程的各个区域(堆区、栈区、代码区等)的起始和结束位置。在已经被分配给某进程的空间范围内,该进程可以随意访问与使用。

  • 为什么要有进程地址空间?

【示例1】大富翁的3个私生子
某个有100亿的大富翁,他有3个私生子,3个私生子互相不知道对方的存在,他们各自坚信自己能获得老爹的100亿。当某个儿子有需求时,他回向他父亲申请1万,此时大富翁会将对应的钱数给他;但如果申请100亿时,可能无法申请成功(因为有一部分被大富翁的其他私生子占用了),但他并不会觉得这100亿不是他的,而是觉得自己申请的太多了。
在这里插入图片描述
而这里的大富翁就等同于操作系统,而这3个私生子就等同于系统上的进程。操作系统拥有4GB的内存空间,进程坚信自己拥有操作系统的全部空间(即4GB),但通常情况下,进程并不会申请过大的空间。
在这里插入图片描述
由上面的示例我们可以得出为什么要有进程空间第一个结论:
①让进程以统一视角看待内存(当两个进程申请同一个地址空间时,他们貌似能使用同一个地址空间,但操作系统给它分配的实际的物理地址并不是同一个;只是由于页表的存在,将他们想要的地址和实际操作系统分配的地址形成映射,让进程以为自己独占内存,即让进程得以按统一视角看待内存)

【示例2】小朋友的红包被妈妈管理
小时候收到红包时,妈妈会说:我帮你管理,等你需要买什么了,我再给你。如果我要买的是橡皮擦,妈妈会给我对应的钱数(即合法访问);如果我要买50块钱的游戏机,妈妈不会给我钱还会骂我一顿(即非法访问)。

在操作系统中,页表除了包含虚拟地址到物理地址的映射关系,还记录了该区域的读写权限。当用户对其已申请空间做了超出读写权限外的操作,则会被操作系统识别到,并终止该进程。

★ps:物理地址本身没有读写权限,我们在语言中的const等限制某个地址空间的读写权限,本质是在页表中添加读写权限。
在这里插入图片描述
如果直接使用物理地址,而非虚拟地址。当我们对野指针进行访问时,由于物理地址没有读写权限控制,导致我们修改了其他进程的数据,破坏了进程的独立性。因而,使用虚拟地址+页表的方式可以保证进程的独立性

由这个示例,我们可以的出第二个结论:
②增加进程虚拟地址可以让我们访问内存的时候,增加一个转换的过程,在这个转化过程中,可以对我们的寻址请求进行审查,所以一旦异常访问,直接拦截,该请求不会到达物理内存,即保护了物理内存。

在操作系统中,由于内存空间十分宝贵,进程中的代码和数据不一定会被全部加载到内存(这被称为操作系统的惰性加载方式),因而页表中还会有一个字段,用户标识虚拟地址指向的代码和数据是否在磁盘上。如果虚拟地址映射物理地址时,发现该数据或代码位于磁盘上(不再在内存中),则会引发缺页中断(即当前页表无法映射),此时系统再将对应的代码和数据加载到内存中。

★ps:惰性加载(也称为延迟分配),它可以提高整机效率。因而,在创建进程时,一定是先创建内核数据结构,而不是先加载对应的代码和数据到内存的。如果创建内核数据结构后,调用该进程时,即使代码和数据不存在于内存,只要发生缺页中断即可,这样可以大大提高创建进程的效率。
在这里插入图片描述
同时,如果因为内存资源紧张,可能会将某个进程挂起,即将它的代码和数据先保存到磁盘中;待内存资源不紧张时再重新加载进来,但重新加载后的物理地址可能与之前的物理地址不再相同。假设进程没有使用虚拟地址空间+页表映射的方式,则每次将进程代码和数据加载到内存就需要改动PCB中的地址空间内容,而不是修改页表的内容。这么样将使得进程管理与内存管理耦合度过高。

同时,物理内存中几乎所有的数据和代码都是乱序的,由于页表的存在,它可以将物理地址和虚拟地址进行映射,在进程视角,可以将内存分布有序化

由上面可以得出第三个结论:
③因为有地址空间和页表的存在,将进程管理模块和内存管理模块进行了解耦合。

从上面还可以得到一个结论:
当某个进程被挂起(即它的代码和数据均在磁盘),它的状态可能是S/T/t/D等状态,而没有专门的挂起状态。但只要识别到它的代码段的"是否在磁盘上"标识为1,则表明该进程已经挂起,故无需专门设置挂起状态。

★ps:C/C++上new/malloc空间时,本质上是在哪里申请的?物理空间还是虚拟空间呢?
本质上是在虚拟地址空间上申请的,物理空间甚至一个字段都不给。而是当我们需要访问对应内存空间时,才会执行内存的相关管理(由操作系统自动完成),再从物理空间处申请空间。

此时,有个问题:当我们的程序,在编译的时候,形成可执行程序的时候,没有被加载到内存中之前,我们的程序内部有地址吗?

我们可以使用obj -afh查看可执行程序的反汇编↓↓↓
在这里插入图片描述
由上面可知,可执行程序在编译的时候,内部已经有地址了!(即VMA,虚拟地址)。地址空间不仅仅理解成操作系统内部要遵守的。编译器编译代码的时候,就已经给我们形成了各个区域:代码区、数据区…并且采用与Linux内核相同的编址方式,给每个变量,每一行代码都进行了编址。故程序在编译的时候,每一个字段早已经具有一个虚拟地址。

程序内部采用编译器编译好的虚拟地址,当程序加载到内存的时候,每行代码、每个变量就具有了虚拟到物理地址的映射。当CPU读到某行指令时,指令内部的虚拟地址会被转化为物理地址再执行。

在读完这篇文章后,我们对进程有了更深的理解,可以得出进程=内核数据结构(PCB+页表+进程地址空间)+代码和数据

🎈欢迎进入从浅学到熟知Linux专栏,查看更多文章。
如果上述内容有任何问题,欢迎在下方留言区指正b( ̄▽ ̄)d

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/542829.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Canvas与艺术】绘制灰白黑鱼鳞纹“Premium Quality”标志

【关键点】 环状鱼鳞纹的制作 【成果图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>灰白黑鱼鳞纹Premium Quality标志&…

Linux ARM平台开发系列讲解(QEMU篇) 1.2 新添加一个Linux kernel设备树

1. 概述 上一章节我们利用QEMU成功启动了Linux kernel,但是细心的小伙伴就会发现,我们用默认的defconfig是没有找到设备树源文件的,但是又发现kernel启动时候它使用了设备树riscv-virtio,qemu,这是因为qemu用了一个默认的设备树文件,该章节呢我们就把这个默认的设备树文件…

12-LINUX--进程间的通信

进程间通信&#xff1a;采用IPC机制&#xff08;进程间的用户空间相互独立&#xff0c;内核空间共享&#xff09;&#xff0c;有管道&#xff0c;信号量&#xff0c;共享内存&#xff0c;消息队列&#xff0c;套接字。 一.管道 管道可以用来在两个进程之间传递数据&#xff0c…

Java8 收集Stream流中的结果

目录 Stream流中的结果到集合中 Stream流中的结果到数组中 对流中数据进行聚合计算 1. 获取最大值 2. 获取最小值 3. 求总和 4. 平均值 5. 统计数量 对流中数据进行分组 对流中数据进行多级分组 对流中数据进行分区 对流中数据进行拼接 Stream流中的结果到集合中 …

Facebook广告投放数据API对接流程

说明&#xff1a;仅供学习使用&#xff0c;请勿用于非法用途&#xff0c;若有侵权&#xff0c;请联系博主删除 作者&#xff1a;zhu6201976 一、需求背景 App在Facebook、Google等巨头进行广告投放&#xff0c;想要拿到实时广告投放效果数据&#xff0c;如曝光、点击、花费、触…

mybatis(5)参数处理+语句查询

参数处理&#xff0b;语句查询 1、简单单个参数2、Map参数3、实体类参数4、多参数5、Param注解6、语句查询6.1 返回一个实体类对象6.2 返回多个实体类对象 List<>6.3 返回一个Map对象6.4 返回多个Map对象 List<Map>6.5 返回一个大Map6.6 结果映射6.6.1 使用resultM…

流氓软件清理绝杀全家桶

下载地址&#xff1a;流氓软件清理绝杀全家桶.zip 网上仍有不少软件中携带流氓软件&#xff0c;甚至某些所谓的大厂出品的工具中也会有一些捆绑&#xff01; 对于玩机经验不太丰富的小白来说&#xff0c;也许一不小心&#xff0c;桌面就会被某些流氓软件搞得乌烟瘴气&#xf…

【每日刷题】技巧合集-LC136、LC169

1. LC136.只出现一次的数字 题目链接 解法一&#xff1a; 先给数字排序&#xff0c;如果num[i]与nums[i-1]或nums[i1]都不一致&#xff0c;则返回nums[i]。 class Solution {public int singleNumber(int[] nums) {if (nums.length 1){return nums[0];}Arrays.sort(nums);fo…

RabbitMQ消息模型之Work消息模型

Work消息模型 * work模型&#xff1a; * 多个消费者消费同一个队列中的消息&#xff0c;每个消费者获取到的消息唯一&#xff0c;且只能消费一次 * 作用&#xff1a;提高消息的消费速度&#xff0c;避免消息的堆积 * 默认采用轮询的方式分发消息 * 如果某…

多张固定宽度元素,随着屏幕尺寸变化自动换行

背景&#xff1a;多张固定宽度元素&#xff0c;随着屏幕尺寸变化自动换行实现&#xff1a; <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevic…

加速Python循环的12种方法,最高可以提速900倍

在本文中&#xff0c;我将介绍一些简单的方法&#xff0c;可以将Python for循环的速度提高1.3到900倍。 Python内建的一个常用功能是timeit模块。下面几节中我们将使用它来度量循环的当前性能和改进后的性能。 对于每种方法&#xff0c;我们通过运行测试来建立基线&#xff0…

如何监控容器或K8s中的OpenSearch

概述 当前 OpenSearch 使用的越来越多, 但是 OpenSearch 生态还不尽完善. 针对如下情况: 监控容器化或运行在 K8s 中的 OpenSearch 我查了下, 官方还没有提供完备的方案. 这里如何监控 K8s 中的 OpenSearch, 包括安装 exporter 插件、采集、展示全环节。 OpenSearch 简介…

RTL设计指导原则

RTL设计指导原则 一、面积与速度互换原则 1. 电路设计中的面积与速度 面积&#xff1a;设计所消耗的目标器件的硬件资源数量或者ASIC芯片的面积。 FPGA&#xff1a;所消耗的触发器(FF&#xff09;和查找表&#xff08;LUT)数量来衡量; ASIC&#xff1a;设计的面积、门数等衡…

【免安装的MATLAB--MATLAB online】

目录&#xff1a; 前言账号的注册图片处理的示例准备图片脚本函数 总结 前言 在计算机、数学等相关专业中&#xff0c;或多或少都会与MATLAB产生藕断丝连的联系&#xff0c;如果你需要使用MATLAB&#xff0c;但是又不想要安装到自己的电脑上&#xff08;它实在是太大了啊&#…

华为海思数字芯片设计笔试第四套

声明 下面的题目作答都是自己认为正确的答案&#xff0c;并非官方答案&#xff0c;如果有不同的意见&#xff0c;可以评论区交流。 这些题目也是笔者从各个地方收集的&#xff0c;感觉有些题目答案并不正确&#xff0c;所以在个别题目会给出自己的见解&#xff0c;欢迎大家讨论…

L1-041 寻找250

对方不想和你说话&#xff0c;并向你扔了一串数…… 而你必须从这一串数字中找到“250”这个高大上的感人数字。 输入格式&#xff1a; 输入在一行中给出不知道多少个绝对值不超过1000的整数&#xff0c;其中保证至少存在一个“250”。 输出格式&#xff1a; 在一行中输出第一次…

【架构-8】Lambda和Kappa架构

Lambda架构&#xff1f; Lambda架构&#xff08;三层架构&#xff09;&#xff1a; &#xff08;1&#xff09;将数据处理分为实时和离线两部分。离线部分通过批量计算处理数据&#xff0c;实时部分则通过增加追加方式将数据合并到批处理中。 &#xff08;2&#xff09;批处理…

js canvas实现裁剪图片并下载

简历上给自己挖的坑&#xff0c;面试被拷打&#xff0c;早就该填了T.T 参考&#xff1a;【js canvas实现图片裁剪】 https://www.bilibili.com/video/BV1QK411d7n1/?share_sourcecopy_web&vd_sourcebf743b20b76eab11028ba2fb05f056b4 效果 思路 组成&#xff1a; 上传文…

基于Springcloud可视化项目:智慧工地可视化大数据云平台源码

目录 技术架构 智慧工地系统在实际推行过程中遇到的问题 智慧工地接纳程度较低 基础设施条件有待完善 智慧工地整体生态尚未完善 智慧工地平台各功能模块 施工过程工信程息信管息理管模理块 人员管理模块 生产管理模块 技术管理模块 质量管理模块 安全管理模块 绿…

记录一个Kafka客户端Offset Explore连不上的问题

我昨天把集群重装了一下&#xff0c;再连这个工具就连不上了&#xff08;你先把zk和kafka在集群启起来&#xff09;&#xff0c;报错截图如下&#xff1a; 英文翻译过来大概就是说遍历zk指定路径不存在&#xff0c;我还以为zk的问题&#xff0c;回去又把zk的文档翻了一遍&#…