【Linux】写时拷贝技术COW (copy-on-write)

文章目录

  • Linux写时拷贝技术(copy-on-write)
    • 进程的概念
      • 进程的定义
        • 进程和程序的区别
        • PCB的内部构成
    • 程序是如何被加载变成进程的?
      • 写时复制(Copy-On-Write, COW)
        • 写时复制机制的原理
        • 写时拷贝的场景
      • fork与COW
      • vfork与fork


Linux写时拷贝技术(copy-on-write)

在了解写时拷贝技术之前我们得先知道进程

进程的概念

进程的定义

肤浅的来说,加载到内存中的程序就叫做进程。但这并不完善。

运行中的系统存在大量的进程,操作系统该如何管理这些进程呢?仍然是先描述再组织。

进程在形成之初,操作系统就会为其创建进程控制块 PCB。进程控制块PCB用于描述进程,其中存储着进程的所有属性。

Linux 系统中,PCB 就是一个名为task_struct的结构体。

Linux 查看进程的命令:

$ ps axj | head -1 && ps axj | grep 'myproc'
 PPID   PID  PGID   SID TTY      TPGID STAT   UID   TIME COMMAND
25486 29733 29733 25486 pts/0    29733 S+    1003   0:00 ./myproc # 正在运行的myproc进程

启动程序的本质,就是在内存上创建进程。

进程和程序的区别
  • 程序本质就是文件,是编译生成的二进制可执行文件。
  • 程序被加载到内存中,系统自动为其创建PCB,以管理该进程。故进程是程序的代码数据与进程相关内核数据结构的总和

操作系统在处理进程时, 不是直接操作程序而是读写PCB,因为PCB中含有程序的所有属性。也就是说,进程管理与进程对应的程序毫无关系,只与进程的PCB强相关

PCB的内部构成

task_struct结构

  • 进程编号 —— 每个进程都有编号或称标识符,也就是 PID,具有唯一性用来区别于其他进程。
  • 进程状态 —— 包括进程退出时的退出码、退出信号、任务状态等。
#include <sys/types.h>
#include <unistd.h>
pid_t getpid(void);
pid_t getppid(void);

程序是如何被加载变成进程的?

首先,程序通过编译器转换为目标代码,并由链接器与库函数链接,形成可执行文件。此时程序内部已分配逻辑地址,但尚未映射至物理内存。当程序被执行时,操作系统将其从存储介质加载至内存,并进行逻辑地址到物理地址的映射,这一映射关系存储于页表中。

在C/C++中,地址并不是内存物理上的地址,而是操作系统提供的虚拟地址。操作系统不允许直接读取物理内存。虚拟地址在不同进程中是相同的,但物理地址是不同的。例如,当使用fork函数创建子进程时,父进程的栈空间中的变量并不会直接复制到子进程中,而是通过写时拷贝的机制。这意味着,当父进程或子进程尝试修改这些变量时,才会发生真正的复制操作,从而保证了父子进程间的数据独立性。

如果想要执行你书中(A程序)第8页的一段代码,那就由一个人,我们叫他管理员(操作系统),管理员把这一页程序复制到这本速读书(物理地址空间)的某个空白页上,比如第1页,同时记录这个映射关系(A程序的第8页放在了这本书的第1页),如果B程序也要执行第8页中的一段代码(虚拟地址相同),也需要由那个人把这一页复制到这本速读书的某个空白页上,比如第二页,并将映射关系记录在映射表上。这种情况就是虚拟地址相同,但被放在了不同的物理地址上。

在这里插入图片描述

写时复制(Copy-On-Write, COW)

写时复制(Copy-on-Write, COW)是一种优化策略。其主要思想是,当多个调用者(callers)请求相同资源(如内存或磁盘上的数据存储)时,他们会共享相同的指针指向同一资源。只有当某个调用者尝试修改资源内容时,系统才会为该调用者创建一份专用副本(private copy)。这种策略对其他调用者是透明的,只有在修改资源时才会创建副本,因此在调用者仅进行读取操作时可以共享同一份资源。

写时复制机制的原理

进程具有独立性,为了保证进程间数据独立,进程间不相互干扰,会有数据的写时拷贝,得到一张新的页表。在上面的程序中,变量的物理地址实际就不同了,因此数据也是不同的。

img

写时拷贝技术实际上是运用了一个 “引用计数” 的概念来实现的。在开辟的空间中多维护四个字节来存储引用计数。
有两种方法:

  • 多开辟四个字节(pCount)的空间,用来记录有多少个指针指向这片空间。
  • 在开辟空间的头部预留四个字节的空间来记录有多少个指针指向这片空间。

当我们多开辟一份空间时,让引用计数+1,如果有释放空间,那就让计数-1,但是此时不是真正的释放,是假释放,等到引用计数变为 0 时,才会真正的释放空间。如果有修改或写的操作,那么也让原空间的引用计数-1,并且真正开辟新的空间。

linux 下的 fork() 就是用的写时拷贝技术,引用计数不光在 string 这里用到,还有智能指针 shared_ptr 也用到了引用计数来解决拷贝问题。

写时拷贝的场景

虚拟内存管理中的写时复制

  • 在虚拟内存管理中,页面通常被标记为只读。当某个进程尝试向内存写入数据时,内存管理单元(MMU)会抛出一个异常。内核在处理该异常时,会为该进程分配一份新的物理内存并复制数据到该内存中,然后重新执行写操作。

数据存储中的写时复制

  • Linux等操作系统的文件管理系统使用了写时复制策略。
  • 数据库服务器也通常采用写时复制策略,为用户提供快照(snapshot)。

软件应用中的写时复制

  • C++标准程序库中的std::string类,在C++98/C++03标准中允许写时复制策略,但在C++11标准中为了提高并行性取消了这一策略。GCC从版本5开始,std::string不再采用COW策略。

fork与COW

fork是Linux系统中用于创建新进程的系统调用。在传统的fork实现中,子进程会完全复制父进程的地址空间,包括数据段、堆、栈和只读的代码段。这种复制操作可能会消耗大量的时间和内存资源。

为了优化这一过程,现代操作系统引入了写时复制(Copy-On-Write, COW)策略。在fork之后,子进程和父进程共享数据段、堆和代码段,但内核会将这些共享区域的访问权限设置为只读。如果任何一个进程尝试修改这些共享区域,内核会为该进程创建该区域的一个私有副本,这个过程称为“写时复制”。这样,只有在实际需要修改数据时,才会发生内存复制,从而节省了内存空间和复制时间。

vfork与fork

vfork是另一种用于创建新进程的系统调用,它与fork的主要区别在于,vfork不会复制父进程的地址空间,而是让子进程直接在父进程的地址空间中运行,直到子进程调用execexit。这意味着子进程在调用execexit之前,对父进程地址空间中的任何修改都会影响到父进程。

vfork的设计初衷是为了在子进程立即调用exec执行新程序的情况下,避免不必要的地址空间复制。由于子进程不会访问父进程的地址空间,因此vfork可以更高效地创建新进程。

然而,vfork的使用需要非常小心,因为子进程和父进程共享地址空间,这可能导致数据竞争和不确定的行为。因此,vfork通常在子进程调用execexit后立即返回,以避免潜在的问题。

vfork与fork的对比

  • fork通过写时复制技术优化了进程创建过程,允许父进程和子进程共享地址空间,直到需要修改时才进行复制。
  • vfork则是在子进程立即调用execexit的情况下,避免复制父进程的地址空间,直接在父进程的地址空间中运行子进程。

两者都是创建新进程的方法,但fork更为通用,而vfork则是在特定场景下的一种优化手段。由于vfork可能带来的风险,现代操作系统中fork通常已经足够高效,而vfork的使用则越来越少。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/644528.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

阿里云、百度云和移动云的对象存储横向性能对比

文章目录 前言一、对比测试的方法和标准A. 测试环境的设置 二、对比测试的结果A、阿里云OSS测试结果2.B. 百度云结果C. 移动云结果分析与结论 总结 前言 在企业的数字化转型进程中&#xff0c;我们观察到越来越多的公司将其IT基础设施迁移到云端。随着企业业务的持续运营&…

5.Redis之常用数据结构单线程模型

围绕每个数据结构介绍相关命令当前版本的redis支持10个数据类型 Redis 底层在实现上述数据结构的时候,会在源码层面,针对上述实现进行特定的优化,来达到 节省时间/节省空间 效果,内部的具体实现的数据结构&#xff08;编码方式&#xff09;,还会有变数redis 承诺,现在我这有个 …

pikachu靶场中的CSRF、SSRF通关

目录 1、CSRF介绍 2、CSRF&#xff08;get&#xff09; 3、CSRF&#xff08;post&#xff09; 4、CSRF Token 5、SSRF介绍 6、SSRF&#xff08;curl&#xff09; 7、SSRF&#xff08;file_get-content&#xff09; 8、CSRF与SSRF的区别 最近在学习CSRF、SSRF漏洞&#…

LeetCode HOT 100:3. 无重复字符的最长字串

1. 链接 . - 力扣&#xff08;LeetCode&#xff09; 2. 题目描述 3. 题解 方法一&#xff1a;滑动窗口 哈希表 根据题意&#xff1a; 1. 遍历所有可能的子串——利用滑动窗口表示子串&#xff1b; 2. 保证滑动窗口内不包含重复字符——需要哈希表map记录字符出现的下标。…

PostgreSQL基本使用Schema

参考文章&#xff1a;PostgreSQL基本使用&#xff08;3&#xff09;Schema_pg数据库查询schema-CSDN博客 PostgreSQL 模式&#xff08;Schema&#xff09;可以理解为是一个表的集合&#xff08;或者所属者&#xff09;。 例如&#xff1a;在 MySQL 中&#xff0c;Scheam 是库&…

etcd集群部署

1.etcd介绍 1.1 什么是etcd etcd的官方定义如下: A distributed, reliable key-value store for the most critical data of distributed systemetcd是一个Go语言编写的分布式、高可用的一致性键值存储系统,用于提供可靠的分布式键值(key value)存储、配置共享和服务发现等…

Nginx-狂神说

Nginx概述 公司产品出现瓶颈&#xff1f; 我们公司项目刚刚上线的时候&#xff0c;并发量小&#xff0c;用户使用的少&#xff0c;所以在低并发的情况下&#xff0c;一个jar包启动应用就够了&#xff0c;然后内部tomcat返回内容给用户。 但是慢慢的&#xff0c;使用我们平台…

C++ 常用UI库

AWTK github gitee doc scons 类似RT-Thread element github C Cross platfrom C GUI libraries&#xff0c;QT可替代方案。调试包 SDL GUI cegui 创作不易&#xff0c; 小小的支持一下吧&#xff01;

如何在Windows 10上对硬盘进行碎片整理?这里提供步骤

随着时间的推移&#xff0c;由于文件系统中的碎片&#xff0c;硬盘驱动器可能会开始以较低的效率运行。为了加快驱动器的速度&#xff0c;你可以使用内置工具在Windows 10中对其进行碎片整理和优化。方法如下。 什么是碎片整理 随着时间的推移&#xff0c;组成文件的数据块&a…

YOLOv10详细解读 | 一文带你深入了解yolov10的创新点(附网络结构图 + 举例说明)

前言 Hello大家好&#xff0c;我是Snu77&#xff0c;继YOLOv9发布时间没有多久&#xff0c;YOLOv10就紧接着发布于2024.5.23号&#xff08;不得不感叹YOLO系列的发展速度&#xff0c;但要纠正大家的观点就是不是最新的就一定最好&#xff09;&#xff01; 本文给大家带来的是…

Unity开发——XLua热更新之Hotfix配置(包含xlua获取与导入)

一、Git上获取xlua 最新的xlua包&#xff0c;下载地址链接&#xff1a;https://github.com/Tencent/xLua 二、Unity添加xlua 解压xlua压缩包后&#xff0c;将xlua里的Assets里的文件直接复制进Unity的Assets文件夹下。 成功导入后&#xff0c;unity工具栏会出现xlua选项。 …

vue3瀑布流示例,左侧菜单根据窗口滚动条进行固定和取消固定,实现瀑布流demo

瀑布流demo的实现效果&#xff1a; 效果说明&#xff1a; 1.使用vue3实现瀑布流效果&#xff1b; 2.瀑布流横向设置5等分&#xff0c;可根据个人需求调整&#xff1b; 3.左侧菜单可根据右侧滚动条滑动时进行固定和取消固定&#xff0c;实现更优的展示效果&#xff1b; 4.瀑…

Django 里html模板

Django 提供两种方式让程序员自定义html模板。 第一种方法 在项目文件夹里的urls.py进行添加 修改代码如下 from django.contrib import admin from django.urls import path from app01 import views # 得添加这行urlpatterns [path(xxx/, views.home), # 添加这行path(…

从0开始学统计-你能区分率和构成比吗?

1.数据的变异度如何描述&#xff1f; 数据的变异度描述了数据集中数值之间的差异或波动程度。常用的描述数据变异度的统计量包括&#xff1a; &#xff08;1&#xff09;范围&#xff08;Range&#xff09;&#xff1a;范围是数据集中最大值与最小值之间的差异&#xff0c;表…

NDIS小端口驱动(九)

PCIe设备难免会遇到一些重置设备的请求&#xff0c;例如重置总线的时候&#xff0c;但是由于NIC网卡的多样性&#xff0c;重置设备确实也有许多要注意的地方&#xff0c;另外还有一些包含WDM的NDIS驱动 微型端口驱动程序硬件重置 微型端口驱动程序必须向 NdisMRegisterMinipo…

重新思考:Netflix 的边缘负载均衡

声明 本文是对Netflix 博客的翻译 前言 ​ 在先前关于Zuul 2开源的文章中&#xff0c;我们简要概述了近期在负载均衡方面的一些工作。在这篇文章中&#xff0c;我们将更详细地介绍这项工作的原因、方法和结果。 ​ 因此&#xff0c;我们开始从Zuul和其他团队那里学习&#…

L01_JVM 高频知识图谱

这些知识点你都掌握了吗&#xff1f;大家可以对着问题看下自己掌握程度如何&#xff1f;对于没掌握的知识点&#xff0c;大家自行网上搜索&#xff0c;都会有对应答案&#xff0c;本文不做知识点详细说明&#xff0c;只做简要文字或图示引导。 类的生命周期 类加载器 JVM 的内存…

CAD二次开发(2)-将直线对象添加到CAD图形文件

1. 准备工作 创建一个类库项目&#xff0c;如下&#xff1a; 2. 分析Line对象 Line类的初始化方法和参数 using Autodesk.AutoCAD.DatabaseServices; Line line new Line();Line 继承Curve 继承Entity 继承DBObject 继承Drawable 继承RXObject 初始化方法有两个&#xf…

2024年汉字小达人活动4个多月开赛:18道历年选择题和答案、解析

根据近年的安排&#xff0c;2024年第11届汉字小达人比赛还有4个多月就启动&#xff0c;那么孩子们如何利用这段时间有条不紊地备考呢&#xff1f;我的建议是两手准备&#xff1a;①把小学1-5年级的语文课本上的知识点熟悉&#xff0c;重点是字、词、成语、古诗。②把历年真题刷…

求两个整数最大公约数的方法

可以使用递归来实现&#xff0c;编写gcd函数返回最终的结果(最大公约数)。传入两个参数&#xff0c;如果存在一个数字不大于0就返回0&#xff0c;利用上面的公式就可以得出最后的结果。