零拷贝(Zero Copy)

目录

零拷贝(Zero Copy)

1.什么是Zero Copy?

2.物理内存和虚拟内存

3.内核空间和用户空间

4.Linux的I/O读写方式

4.1 I/O中断原理

4.2 DMA传输原理

5.传统I/O方式

5.1传统读操作

5.2传统写操作

6.零拷贝

6.1.用户态直接IO

6.2.mmap+write

6.3. sendfile

6.4. sendfile+DMA gather copy

6.5 splice

7.Linux零拷贝对比

8.零拷贝具体应用实现


零拷贝(Zero Copy)

1.什么是Zero Copy?

零拷贝技术指的是在计算机执行操作时,CPU不需要先将数据从一个内存区域复制到另一个内存区域,从而可以减少上下文以及CPU的拷贝时间。

他的作用是在数据报从网络设备到用户程序空间传递的过程,减少数据拷贝的次数,减少系统调用,实现CPU的零参与,彻底消除CPU在这方面的负载,实现零拷贝的最主要的技术就是DMA数据传输技术内存区域映射技术

  • 零拷贝就是可以减少数据在用户缓冲区和内核缓冲区之间的反复的I/O拷贝操作。

  • 零拷贝机制可以减少用户进程地址空间和内核地址空间之间因为上下文切换带来的CPU开销。

为什么线程切换会导致用户态与内核台的切换?  
因为线程的调度是在内核态运行的,而线程中的代码是在用户态运行。

2.物理内存和虚拟内存

由于操作系统的CPU和内存是共享的,因此需要一套完整的内存管理机制防止内存泄漏的问题。现代操作系统提供了一种对主存的抽象概念:既是虚拟内存,虚拟内存为每个进程提供了一个一致的,私有的地址空间,让每个进程都产生了一种自己独享主存的错觉。

3.内核空间和用户空间

操作系统的内核空间是独立于普通的程序的空间,可以访问显卡等受保护的资源也可以访问底层硬件的设备的权限。是为了防止用户直接操作内核,保证系统安全。操作系统将虚拟内存划分为两部分,一部分是内核空间,一部分是用户空间。

Linux系统中,内核模块运行在内核空间,对应的进程处于内核态;用户进程运行在用户空间,对应的进程是用户态。

4.Linux的I/O读写方式

Linux提供了轮询,I/O中断,DMA传输三中国主存之间的数据传输协议。

  • 轮询:是基于死循环对I/O端口进行不断检测。

  • I/O中断:是指的是数据到达时,磁盘主动向CPU发起中断请求,CPU自身负责数据的传输。

  • DMA传输:是指数据到达后由DMA负责数据的传输拷贝,完成后通知CPU。

4.1 I/O中断原理

在DMA出现之间,应用程序与磁盘之间的I/O操作都是磁盘发起CPU中断,每次用户进程读取磁盘时,都需要CPU中断,然后发起IO请求等待数据的读取与拷贝完成,每次的IO中断都会导致CPU的上下文切换。(不太理解)

流程:

  1. 用户进程向CPU发起read()系统调用,由用户态转换为内核态,然后一直阻塞等待数据的返回。

  2. CPU发接受到指令后发起IO请求,磁盘将数据放入磁盘控制器缓冲区中。

  3. 数据准备完成后磁盘向CPU发起IO中断信号。

  4. CPU接收到IO中断后将磁盘控制器缓冲区的数据拷贝到内核缓冲区,再将数据从内核缓冲区拷贝到用户缓冲区。

  5. 用户进程由内核态转换为用户态,解除阻塞状态,等待CPU的下一个执行时间钟。

4.2 DMA传输原理

DMA的全称叫直接内存访问(Direct Memory Access),是一种允许外围设备直接访问主存的机制。也就是说基于DMA访问方式,系统主内存于磁盘和显卡之间的数据传输可以绕开CPU的全程调度,目前大多数硬件设备包括磁盘控制器,网卡,显卡,以及声卡都支持DMA技术.

整个数据在传输操作在一个DMA控制器的控制下进行的。CPU除了在数据开始传输和结束时做一点处理外,在传输的过程中CPU可以继续进行其他工作。这样大部分时间里,CPU计算和I/O操作都属于并行操作。使得效率大大提升。

  1. 用户态发起read()系统调用,进入内核态,用户态线程阻塞。

  1. CPU发起IO请求通知DMA,DMA发起IO请求给磁盘,磁盘将数据加载到磁盘控制器缓冲,通知DMA,DMA将磁盘控制器中的数据拷贝到内核缓冲区中。DMA发出数据读完信号。

  2. CPU将数据从内核缓冲区读取到用户缓冲区,之后read()系统调用完之后回到用户态,恢复就绪准备获取时间片后执行。

5.传统I/O方式

对于传统的IO操作的数据读写流程,整个过程涉及2次CPU拷贝,2次DMA拷贝,四次上下文切换。

  • 上下文切换:用户程序发起系统调用后,CPU会将用户程序从用户态切换到内核态;系统调用结束返回后,cpu从内核态切换回用户态。

  • CPU拷贝:数据的传输依靠CPU处理,数据拷贝一直占据CPU的资源。

  • DMA拷贝:数据通知DMA磁盘控制器下达指令,让DMA控制器控制数据的传输,数据传输完毕后再把信息反馈给CPU,减轻CPU的占用率。

5.1传统读操作

传统的读操作会进行2次系统调用,1次CPU传输,1次DMA拷贝。

  1. 用户态通过read系统调用进入内核态,

  2. CPU利用DMA控制器,将数据从主存或硬盘拷贝到内核空间的读缓冲区

  3. CPU再将读内核缓冲区拷贝到用户缓冲区。

  4. 上下文切换回到用户态,read调用执行返回。

5.2传统写操作

同理。

6.零拷贝

用户态直接I/O: 应用程序直接访问硬件存储,操作系统只是辅助数据传输,这种方式依旧存在上下文切换,只不过硬件的数据不经过内核缓冲区。因此直接IO不存在内核空间到用户空间的CPU拷贝。

如下图:

减少拷贝次数:在数据传输过程中,避免数据在用户空间和内核空间的CPU拷贝,以及数据在内核空间的CPU拷贝。这时当前主流的零拷贝技术的实现思路。

写时复制技术:写时复制技术,是当多个进程读取一块数据的时候,不需要拷贝操作,当某个进程要修改数据,那么需要拷贝到自己的进程空间中。

6.1.用户态直接IO

用户通过直接IO使用用户态的库函数直接访问硬件设备。数据跨过内核传输。如果内核极大提高性能。

用户态直接IO只能适用于不需要内核缓冲区的应用程序,这写应用程序通常在进程地址空间有自己的数据缓冲机制,称为自缓存应用程序。如数据库管理系统。

其次,这种零拷贝机制会直接操作磁盘I/O,由于CPU和磁盘I/O之间的执行时间差距,会造成大量资源浪费,解决方案是配合异步IO。

6.2.mmap+write

一种零拷贝是使用mmap+write替换原来的read+write的方式,减少了一次CPU拷贝操作。mmap是Linux提供的一种内存映射文件的方式,将一个进程的虚拟内存地址映射到磁盘文件地址。

mmap+write的伪代码:
​
tmp_buf=mmap(file_fd,len);
​
write(socket,tmp_buf,len);

使用mmap的方式就是将内核缓冲区的地址与用户缓冲区的地址进行映射,从而实现内核缓冲区到用户缓冲区的内存共享。省去数据从内核缓冲区拷贝到用户缓冲区的过程。

基于mmap+write系统调用的零拷贝技术。整个拷贝过程会发生4次上下文切换,一次CPU拷贝,2次DMA拷贝。

用户进程读写数据流程如下:

  1. 用户进程通过mmap函数向内核发起系统调用,由用户态切换为内核态。

  2. 将用户缓冲区和内核缓冲区进行mmap地址映射。

  3. CPU利用DMA拷贝数据从磁盘或主存到内核的读缓冲区。

  4. 上下文切换回到用户态,mmap系统调用返回。

  5. 用户进程通过wirte向内核发起系统调用,上下文从用户态切换为内核态。

  6. CPU将读缓冲区的数据拷贝到网络缓冲区。

  7. CPU利用DMA控制器将数据从网络缓冲区拷贝到网卡,进行数据传输。

  8. 上下文从内核态切换回用户态,wirte系统调用结束返回。

优点

针对大文件可以极大的提高IO性能,但是对于小文件,内存映射反而会导致碎片空间的浪费。

6.3. sendfile

sendfile系统调用是Linux2.1引入的目的简化网络通过两个通道之间的数据传输过程。sendfile系统调用的引用减少了两次上下文切换。

伪代码如下:
​
•   sendfile(socket_fd,file_fd,len);

通过sendfile的系统调用,数据可以直接在内核空间进行IO传输,省区了用户空间和内核空间来回拷贝。与mmap不同的是,sendfile调用IO数据对于用户空间来说是完全不可见的,也就是一次完全意义上的数据传输过程。

基于sendfile系统调用的零拷贝技术,整个拷贝过程会发生2次上下文切换,一次CPU拷贝,两次DMA拷贝。

流程如下:

  1. 用户进程通过sendfile函数向内核发起系统调用,上下文切换进入内核态。

  2. CPU利用DMA将主存或磁盘数据拷贝到内核空间的读缓冲区。

  3. CPU的内核读缓冲区拷贝数据到网络缓冲区socket buffer

  4. CPU利用DMA将数据从网络缓冲区传输到网卡。

  5. 系统上下文切换用户态。之后sendfile系统调用结束返回。

相较于mmap内存映射的方式,sendfile减少了两次系统调用,但仍有一次CPU拷贝操作。

sendfile存在的问题就是用户进程不能对数据进行修改(压缩,加密),只能丹村的完成一次数据传输

6.4. sendfile+DMA gather copy

Linux 2.4 版本的内核对sendfile系统调用进行修改,为DMA拷贝引入了gather操作。

他将内核空间的读缓冲区中对应的数据描述信息(内存地址,地址偏移量)记录到相应的网络缓冲区中,

由DMA根据内存地址,地址偏移量将数据批量从读缓冲区拷贝到网卡,这样就省去了内核空间仅剩的一次CPU拷贝操作。

sendfile的伪代码如下:
​
sendfile(socket_fd,file_fd,len)

基于sendfile+DMA gather copy系统拷贝,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。

流程如下:

  1. 用户进程发起sendfile函数系统调用向内核,上下文切换到内核态。

  2. CPU利用DMA将数据从主存或磁盘缓冲区拷贝到内核缓冲区。

  3. CPU将读缓冲区的文件描述符和文件长度拷贝到网络缓冲区

  4. 基于已经拷贝到文件描述符和文件长度,CPU利用DMA控制器的gather /scatter操作直接批量的从内核的读缓冲区拷贝到网卡进行数据传输。

  5. 上下文切换从内核态切换用户态,sendfile系统调用执行返回

这种拷贝方式同样存在用户进程不能对数据进行修改的问题,而且本身需要硬件的支持,只适用于将数据从文件拷贝到socket套接字上的传输过程。

6.5 splice

sendfile只适用于将数据从文件拷贝到socket套接字上,同时支持硬件的传输。这也限定了它的使用范围。

Linux2.6.17版本引入了splice系统调用,不仅不需要系统硬件的支持,还实现了文件描述符之间的数据零拷贝(就是C:->D:)

splice的伪代码
​
splice(fd_in,off_in,fd_out,off_out,len,flags);

splice系统调用可以在内核空间的读缓冲区和网络缓冲区之间建立管道(pipeline),从而避免二者之间的CPU拷贝操作。

基于splice系统调用的零拷贝方式,整个拷贝过程会发生2次上下文切换,0次CPU拷贝以及2次DMA拷贝。

流程:

  1. 用户进程通过splice函数向内核发起系统调用,上下文从用户态切换为内核态。

  2. CPU利用DMA将数据从磁盘或主存中拷贝到内核的读缓冲区中。

  3. CPU在内核的读缓冲区与socket缓冲区建立管道(pipeline)

  4. CPU利用DMA控制器,将数据从网络缓冲区拷贝到网卡进行传输。

  5. 上下文切换从内核切换回到用户态,splice系统调用执行结束。

7.Linux零拷贝对比

无论是传统的IO拷贝方式还是引入了零拷贝,2次DMA Copy都是少不了的,因为两次DMA都是依赖硬件完成的,下面从CPU拷贝次数,DMA拷贝次数,以及系统调用几个方面总结上述io拷贝的差别:

拷贝方式CPU拷贝DMA拷贝系统调用上下文切换
传统方式read+write22read/write4
内存映射mmap+write12mmap/write4
sendfile12sendfile2
sendfile+DMA gather copy02sendfile2
splice02splice2

8.零拷贝具体应用实现

  • Java NIO零拷贝

    • 基于内存映射的(mmap) 方式 MappedByteBuffer

    • 基于sendfile方式的FileChannel

  • Netty 零拷贝

  • RocketMQ 和 Kafka 零拷贝

    • RocketMq选择了mmap+write这种零拷贝方式,适用于业务级别的小块文件持久化和传输

    • 而Kafka采用的sendfile这种零拷贝,适用于系统日志消息这种高吞吐量的大文件的数据持久化和传输。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/653671.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

The First项目报告:解读去中心化衍生品交易所AVEO

2023 年12月8日凌晨,Solana 生态 MEV 基础设施开发商 Jito Labs 开放了 JTO 空投申领窗口,JTO 的价格在开盘短暂震荡后迅速攀高,一度触及 4.94 美元。 JTO 是加密社区这两日关注的热门标的,而在这场讨论中,除 Solana …

unity接入live2d

在bilibili上找到一个教程,首先注意一点,你直接导入那个sdk,并且打开示例,显示的模型是有问题的,你需要调整模型上脚本的一个枚举值,调整它的渲染顺序是front z to我看教程时候,很多老师都没有提…

python max_min标准化

python max_min标准化 max_min标准化sklearn实现max_min标准化手动实现max_min标准化 max_min标准化 Max-Min标准化(也称为归一化或Min-Max Scaling)是一种将数据缩放到特定范围(通常是0到1)的标准化方法。这种方法通过线性变换将…

【软考】下篇 第14章 云原生架构设计与理论实践

目录 一、云原生架构定义二、云原生架构原则三、云原生架构主要架构模式3.1 服务化架构模式3.2 Mesh化架构模式3.3 Serverless模式3.4 存储计算分离模式3.5 分布式事务模式4.6 可观测架构3.7 事件驱动架构 四、云原生架构反模式五、云原生架构技术5.1 容器技术容器编排K8S 5.2 …

Elasticsearch 分析器的高级用法二(停用词,拼音搜索)

Elasticsearch 分析器的高级用法二(停用词,拼音搜索) 停用词简介停用词分词过滤器自定义停用词分词过滤器内置分析器的停用词过滤器注意,有一个细节 拼音搜索安装使用相关配置 停用词 简介 停用词是指,在被分词后的词…

【umi-max】初识 antd pro

修改端口号 根目录下的 .env 文件: PORT8888目录结构 (umijs.org) 新增页面 在 umirc.ts 中进行配置。 新增页面 - Ant Design Pro 这里有一个配置 icon:string,可以在菜单加 icon 图标,默认使用 antd 的 icon 名,默认不适用二…

Yourpassword does not satisfy the current policyrequirements

mysql 新增数据库用户失败 解决方法: 修改校验密码策略等级 set global validate_password.policyLOW;

【K8s】专题四(1):Kubernetes 控制器简介

以下内容均来自个人笔记并重新梳理,如有错误欢迎指正!如果对您有帮助,烦请点赞、关注、转发!欢迎扫码关注个人公众号! 目录 一、基本概念 二、工作原理 三、常见类型 四、相关特性 一、基本概念 Kubernetes 控制器…

js中金额进行千分以及toFixed()保留两位小数丢失精度的问题

1、金额进行千分 function commafy(num) { if ((num "").trim() "") { return ""; } if (isNaN(num)) { return ""; } num num ""; if (/^.*\..*$/.test(num)) { const pointIndex num.lastIndexOf("."); co…

像素匹配+均值homograph+结果

1. 像素匹配 2. 均值homography 转换前转换后 3. 比较 基准图转换图

Kibana创建ElasticSearch 用户角色

文章目录 1, ES 权限参考2, 某应用的管理员权限:可以open/close/delete/cat/read/write 索引3, 某应用的读写权限:可以cat/read/write 索引 (不能删除索引或数据)4, 某应用的只读权限 1, ES 权限参考 https://www.elastic.co/gui…

Linux——Docker容器虚拟化平台

安装docker 安装 Docker | Docker 从入门到实践https://vuepress.mirror.docker-practice.com/install/ 不需要设置防火墙 docker命令说明 docker images #查看所有本地主机的镜像 docker search 镜像名 #搜索镜像 docker pull 镜像名 [标签] #下载镜像&…

智能奶柜:重塑牛奶零售新篇章

智能奶柜:重塑牛奶零售新篇章 回忆往昔,孩童时代对送奶员每日拜访的期待,那熟悉的一幕——新鲜牛奶被细心放置于家门口的奶箱中,成为了许多人温馨的童年记忆。如今,尽管直接投递袋装牛奶的情景已不多见,但…

机器学习-6-对随机梯度下降算法SGD的理解

参考一文带您了解随机梯度下降(Stochastic Gradient Descent):python代码示例 参考sklearn-SGDClassifier 1 梯度下降 在机器学习领域,梯度下降扮演着至关重要的角色。梯度下降是一种优化算法,通过迭代沿着由梯度定义的最陡下降方向,以最小化函数。类似于图中的场景,可以…

【自动驾驶技术栈学习】2-软件《大话自动驾驶》| 综述要点总结 by.Akaxi

----------------------------------------------------------------------------------------------------------------- 致谢:感谢十一号线人老师的《大话自动驾驶》书籍,收获颇丰 链接:大话自动驾驶 (豆瓣) (douban.com) -------------…

新版idea配置git步骤及项目导入

目录 git安装 下载 打开git Bash 配置全局用户名及邮箱 查看已经配置的用户名和邮箱 在IDEA中设置Git 问题解决 项目导入 git安装 下载 进入官网 Git - Downloads 点击所属本机系统,window如下图 选择64位安装 按照默认步骤一直下一步即可 打开git Bash …

2024下半年BRC-20铭文发展趋势预测分析

自区块链技术诞生以来,其应用场景不断扩展,代币标准也在不断演进。BRC-20铭文作为基于比特币区块链的代币标准,自其推出以来,因其安全性和去中心化特性,受到了广泛关注和使用。随着区块链技术和市场环境的不断变化&…

二零二四充能必读 | 618火热来袭,编程书单助你提升代码力

文章目录 📘 Java领域的经典之作🐍 Python学习者的宝典🌐 前端开发者的权威指南🔒 并发编程的艺术🤖 JVM的深入理解🏗 构建自己的编程语言🧠 编程智慧的结晶🌟 代码效率的提升 亲爱的…

【学习Day1】中央处理单元CPU

✍🏻记录学习过程中的输出,坚持每天学习一点点~ ❤️希望能给大家提供帮助~欢迎点赞👍🏻收藏⭐评论✍🏻指点🙏 中央处理单元CPU 中央处理器(CPU,central processing unit&#xff…

Fastjson 反序列化漏洞[1.2.24-rce]

漏洞复现环境搭建请参考 http://t.csdnimg.cn/vSaaw kali切换jdk版本请参考 Kali安装JAVA8和切换JDK版本的详细过程_kali安装jdk8-CSDN博客 漏洞原理 Fastjson提供的com.sun.rowset.JdbcRowSetImpl类下的dataSourceName方法支持传入一个RMI/LDAP源,支持远程调用。…