56 关于 linux 的 oom killer 机制

前言

这里主要讲的是 linux 的 oom killer 机制 

在系统可用内存较少的情况下,内核为保证系统还能够继续运行下去,会选择杀掉一些进程释放掉一些内存。
通常oom_killer的触发流程是:进程A想要分配物理内存(通常是读写内存)->触发缺页异常->内核去分配物理内存->物理内存不足,触发OOM。

 

 

测试用例

只要写一个 main, 不断地 malloc, 然后 访问一下 分配的空间即可 

然后 编译, 运行程序, 最终 linux 会 kill 这个进程 

 

完整的 oom_score 日志输出如下 

[  231.115880] Test06Unlimited invoked oom-killer: gfp_mask=0x14280ca(GFP_HIGHUSER_MOVABLE|__GFP_ZERO), nodemask=0, order=0, oom_score_adj=0
[  231.118999] Test06Unlimited cpuset=/ mems_allowed=0
[  231.121073] CPU: 0 PID: 253 Comm: Test06Unlimited Not tainted 4.10.14 #1
[  231.122613] Hardware name: QEMU Standard PC (i440FX + PIIX, 1996), BIOS Ubuntu-1.8.2-1ubuntu1 04/01/2014
[  231.124569] Call Trace:
[  231.124569]  __dump_stack+0x1f/0x21
[  231.124569]  dump_stack+0x58/0x76
[  231.124569]  dump_header+0x71/0xb1
[  231.124569]  oom_kill_process+0x9d/0x365
[  231.124569]  ? oom_evaluate_task+0x8d/0x10c
[  231.124569]  out_of_memory+0x1a6/0x1f1
[  231.124569]  __alloc_pages_slowpath+0xa75/0xae4
[  231.124569]  __alloc_pages_nodemask+0x161/0x218
[  231.124569]  alloc_pages_vma+0x1b4/0x235
[  231.124569]  do_anonymous_page+0x27a/0x585
[  231.124569]  handle_pte_fault+0x115/0x235
[  231.124569]  __handle_mm_fault+0x2b4/0x2ea
[  231.124569]  handle_mm_fault+0x148/0x1f0
[  231.124569]  __do_page_fault+0x40c/0x511
[  231.124569]  do_page_fault+0x22/0x27
[  231.124569]  page_fault+0x28/0x30
[  231.124569] RIP: 0033:0x7f0bf714d3e2
[  231.124569] RSP: 002b:00007ffca24d61d0 EFLAGS: 00000206
[  231.124569] RAX: 0000000000020b21 RBX: 00007f0bf7490b20 RCX: 0000000000100011
[  231.124569] RDX: 0000003c15d8f4e0 RSI: 0000003c15e8f4e0 RDI: 00007f0bf7490b20
[  231.124569] RBP: 0000000000100011 R08: 0000003c15db0000 R09: 00007f0bf76b8700
[  231.124569] R10: 0000003c15db0000 R11: 0000000000000001 R12: 0000000000120b31
[  231.124569] R13: 0000003c15d8f4d0 R14: 0000000000100000 R15: 0000000000100000
[  231.135287] Mem-Info:
[  231.136124] active_anon:312765 inactive_anon:8 isolated_anon:0
[  231.136124]  active_file:1 inactive_file:12 isolated_file:0
[  231.136124]  unevictable:24494 dirty:0 writeback:0 unstable:0
[  231.136124]  slab_reclaimable:2145 slab_unreclaimable:1265
[  231.136124]  mapped:653 shmem:8 pagetables:155990 bounce:0
[  231.136124]  free:13189 free_pcp:150 free_cma:0
[  231.140296] Node 0 active_anon:1251060kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB isolated(anon):0kB isolated(file):0kB mapped:2612kB dirty:0kB writeback:0kB shmem:32kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB pages_scanned:3181 all_unreclaimable? yes
[  231.141882] Node 0 DMA free:8132kB min:356kB low:444kB high:532kB active_anon:5140kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15992kB managed:15908kB mlocked:0kB slab_reclaimable:0kB slab_unreclaimable:4kB kernel_stack:0kB pagetables:2588kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB
[  231.143295] lowmem_reserve[]: 0 1945 1945 1945 1945
[  231.143840] Node 0 DMA32 free:44624kB min:44696kB low:55868kB high:67040kB active_anon:1245932kB inactive_anon:32kB active_file:4kB inactive_file:48kB unevictable:97976kB writepending:0kB present:2080640kB managed:2032384kB mlocked:0kB slab_reclaimable:8580kB slab_unreclaimable:5056kB kernel_stack:992kB pagetables:621372kB bounce:0kB free_pcp:600kB local_pcp:600kB free_cma:0kB
[  231.145484] lowmem_reserve[]: 0 0 0 0 0
[  231.145639] Node 0 DMA: 1*4kB (U) 0*8kB 0*16kB 0*32kB 1*64kB (M) 1*128kB (M) 1*256kB (M) 1*512kB (M) 1*1024kB (U) 1*2048kB (U) 1*4096kB (M) = 8132kB
[  231.146861] Node 0 DMA32: 2*4kB (UM) 11*8kB (UE) 5*16kB (UE) 7*32kB (ME) 5*64kB (UME) 5*128kB (UE) 3*256kB (UME) 1*512kB (M) 1*1024kB (M) 2*2048kB (ME) 9*4096kB (M) = 44624kB
[  231.147655] Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB
[  231.148490] 24515 total pagecache pages
[  231.148622] 0 pages in swap cache
[  231.148784] Swap cache stats: add 0, delete 0, find 0/0
[  231.149277] Free swap  = 0kB
[  231.149358] Total swap = 0kB
[  231.149506] 524158 pages RAM
[  231.149634] 0 pages HighMem/MovableOnly
[  231.149977] 12085 pages reserved
[  231.150064] 0 pages cma reserved
[  231.150148] 0 pages hwpoisoned
[  231.150292] [ pid ]   uid  tgid total_vm      rss nr_ptes nr_pmds swapents oom_score_adj name
[  231.151042] [  112]     0   112     6615      596      17       3        0         -1000 systemd-udevd
[  231.151642] [  241]     0   241     1169      425       8       3        0             0 sh
[  231.152080] [  253]     0   253 79844610   312881  155953     307        0             0 Test06Unlimited
[  231.152734] Out of memory: Kill process 253 (Test06Unlimited) score 888 or sacrifice child

 

 

oom-killer 进程的选择

场景是操作系统在申请物理内存的时候 资源已经没有了

然后 导致操作系统需要选择一个 物理内存占用相对较高的进程进行杀掉

然后 这里来看一下 具体的情况

 

 

这里是根据策略寻找一个 最佳匹配的进程

然后下面 oom_kill_process 发送信号, 杀掉对应的进程 

1c46121b93aa4104ba174fbd1b706929.png

 

select_bad_process 相关 

循环所有的进程, 计算 oom_score, oc 中记录 oom_score 最大的分数, 以及对应的进程 

ac70d107256f43e7806f98afd17959ba.png

 

oom_evaluate_task 相关 

某一些进程不能杀, 直接跳过 比如 init进程, 内核进程 

如果给定的进程已经被杀掉了 跳过/放弃

如果进程 有 oom_flag_origin, 直接 select 该进程, 并设置 score 为 LONG_MAX

接下来是根据 进程的情况计算 oom_score, 如果 score 比已有的 oc.choosen_points 大, 更新 oc->choosen, oc->choosen_points

f19f07e824534d78b33bf6941eda5bd7.png

 

oom_unkillable_task 不能杀的这一部分进程 

cfdefb7e01534437875b2eeaea2369f8.png

 

 

oom_badness 计算进程得分情况 

如果 进程不能杀, 得 0 分 

如果进程不存在, 得 0 分 

如果 oom_score_adj 为 OOM_SCORE_ADJ_MIN 或者 有 MMF_OOM_SKIP 标记, 得 0 分 

points 基础为 FILEPAGES + ANNOPAGES + SHMEMPAGES + SWAP_EVENTS + 页框数量 + pmd 数量 

然后 再计算一个 oom_score_adj 的一个偏移 (rampages + swappages) / 1000

最终得分为 points + oom_score_adj

79709ec57ab049119eda97186a0af288.png 

 

在外面 select_bad_process 的地方对于 oom_score 有调整

以这里的 Test06Unlimited 为例

rss 为 312881
swapents 为 0
nr_ptes 为 155953
nr_pmds 为 307
oom_adj_score 为 0
totalpages 为 524158 – 12085 = 512073

根据计算规则 oom_badness 中 oom_score 计算结果为 (((312881 + 0 + 155953 + 307) + (0 * (512073 / 1000))) * 0.97) = 455066
然后 外层的 select_bad_process 更新 oom_score 为 455066 * 1000 / 512073 = 888

MM_RSS 为 FILEPAGES + ANNOPAGES + SHMEMPAGES  3ebda27ff9ed4eac88e60e8dfab8b1fe.png

 

 

输出任务, 寄存器信息

task_struct->comm 可以查看 给定的进程的 执行程序的信息

输出进程相关信息 

5c60bc8e8004406799f86a94d45a5656.png

fbd02266c8434eaba52592aeb937c4c3.png 

 

输出堆栈信息 

printk_stack_address 是输出每一行调用栈信息 

__show_regs 中输出各个寄存器相关 

c167f5544a1b4c25baf3660dbee67816.png

4d6e8048f3574bf49835e835f282cde2.png

0842a513815b470f8f25d646e9bde349.png

 

__show_regs 输出各个寄存器相关信息 

c089d22531c4468aa582680bc391a2d1.png

 

 

输出内存信息 

fcc54fd549e3482c9377dcab6459f314.png

75adb2bd982a4923a720314ccd7eb5b9.png

 

 

输出进程的相关信息 

只要是可以杀掉的进程 统统列出来, 根据这些信息已经可以大致计算出每一个进程的 得分情况了

aa10344810e646aaa8f64c2e9524b40b.png

 

 

输出要杀的进程的信息

40e5d83cf4ab4916b8b27749c51f99f7.png

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/610729.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

新能源汽车中HEV与PHEV分别代表什么车型,它们与传统燃油车都有什么区别?

前言 新能源汽车正逐渐成为全球汽车工业的主流方向,而HEV(Hybrid Electric Vehicle)和PHEV(Plug-in Hybrid Electric Vehicle)这两种混合动力车型在这一转型过程中扮演着重要角色。下面我们详细探讨HEV与PHEV的定义&a…

基于FPGA的视频矩阵 视频拼接 无缝切换解决方案

视频矩阵 视频矩阵 视频拼接 无缝切换 1. 最大支持144路HDMI视频输入,最大支持144路路HDMI输出,完全交叉切换。 2. 与包括1080p/60的所有HDTV分辨率和高达1920*1200的PC的分辨率兼容; 3. 支持HDMI 1.3a、HDCP 1.3、HDCP 1.4、以及DVI 1.0协…

如何使用visual vm和jstat进行远程监控

如何使用visual vm和jstat进行监控 安装visual vm 好像从jdk某个版本开始,jdk的bin目录下就不自带jvisualvm了,需要从官网下载一个visual vm。 打开visual vm Local是你本地的,无需多言。 先准备下必备的插件 如何通过visual vm观测远程…

Prometheus监控Kubernetes Pod状态

本文将介绍如何配置Prometheus的告警规则,实现对于Kubernetes Pod状态的监控。 1.Pod的状态类型 在Prometheus 监控Kubernetes Pod 状态时,通常可以观察到以下几种状态情况: 1. Running(运行中) Pod 处于运行状态意…

Spring Framework-IoC详解

IoC的概念和作用 在介绍Ioc之前,我们首先先了解一下以下内容 什么是程序的耦合 耦合性(Coupling),也叫耦合度,是对模块间关联程度的度量。耦合的强弱取决于模块间接口的复杂性、调用模块的方式以及通过界面传送数据的多少。模块间的耦合度…

Java毕业设计 基于SpringBoot vue新能源充电系统

Java毕业设计 基于SpringBoot vue新能源充电系统 SpringBoot 新能源充电系统 功能介绍 首页 图片轮播 充电桩 充电桩类型 充电桩详情 充电桩预约 新能源公告 公告详情 登录注册 个人中心 余额充值 修改密码 充电桩报修 充电桩预约订单 客服 后台管理 登录 个人中心 修改密码…

【Linux】模拟实现bash(简易版)

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:Linux 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵,希望大佬指点一二 如果文章对…

redis深入理解之数据存储

1、redis为什么快 1)Redis是单线程执行,在执行时顺序执行 redis单线程主要是指Redis的网络IO和键值对读写是由一个线程来完成的,Redis在处理客户端的请求时包括获取(socket 读)、解析、执行、内容返回 (socket 写)等都由一个顺序串行的主线…

权力集中,效率提升,中心化模式的优势与挑战

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》 💪🏻 制定明确可量化的目标,坚持默默的做事。 🚀 转载自热榜文章🔥:探索设计模式的魅力:权力集中…

Microsoft Project使用简明教程

一.认识Microsoft Project Microsoft Project 是微软公司开发的项目管理软件,用于规划、协调和跟踪项目的进度、资源和预算,如下图所示,左边是任务的显示,右边是一个日程的显示图,最上方的长方形处在我们项目设定日程…

【oracle数据库安装篇三】Linux6.8单机环境oracle11g容灾ADG搭建

说明 DataGuard 是在主节点与备用节点间通过日志同步来保证数据的同步,可以实现数据库快速切换与灾难性恢复。用户能够在对主数据库影响很小的情况下,实现主备数据库的同步。 关联文章 【oracle数据库安装篇一】Linux5.6基于LVM安装oracle11gR2单机 【…

Pandas数据取值与选择

文章目录 第1关:Series数据选择第2关:DataFrame数据选择方法 第1关:Series数据选择 编程要求 本关的编程任务是补全右侧上部代码编辑区内的相应代码,要求实现如下功能: 添加一行数据,时间戳2019-01-29值为…

vue开发网站—①调用$notify弹窗、②$notify弹窗层级问题、③js判断两个数组是否相同等。

一、vue中如何使用vant的 $notify(展示通知) 在Vue中使用Vant组件库的$notify方法来展示通知,首先确保正确安装了Vant并在项目中引入了Notify组件。 1.安装vant npm install vant --save# 或者使用yarn yarn add vant2.引入:在ma…

自存angular 自定义snackbar

定义 1.自定义样式 2.自定义组件 就在要使用snackbar的组件中 在module中引入该组件(重新写一个组件也行的 直接引入就好) 打开这个组件 给这个自定义的组件传参 这个自定义组件接参(类似对话框接参) 使用参数 在这个自定义组件中 做了点击如何关闭s…

企业信使运营管理平台功能介绍

企业信使运营管理平台是一种为企业提供内部协同、任务管理、沟通交流、文件共享等功能的综合性管理平台。该平台旨在提高企业内部的工作效率和沟通协作能力,提供便捷的工作管理工具,促进企业的业务发展。 内部协同功能 企业信使运营管理平台首先提供一种…

Navicat Data Modeler Ess for Mac:强大的数据库建模设计软件

Navicat Data Modeler Ess for Mac是一款专为Mac用户设计的数据库建模与设计工具,凭借其强大的功能和直观的界面,帮助用户轻松构建和管理复杂的数据库模型。 Navicat Data Modeler Ess for Mac v3.3.17中文直装版下载 这款软件支持多种数据库系统&#x…

android进阶-AIDL

参考:Android进阶——AIDL详解_android aidl-CSDN博客 AIDL(Android 接口定义语言),可以使用它定义客户端与服务端进程间通信(IPC)的编程接口,在 Android 中,进程之间无法共享内存&…

全视通助力珠海市井岸镇卫生院新院,建设智慧病房

5月6日,位于珠海市斗门区的井岸镇卫生院新院正式启用,面向市民开诊。新院各诊区就医秩序井然,总体情况良好。据统计,截至开诊当天11点30分,新院门诊共接诊347人次,预防接种81人次,儿童体检33人次…

Docker快速搭建NAS服务——NextCloud

Docker快速搭建NAS服务——NextCloud 文章目录 前言NextCloud的搭建docker-compose文件编写运行及访问 总结 前言 本文主要讲解如何使用docker在本地快速搭建NAS服务,这里主要写如下两种: FileBrowser1:是一个开源的Web文件管理器&#xff…

effective python学习笔记_类与接口

用组合类实现多层结构而不用内置类型 例子:成绩单,存储学生各科成绩多个然后加权重,如果用字典类型会导致字典有多层嵌套结构 思想 当用内置类型如字典元组等结构出现超过二层的多层嵌套结构时,读起来会比较难懂,此时…