文章说明:
-
Linux内核版本:5.0
-
架构:ARM64
-
参考资料及图片来源:《奔跑吧Linux内核》
-
Linux 5.0内核源码注释仓库地址:
zhangzihengya/LinuxSourceCode_v5.0_study (github.com)
进程调度的概念比较简单,假设在一个单核处理器的系统中,同一时刻只有一个进程可以拥有处理器资源,那么其他的进程只能在就绪队列(runqueue)中等待,等到处理器空闲了之后才有机会获取处理器资源来运行。在这种场景下,操作系统就需要从众多的就绪进程中选择—个最合适的进程来运行,这个就是进程调度器(scheduler)要做的事情。调度器产生的最主要原因是提高处理器的利用率(CPUutilization)
1. 进程优先级和权重
Linux操作系统最早采用nice值来调整进程的优先级。nice值的思想是要对其他进程友好,降低优先级来支持其他进程消耗更多的处理器时间,它的范围是-20~+19,默认值是0。nice值越大,优先级反而越低; nice值越低,优先级越高。nice值-20表示这个进程是非常重要的,优先级最高;而nice值19则表示允许其他进程比这个线程优先享有宝贵的CPU时间,这也是nice值的由来。
内核使用0~139的数值表示进程的优先级,数值越小,优先级越高。优先级0-99给实时进程使用, 100-139给普通进程使用。另外,在用户空间中有一个传统的变量nice,它用于映射普通进程的优先级,即100-139。
优先级在Linux内核中的划分方式如下:
- 普通进程的优先级:100~139
- 实时进程的优先级:0~99
- deadline进程的优先级:-1
task_struct 数据结构中使用4个成员描述进程的优先级:
struct task_struct {
...
// 动态优先级,是调度类考虑的优先级
// 0~139,值越小优先级越高
int prio;
// 静态优先级,在进程启动时分配。内核不存储 nice 值,取而代之的是 static_prio
// NICE_TO_PRIO 宏可以把nice值转换成 static_prio
// static_prio 不会随着时间而改变,用户可以通过 nice 或 sched_setscheduler 等系统调用来修改该值
// 100~139,值越小优先级越高
int static_prio;
// 基于 static_prio 和调度策略计算出来的优先级,在创建进程时会继承父进程的 normal_prio
// 对于普通进程,normal_prio 等同于 static_prio
// 对于实时进程,会根据 rt_priority 重新计算 normal_prio,详见 effective_prio 函数
// 0~139,值越小优先级越高
int normal_prio;
// 实时进程的优先级
// 0~99,值越大越高
unsigned int rt_priority;
...
}
在Linux内核中除了使用优先级来表示进程的轻重缓急之外,在实际调度器里还使用权重的概念来表示进程的优先级。为了计算方便,内核约定nice值为0的进程的权重值为1024,其他nice值对应的进程的权重值可以通过查表的方式来获取,内核预先计算好了一个表 sched_prio_to_weight[40],表中下标对应nice值[-20~19]。
const int sched_prio_to_weight[40] = {
/* -20 */ 88761, 71755, 56483, 46273, 36291,
/* -15 */ 29154, 23254, 18705, 14949, 11916,
/* -10 */ 9548, 7620, 6100, 4904, 3906,
/* -5 */ 3121, 2501, 1991, 1586, 1277,
/* 0 */ 1024, 820, 655, 526, 423,
/* 5 */ 335, 272, 215, 172, 137,
/* 10 */ 110, 87, 70, 56, 45,
/* 15 */ 36, 29, 23, 18, 15,
};
2. 调度策略
进程调度依赖于调度策略(schedule policy),Linux内核把相同类型的调度策略抽象成调度类 (schedule class)。不同类型的进程采用不同的调度策略,目前Linux内核中默认实现了5种调度类,分别是stop、deadline、realtime、CFS和idle,它们分别使用sched_class来定义,并且通过next指针串联在—起,如下图所示:
Linux内核支持的5个调度类的异同如下表所示:
相应的源码定义如下:
// 调度策略
// 分时调度策略,非实时进程的默认调度策略,Linux内核没有实现这类调度策略
#define SCHED_NORMAL 0
// 先进先出调度策略
#define SCHED_FIFO 1
// 循环调度策略,表示优先级相同的进程以循环分享时间的方式来运行
#define SCHED_RR 2
// 批处理调度,这个调度策略表示让调度器认为该进程是 CPU 消耗型的,因此,调度器对这类进程的唤醒惩罚比较小。
// 在 Linux 内核里,该类调度策略表示使用 CFS
#define SCHED_BATCH 3
/* SCHED_ISO: reserved but not implemented yet */
// 空闲调度策略,用于运行低优先级的任务
#define SCHED_IDLE 5
// 用于调度有严格时间要求的实时进程
#define SCHED_DEADLINE 6
3. 调度算法
调度算法 | 时间复杂度 | 算法思想 | 缺点 |
---|---|---|---|
基于优先级的调度算法 | O(n) | 分配给进程时间片,时间片表示进程调度进来与调度出去之间所能持续运行的时间长度 | 分配多长的时间片是一个需要考虑的问题,时间片过长的话会导致交互型的进程得 不到及时响应,时间片过短的话会增大进程切换带来的处理器消耗 |
多级反馈队列算法 | O(1) | 把进程按照优先级分成多个队列,相同优先级的进程在同一个队列中 | 参数如何确定和优化。如系统需要设计多少个优先级队列? 时间片应该设置成多少? |
基于多级反馈队列的调度算法 | O(1) | 每个CPU各自维护一个属于自己的就绪队列,这样减少了锁的争用。就绪队列由两个优先级数组组成,即活跃(active)优先级数组和过期(expired)优先级数组,每个优先级数组包含MAX_PRIO(140)个优先级队列,也就是每个优先级对应一个队列,活跃优先级数组中所有进程用完了时间片之后,活跃优先级数组和过期优先级数组会进行互换 | |
CFS | O(1) | CFS抛弃以前固定时间片和固定调度周期的算法,而采用进程权重值的比例来量化和计算实际运行时间。引入虚拟时间(vmntime)的概念,每个进程的虚拟时间是实际运行时间相对于nice值为0的进程的权重的比值。CFS总是选择虚拟时间最短的进程 |