目录
- 一、基本概念
- 1.1描述进程-PCB
- 1.2task_struct中内容分类
- 二、了解进程
- 2.1查看进程
- 2.2通过系统调用获取进程标识符
- 三、fork创建进程
- 3.1fork()函数
- 3.2写时拷贝
- 四、进程的状态
- 4.1操作系统学科里的进程状态(运行、阻塞、挂起)
- 4.具体的Linux状态是如何维护的
- 五、进程的优先级
- 六、环境变量
- 6.1 环境变量的基本概念
- 6.2和环境变量相关命令
- 6.3获取环境变量的方式
- 七、进程地址空间
- 7.1程序地址空间
- 7.2写时拷贝
一、基本概念
- 课本概念:程序的一个执行实例,正在执行的程序等
- 内核观点:担当分配系统资源(CPU时间,内存)的实体。
1.1描述进程-PCB
操作系统是一个软硬件资源管理的软件,那么相比进程也要被操作系统(OS)管理。
那么操作系统是如何对进程进行管理的呢?答案肯定是:先描述,在组织,对一个进程我们首先要用计算机语言对其进行描述,再利用相关的数据结构将其组织管理起来。
在操作系统的书籍上称描述进程的结构体为pcb,在linux操作系统下这个结构体叫做task_struct,这是在操作系统内核中创建的一种数据结构。但是一台计算机上会同时有多个进程(你可以打开你的任务管理器,看到许多进程正在跑着),操作系统是如何将这么多进程组织起来的呢?
是将各个进程的pcb(process control block)利用链表这种数据结构对其组织起来。
1.2task_struct中内容分类
操作系统内核中创建pcb来完成对进程的管理,那么这个结构体里究竟都有什么内容呢?
- 标示符: 描述本进程的唯一标示符,用来区别其他进程。
- 这里的标示符指的是PID
- 状态: 任务状态,退出代码,退出信号等。
- 优先级: 相对于其他进程的优先级。
- 程序计数器: 程序中即将被执行的下一条指令的地址。
- 内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
- 上下文数据: 进程执行时处理器的寄存器中的数据。
- I/ O状态信息: 包括显示的I/O请求,分配给进程的I/ O设备和被进程使用的文件列表。
- 记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
- 其他信息
//截取源码部分
struct task_struct {
volatile long state;//状态 /* -1 unrunnable, 0 runnable, >0 stopped */
void *stack;//栈
atomic_t usage;
unsigned int flags; /* per process flags, defined below */
unsigned int ptrace;
int lock_depth; /* BKL lock depth */
/* task state */
int exit_state;
int exit_code, exit_signal;
int pdeath_signal; /* The signal sent when the parent dies */
/* ??? */
unsigned int personality;
unsigned did_exec:1;
unsigned in_execve:1; /* Tell the LSMs that the process is doing an
* execve */
unsigned in_iowait:1;
/* Revert to default priority/policy when forking */
unsigned sched_reset_on_fork:1;
pid_t pid;//标识符
pid_t tgid;
//...
};
二、了解进程
2.1查看进程
先看看猪跑的样子(嘿嘿)。
进程的信息可以通过 /proc 系统文件夹查看
大多数的进程同样可以通过top、ps这样的工具来查看
自己创建一个进程
普通的代码:
2.2通过系统调用获取进程标识符
- 进程id(PID)
- 父进程id(PPID)
这里可以看到test的pid是13414而它的ppid为9927,它的父进程是什么呢?
其实可以查看下。
ps -axj | head -1 && ps -axj | grep bash | grep -v grep
结论:我们自己写的程序是通过bash来创建子进程执行的,所以使用命令行bash启动的程序,其父进程都是bash。
三、fork创建进程
3.1fork()函数
fork 函数的作用是创建一个子进程,函数声明如下:
这里提一下返回值,父进程创建成功会返回子进程的PID,创建失败返回 -1,创建出子进程以后,子进程也会执行fork,但是子进程不会继续创建新的进程,因此返回值是0。这是我们辨别父子进程的关键依据。
- 子进程运行 fork()函数 返回0
- 父进程运行 fork()函数 返回子进程的PID
fork()函数调用后的变化:
fork之后,执行流会变成两个执行流
fork执行之后父子进程,父子进程谁先执行是随机的由调度器决定先调度谁
fork之后,fork之后的代码共享,通常我们采用if else 语句来进行分流,父子进程执行不同的代码
不同进程之间是相互独立的,父子进程也是如此,这是如何实现的呢?
对于代码:代码是只读的,父子进程公用一份代码谁读谁的代码互不影响。
对于数据:当有一个执行流想要修改数据的时候会发生写时拷贝(下面的进程地址空间会提到),来保证进程的独立性。
使用fork( )创建子进程的例子:
打印的顺序不一定是先打印父进程,然后打印子进程,顺序是随机的,子进程被创建以后,会立马加入到运行队列中,谁先运行完,就先打印
问题:为什么要给子进程返回0给父进程返回子进程的pid?
答案:返回不同的返回值,是为了区分让不同的执行流执行不同的代码块!一般而言fork之后的代码父子共享。一个父进程可以有多个子进程,而一个子进程可以有多个父进程,给父进程返回子进程的pid可以用来标识子进程的唯一性其目的也是为了区分子进程。
3.2写时拷贝
写时拷贝现象:
先看以下代码与执行结果。
我们发现,两次打印的值居然不一样,不是说父子进程共享一份数据和代码吗??
答案是发生了写时拷贝!!
写时拷贝原理:
四、进程的状态
4.1操作系统学科里的进程状态(运行、阻塞、挂起)
运行状态:
阻塞状态:
当一个进程的资源没有就绪时,系统会把这个进程放入等待队列中,当这个资源就绪时,就会把进程从等待队列放入运行队列中。
挂起状态:
假设操作系统的内存严重不足时,将等待队列中进程的代码和数据“换出”时,这个进程的状态为挂起状态。
4.具体的Linux状态是如何维护的
下面的状态在kernel源代码里定义:
/*
* The task state array is a strange "bitmap" of
* reasons to sleep. Thus "running" is zero, and
* you can test for combinations of others with
* simple bit tests.
*/
static const char * const task_state_array[] = {
"R (running)", /* 0 */
"S (sleeping)", /* 1 */
"D (disk sleep)", /* 2 */
"T (stopped)", /* 4 */
"t (tracing stop)", /* 8 */
"X (dead)", /* 16 */
"Z (zombie)", /* 32 */
};
- R运行状态(running):并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列里。
- S睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡(interruptible sleep))。
- D磁盘休眠状态(Disk sleep)有时候也叫不可中断睡眠状态(uninterruptible sleep),在这个状态的
进程通常会等待IO的结束。 - T停止状态(stopped): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可 以通过发送 SIGCONT
信号让进程继续运行。 - X死亡状态(dead):这个状态只是一个返回状态,你不会在任务列表里看到这个状态。
僵死状态(Zombies)是一个比较特殊的状态。当进程退出并且父进程(使用wait()系统调用,后面讲)
没有读取到子进程退出的返回代码时就会产生僵死(尸)进程僵死进程会以终止状态保持在进程表中,并且会一直在等待父进程读取退出状态代码。
所以,只要子进程退出,父进程还在运行,但父进程没有读取子进程状态,子进程进入Z状态
僵尸进程的危害:
进程的退出状态必须被维持下去,因为他要告诉关心它的进程(父进程),你交给我的任务,我办的怎
么样了。可父进程如果一直不读取,那子进程就一直处于Z状态?是的!
维护退出状态本身就是要用数据维护,也属于进程基本信息,所以保存在task_struct(PCB)中,换句话
说,Z状态一直不退出,PCB一直都要维护?是的!
那一个父进程创建了很多子进程,就是不回收,是不是就会造成内存资源的浪费?是的!因为数据结构
对象本身就要占用内存,想想C中定义一个结构体变量(对象),是要在内存的某个位置进行开辟空
间!
孤儿进程:
父进程如果提前退出,那么子进程后退出,进入Z之后,那该如何处理呢?
父进程先退出,子进程就称之为“孤儿进程”
孤儿进程被1号init进程领养,当然要有init进程回收喽
五、进程的优先级
问题1:什么是优先级
进程的优先级代表了对于资源的访问,谁先访问,谁后访问。
问题2:为什么要有进程优先级
因为资源是有限的,进程是多个的,注定了进程之间的竞争关系!操作系统必须保证进程的良性竞争,确认优先级。
问题3:怎么修改优先级
- UID : 代表执行者的身份
- PID : 代表这个进程的代号
- PPID :代表这个进程是由哪个进程发展衍生而来的,亦即父进程的代号
- PRI :代表这个进程可被执行的优先级,其值越小越早被执行
- NI :代表就是我们所要说的nice值了,其表示进程可被执行的优先级的修正数值
Linux不想过多的让用户参与优先级的调整,在我们对应的范围内进行优先级调整,nice:[-20,19]
PRI值越小越快被执行,那么加入nice值后,将会使得PRI变为:PRI(new)=PRI(old)+nice。
用top命令更改已存在进程的nice: - top
- 进入top后按“r”–>输入进程PID–>输入nice值
六、环境变量
6.1 环境变量的基本概念
- 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数
- 如:我们在编写C/C++代码的时候,在链接的时候,从来不知道我们的所链接的动态静态库在哪里,但
是照样可以链接成功,生成可执行程序,原因就是有相关环境变量帮助编译器进行查找。 - 环境变量通常具有某些特殊用途,还有在系统当中通常具有全局特性
6.2和环境变量相关命令
- echo: 显示某个环境变量值
- export: 设置一个新的环境变量
- env: 显示所有环境变量
- unset: 清除环境变量
- set: 显示本地定义的shell变量和环境变量
6.3获取环境变量的方式
1.命令行第三个参数
#include <stdio.h>
int main(int argc, char *argv[], char *env[])
{
int i = 0;
for(; env[i]; i++){
printf("%s\n", env[i]);
}
return 0;
}
2.通过第三方变量environ获取
#include <stdio.h>
int main(int argc, char *argv[])
{
extern char **environ;
int i = 0;
for(; environ[i]; i++){
printf("%s\n", environ[i]);
}
return 0;
}
总结:
环境变量是系统提供的一组name=value形式的变量,不同的环境变量有不同的用户,通常具有全局属性,可以被子进程继承。
我们所运行的进程都是子进程,bash在启动时会从操作系统的配置文件中读取环境变量的信息,子进程会继承父进程交给他的环境变量。
七、进程地址空间
7.1程序地址空间
验证的代码及结果:
7.2写时拷贝
所谓的地址空间是什么?
本质上是一个描述进程可视范围的大小,地址空间内一定要存在各种区域的划分,对线性地址进行start、end即可。
地址空间本质是内核的一个数据结构对象,类似PCB一样,地址空间也是要被操作系统管理的:先描述、在组织
为什么要有进程地址空间:
1.让进程以统一的视角看待内存。
2.增加进程虚拟空间可以让我们访问内存的时候,增加一个转换的过程,在这个转换的过程中,可以对我们的寻址请求进行在审查,一旦有异常访问,直接拦截,该请求不会到达物理内存,保护物理内存。
3.因为有地址空间和页表的存在,将进程管理模块和呢村管理模块进行解耦合!