文件管理概述
文件管理的对象:计算机中的程序和数据。
文件管理的主要任务:利用文件系统把所管理的程序和数据组织成一系列文件,并把文件的存取、共享和保护手段提供给用户。
文件管理的主要功能包括:外存的分配 目录管理 存储空间的管理 文件的共享和保护 数据的一致性控制
7.1 文件和文件系统
文件系统的管理功能是将其管理的程序和数据通过组织为一系列文件的方式实现的。而文件则是指具有文件名的若干相关元素的集合。元素通常是记录,而记录又是一组有意义的数据项的集合。可见,基于文件系统的概念,可以把数据组成分为数据项、记录和文件三级。
7.1.1. 数据项、记录和文件
1. 数据项
在文件系统中,数据项是最低级的数据组织形式,可把它分成以下两种类型:
(1) 基本数据项。
这是用于描述一个对象的某种属性的字符集,是数据组织中可以命名的最小逻辑数据单位,即原子数据,又称为数据元素或字段。它的命名往往与其属性一致。例如,用于描述一个学生的基本数据项有学号、姓名、年龄、所在班级等。
(2) 组合数据项。
它是由若干个基本数据项组成的,简称组项。例如,经理便是个组项,它由正经理和副经理两个基本项组成。又如,工资也是个组项,它可由基本工资、工龄工资和奖励工资等基本项所组成。
基本数据项除了数据名外,还应有数据类型。因为基本项仅是描述某个对象的属性,根据属性的不同,需要用不同的数据类型来描述。例如,在描述学生的学号时,应使用整数;描述学生的姓名则应使用字符串(含汉字);描述性别时,可用逻辑变量或汉字。
可见,由数据项的名字和类型两者共同定义了一个数据项的“型”。而表征一个实体在数据项上的数据则称为“值”。例如,学号/30211、姓名/王有年、性别/男等。
2. 记录
记录是一组相关数据项的集合,用于描述一个对象在某方面的属性。一个记录应包含哪些数据项,取决于需要描述对象的哪个方面。而一个对象,由于他所处的环境不同可把他作为不同的对象。
例如,一个学生,当把他作为班上的一名学生时,对他的描述应使用学号、姓名、年龄及所在系班,也可能还包括他所学过的课程的名称、成绩等数据项。但若把学生作为一个医疗对象时,对他描述的数据项则应使用诸如病历号、姓名、性别、出生年月、身高、体重、血压及病史等项。
在诸多记录中,为了能惟一地标识一个记录,必须在一个记录的各个数据项中,确定出一个或几个数据项,把它们的集合称为关键字(key)。或者说,关键字是能惟一标识一个记录的数据项。
通常,只需用一个数据项作为关键字。例如,前面的病历号或学号便可用来从诸多记录中标识出惟一的一个记录。然而有时找不到这样的数据项,只好把几个数据项定为能在诸多记录中惟一地标识出某个记录的关键字。
3. 文件
文件是指由创建者所定义的、具有文件名的一组相关元素的集合,可分为有结构文件和无结构文件两种。在有结构的文件中,文件由若干个相关记录组成;而无结构文件则被看成是一个字符流。文件在文件系统中是一个最大的数据单位,它描述了一个对象集。
例如,可以将一个班的学生记录作为一个文件。一个文件必须要有一个文件名,它通常是由一串ASCII码或(和)汉字构成的,名字的长度因系统不同而异。如在有的系统中把名字规定为8个字符,而在有的系统中又规定可用14个字符。用户利用文件名来访问文件。
此外,文件应具有自己的属性,属性可以包括: (1) 文件类型。可以从不同的角度来规定文件的类型,如源文件、目标文件及可执行文件等。 (2) 文件长度。文件长度指文件的当前长度,长度的单位可以是字节、字或块,也可能是最大允许的长度。 (3) 文件的物理位置。该项属性通常是用于指示文件在哪一个设备上及在该设备的哪个位置的指针。 (4) 文件的建立时间。这是指文件最后一次的修改时间等
7.1.2 文件名和文件类型
1. 文件名和扩展名
为了便于管理和控制文件而将文件分成若干种类型。由于不同系统对文件的管理方式不同,因而它们对文件的分类方法也有很大差异。
为了方便系统和用户了解文件的类型,在许多OS中都把文件类型作为扩展名而缀在文件名的后面,在文件名和扩展名之间用“.”号隔开。
2. 文件类型
1) 按用途分类
根据文件的性质和用途的不同,可将文件分为三类: (1) 系统文件。这是指由系统软件构成的文件。大多数的系统文件只允许用户调用,但不允许用户去读,更不允许修改;有的系统文件不直接对用户开放。
(2) 用户文件。
指由用户的源代码、目标文件、可执行文件或数据等所构成的文件。用户将这些文件委托给系统保管。
(3) 库文件。这是由标准子例程及常用的例程等所构成的文件。这类文件允许用户调用,但不允许修改。
2) 按文件中数据的形式分类
按这种方式分类,也可把文件分为三类:
(1) 源文件。这是指由源程序和数据构成的文件。通常由终端或输入设备输入的源程序和数据所形成的文件都属于源文件。它通常是由ASCII码或汉字所组成的。
(2) 目标文件。这是指把源程序经过相应语言的编译程序编译过,但尚未经过链接程序链接的目标代码所构成的文件。它属于二进制文件。通常,目标文件所使用的后缀名是“.obj”。
(3) 可执行文件。这是指把编译后所产生的目标代码再经过链接程序链接后所形成的文件。
3) 按存取控制属性分类
根据系统管理员或用户所规定的存取控制属性,可将文件分为三类:
(1) 只执行文件,该类文件只允许被核准的用户调用执行,不允许读和写。
(2) 只读文件,该类文件只允许文件主及被核准的用户去读,不允许写。
(3) 读写文件,这是指允许文件主和被核准的用户去读或写的文件。
4) 按组织形式和处理方式分类
根据文件的组织形式和系统对其的处理方式,可将文件分为三类:
(1) 普通文件:
由ASCII码或二进制码组成的字符文件。一般用户建立的源程序文件、数据文件、目标代码文件及操作系统自身代码文件、库文件、实用程序文件等都是普通文件,它们通常存储在外存储设备上。
(2) 目录文件:
由文件目录组成的,用来管理和实现文件系统功能的系统文件,通过目录文件可以对其它文件的信息进行检索。由于目录文件也是由字符序列构成,因此对其可进行与普通文件一样的种种文件操作。
(3) 特殊文件:
特指系统中的各类I/O设备。为了便于统一管理,系统将所有的输入/输出设备都视为文件,按文件方式提供给用户使用,如目录的检索、权限的验证等都与普通文件相似,只是对这些文件的操作是和设备驱动程序紧密相连的,系统将这些操作转为对具体设备的操作。
根据设备数据交换单位的不同,又可将特殊文件分为块设备文件和字符设备文件。前者用于磁盘、光盘或磁带等块设备的I/O 操作,而后者用于终端、打印机等字符设备的I/O 操作。
7.1.3 文件系统层次结构
可将该模型分为三个层次,其最底层是对象及其属性;中间层是对对象进行操纵和管理的软件集合;最高层是文件系统提供给用户的接口
1. 对象及其属性
文件管理系统管理的对象有:
① 文件。它作为文件管理的直接对象。
② 目录。为了方便用户对文件的存取和检索,在文件系统中必须配置目录,每个目录项中,必须含有文件名及该文件所在的物理地址(或指针)。对目录的组织和管理是方便用户和提高对文件存取速度的关键。
③ 磁盘(磁带)存储空间。文件和目录必定占用存储空间,对这部分空间的有效管理,不仅能提高外存的利用率,而且能提高对文件的存取速度。
2. 对对象操纵和管理的软件集合
这是文件管理系统的核心部分。文件系统的功能大多是在这一层实现的,其中包括: 对文件存储空间的管理、对文件目录的管理、用于将文件的逻辑地址转换为物理地址的机
3. 文件系统的接口
为方便用户的使用,文件系统以接口的形式提供了一组对文件和记录操作的方法和手段。通常是下面两种类型的接口:
(1) 命令接口。 这是指作为用户与文件系统交互的接口。 用户可通过键盘终端键入命令,取得文件系统的服务。
(2) 程序接口。这是指作为用户程序与文件系统的接口。用户程序可通过系统调用来取得文件系统的服务。
7.1.4 文件操作
1. 最基本的文件操作
(1) 创建文件。在创建一个新文件时,系统首先要为新文件分配必要的外存空间,并在文件系统的目录中,为之建立一个目录项。
(2) 删除文件。当已不再需要某文件时,可将它从文件系统中删除,清空要删除文件的目录项,并回收存储空间。
(3) 读文件。在读一个文件时,须在相应系统调用中给出文件名和应读入的内存目标地址。
(4) 写文件。在写一个文件时,须先查找目录,找到指定文件的目录项,再利用目录中的写指针进行写操作。
(5) 设置文件的读/写位置。设置文件读/写位置的操作,用于设置文件读/写指针的位置,以便每次读/写文件时,不是从其始端而是从所设置的位置开始操作。
2. 文件的“打开”和“关闭”操作
当前OS所提供的大多数对文件的操作,其过程大致都是这样两步: 第一步是通过检索文件目录来找到指定文件的属性及其在外存上的位置;第二步是对文件实施相应的操作,如读文件或写文件等。当用户要求对一个文件实施多次读/写或其它操作时,每次都要从检索目录开始。为了避免多次重复地检索目录,在大多数OS中都引入了“打开”(open)这一文件系统调用,当用户第一次请求对某文件进行操作时,先利用open系统调用将该文件打开。
所谓“打开”,是指系统将指名文件的属性(包括该文件在外存上的物理位置)从外存拷贝到内存打开文件表的一个表目中,并将该表目的编号(或称为索引)返回给用户。
以后,当用户再要求对该文件进行相应的操作时,便可利用系统所返回的索引号向系统提出操作请求。系统这时便可直接利用该索引号到打开文件表中去查找,从而避免了对该文件的再次检索。这样不仅节省了大量的检索开销,也显著地提高了对文件的操作速度。
如果用户已不再需要对该文件实施相应的操作时,可利用“关闭”(close)系统调用来关闭此文件,OS将会把该文件从打开文件表中的表目上删除掉。
3. 其它文件操作
为了方便用户使用文件,通常,OS都提供了数条有关文件操作的系统调用,可将这些调用分成若干类: 最常用的一类是有关对文件属性进行操作的,即允许用户直接设置和获得文件的属性,如改变已存文件的文件名、改变文件的拥有者(文件主)、改变对文件的访问权,以及查询文件的状态(包括文件类型、大小和拥有者以及对文件的访问权等);
另一类是有关目录的,如创建一个目录,删除一个目录,改变当前目录和工作目录等;
此外,还有用于实现文件共享的系统调用和用于对文件系统进行操作的系统调用等。
7.2 文件的逻辑结构
任何文件都存在下面两种形式的结构:
(1)文件的逻辑结构:用户所看到的文件组织形式;
(2)文件的物理结构:文件在外存上的存储组织形式,又称为文件的存储结构。
对文件逻辑结构的要求:
提高检索记录的速度和效率;
便于在文件中添加、删除和修改一个或多个记录;
降低文件的存储费用(存储空间)。
7.2.1 文件逻辑结构的类型
对文件逻辑结构所提出的基本要求,首先是有助于提高对文件的检索速度,即在将大批记录组成文件时,应采用一种有利于提高检索记录速度和效率的逻辑结构形式。其次是该结构应方便对文件进行修改,即便于在文件中增加、删除和修改一个或多个记录。第三是降低文件存放在外存上的存储费用,即尽量减少文件占用的存储空间,不要求大片的连续存储空间。
1. 按文件是否有结构分类
1)有结构文件
在记录式文件中,每个记录都用于描述实体集中的一个实体,各记录有着相同或不同数目的数据项。记录的长度可分为定长和不定长两类。 (1) 定长记录。这是指文件中所有记录的长度都是相同的,所有记录中的各数据项都处在记录中相同的位置,具有相同的顺序和长度。文件的长度用记录数目表示。对定长记录的处理方便、开销小,所以这是目前较常用的一种记录格式,被广泛用于数据处理中。在记录式文件中,每个记录都用于描述实体集中的一个实体,各记录有着相同或不同数目的数据项。记录的长度可分为定长和不定长两类。 (2) 变长记录。这是指文件中各记录的长度不相同。产生变长记录的原因,可能是由于一个记录中所包含的数据项数目并不相同,如书的著作者、论文中的关键词等;也可能是数据项本身的长度不定,例如,病历记录中的病因、病史;科技情报记录中的摘要等。不论是哪一种,在处理前,每个记录的长度是可知的。
2)无结构文件
如果说大量的数据结构和数据库是采用有结构的文件形式的话,则大量的源程序、可执行文件、库函数等,所采用的就是无结构的文件形式,即流式文件。其长度以字节为单位。对流式文件的访问,则是采用读/写指针来指出下一个要访问的字符。可以把流式文件看做是记录式文件的一个特例。在UNIX系统中,所有的文件都被看做是流式文件,即使是有结构文件,也被视为流式文件,系统不对文件进行格式处理。
2. 按文件的组织方式分类
根据用户和系统管理上的需要,可采用多种方式来组织这些记录,形成下述的几种文件:
(1) 顺序文件。
这是由一系列记录按某种顺序排列所形成的文件。其中的记录通常是定长记录,因而能用较快的速度查找文件中的记录。
(2) 索引文件。
当记录为可变长度时,通常为之建立一张索引表,并为每个记录设置一个表项,以加快对记录检索的速度。
(3) 索引顺序文件。
这是上述两种文件构成方式的结合。它为文件建立一张索引表,为每一组记录中的第一个记录设置一个表项。
7.2.2 顺序文件(Sequential File)
1. 顺序文件的排列方式
文件是记录的集合。文件中的记录可以是任意顺序的,因此,它可以按照各种不同的顺序进行排列。一般地,可归纳为以下两种情况: 第一种是串结构,各记录之间的顺序与关键字无关。通常的办法是由时间来决定,即按存入时间的先后排列,最先存入的记录作为第一个记录,其次存入的为第二个记录……, 依此类推。
第二种情况是顺序结构,指文件中的所有记录按关键字(词)排列。可以按关键词的长短从小到大排序,也可以从大到小排序;或按其英文字母顺序排序。 对顺序结构文件可有更高的检索效率,因为在检索串结构文件时,每次都必须从头开始,逐个记录地查找,直至找到指定的记录,或查完所有的记录为止。而对顺序结构文件,则可利用某种有效的查找算法,如折半查找法、插值查找法、跳步查找法等方法来提高检索效率
2. 顺序文件的优缺点
顺序文件的最佳应用场合是在对文件中的记录进行批量存取时(即每次要读或写一大批记录)。所有逻辑文件中顺序文件的存取效率是最高的。此外,对于顺序存储设备(如磁带),也只有顺序文件才能被存储并能有效地工作。
在交互应用的场合,如果用户(程序)要求查找或修改单个记录,为此系统便要去逐个地查找诸记录。这时,顺序文件所表现出来的性能就可能很差,尤其是当文件较大时,情况更为严重。
例如,有一个含有104个记录的顺序文件,如果对它采用顺序查找法去查找一个指定的记录,则平均需要查找5×103个记录;如果是可变长记录的顺序文件,则为查找一个记录所需付出的开销将更大,这就限制了顺序文件的长度。
7.2.3 记录寻址
1. 隐式寻址方式
对于定长记录的顺序文件,如果已知当前记录的逻辑地址,便很容易确定下一个记录的逻辑地址。
顺序文件中的记录可以是定长的,也可以是变长的。对于定长记录的顺序文件,如果已知当前记录的逻辑地址,便很容易确定下一个记录的逻辑地址。在读一个文件时,可设置一个读指针Rptr,令它指向下一个记录的首地址,每当读完一个记录时,便执行 Rptr:=Rptr + L 操作,使之指向下一个记录的首地址,其中的L为记录长度。类似地,在写一个文件时,也应设置一个写指针Wptr,使之指向要写的记录的首地址。
同样,在每写完一个记录时,又须执行以下操作: Wptr:=Wptr + L 对于变长记录的顺序文件,在顺序读或写时的情况相似,但应分别为它们设置读或写指针,在每次读或写完一个记录后,须将读或写指针加上Li。Li是刚读或刚写完的记录的长度。图6-3所示为定长和变长记录文件。
2. 显式寻址方式
该方式可用于对定长记录的文件实现直接或随机访问。因为任何记录的位置都很容易通过记录长度计算出来。而对于可变长度记录的文件则不能利用显式寻址方式实现直接或随机访问,必须增加适当的支持机构方能实现。下面我们通过两种方式对定长记录实现随机访问: (1) 通过文件中记录的位置。 (2) 利用关键字。
· 对于定长记录文件,如果要查找第i个记录,可直接根据下式计算来获得第i个记录相对于第一个记录首址的地址:Ai = i × L
然而,对于可变长度记录的文件,要查找其第i个记录时,须首先计算出该记录的首地址。为此,须顺序地查找每个记录,从中获得相应记录的长度Li,然后才能按下式计算出第i个记录的首址。假定在每个记录前用一个字节指明该记录的长度,则
7.2.4 索引文件(Index File)
1. 按关键字建立索引
定长记录的文件可以通过简单的计算,很容易地实现随机查找。但变长记录文件查找一个记录必须从第一个记录查起,一直顺序查找到目标记录为止,耗时很长。
可见,对于定长记录,除了可以方便地实现顺序存取外,还可较方便地实现直接存取。然而,对于变长记录就较难实现直接存取了,因为用直接存取方法来访问变长记录文件中的一个记录是十分低效的,其检索时间也很难令人接受。
为了解决这一问题,可为变长记录文件建立一张索引表,对主文件中的每个记录,在索引表中设有一个相应的表项,用于记录该记录的长度L及指向该记录的指针(指向该记录在逻辑地址空间的首址)。
由于索引表是按记录键排序的,因此,索引表本身是一个定长记录的顺序文件,从而也就可以方便地实现直接存取。
2. 具有多个索引表的索引文件
使用按关键字建立索引表的索引文件与顺序文件一样,都只能按该关键字进行检索。而实际应用情况往往是:不同的用户,为了不同的目的,希望能按不同的属性(或不同的关键字)来检索一条记录。为实现此要求,需要为顺序文件建立多个索引表,即为每一种可能成为检索条件的域(属性或关键字)都配置一张索引表。在每一个索引表中,都按相应的一种属性或关键字进行排序。
7.2.5 索引顺序文件 (Index Sequential File)
1. 索引顺序文件的特征
索引顺序文件是对顺序文件的一种改进,它基本上克服了变长记录的顺序文件不能随机访问,以及不便于记录的删除和插入的缺点。但它仍保留了顺序文件的关键特征,即记录是按关键字的顺序组织起来的。它又增加了两个新特征:一个是引入了文件索引表,通过该表可以实现对索引顺序文件的随机访问;另一个是增加了溢出(overflow)文件,用它来记录新增加的、删除的和修改的记录。
2. 一级索引顺序文件
最简单的索引顺序文件只使用了一级索引。其具体的建立方法是,首先将变长记录顺序文件中的所有记录分为若干个组,如50个记录为一个组。然后为顺序文件建立一张索引表,并为每组中的第一个记录在索引表中建立一个索引项,其中含有该记录的关键字和指向该记录的指针。索引顺序文件是最常见的一种逻辑文件形式
3. 两级索引顺序文件
对于一个非常大的文件,为找到一个记录而须查找的记录数目仍然很多,例如,对于一个含有106个记录的顺序文件,当把它作为索引顺序文件时,为找到一个记录,平均须查找1000个记录。为了进一步提高检索效率,可以为顺序文件建立多级索引,即为索引文件再建立一张索引表,从而形成两级索引表。
7.2.6 直接文件和哈希文件
1. 直接文件
采用前述几种文件结构对记录进行存取时,都须利用给定的记录键值,先对线性表或链表进行检索,以找到指定记录的物理地址。然而对于直接文件,则可根据给定的关键字直接获得指定记录的物理地址。换而言之,关键字本身就决定了记录的物理地址。
2. 哈希(Hash)文件
这是目前应用最为广泛的一种直接文件。它利用Hash函数(或称散列函数)可将关键字转换为相应记录的地址。但为了能实现文件存储空间的动态分配,通常由Hash函数所求得的并非是相应记录的地址,而是指向某一目录表相应表目的指针,该表目的内容指向相应记录所在的物理块。
7.3 文件目录
通常,在现代计算机系统中,都要存储大量的文件。为了能对这些文件实施有效的管理,必须对它们加以妥善组织,这主要是通过文件目录实现的。文件目录也是一种数据结构,用于标识系统中的文件及其物理地址,供检索时使用。对目录管理的要求如下:
(1) 实现“按名存取”,即用户只须向系统提供所需访问文件的名字,便能快速准确地找到指定文件在外存上的存储位置。这是目录管理中最基本的功能,也是文件系统向用户提供的最基本的服务。
(2) 提高对目录的检索速度。通过合理地组织目录结构的方法,可加快对目录的检索速度,从而提高对文件的存取速度。这是在设计一个大、中型文件系统时所追求的主要目标。
(3) 文件共享。在多用户系统中,应允许多个用户共享一个文件。这样就须在外存中只保留一份该文件的副本,供不同用户使用,以节省大量的存储空间,并方便用户和提高文件利用率。
(4) 允许文件重名。系统应允许不同用户对不同文件采用相同的名字,以便于用户按照自己的习惯给文件命名和使用文件。
7.3.1 文件控制块和索引节点
1. 文件控制块FCB(File Control Block)
为了能对系统中的大量文件施以有效的管理,在文件控制块中,通常应含有三类信息,即基本信息、存取控制信息及使用信息。
1) 基本信息类 基本信息类包括: ① 文件名,指用于标识一个文件的符号名。在每个系统中,每一个文件都必须有惟一的名字,用户利用该名字进行存取。② 文件物理位置,指文件在外存上的存储位置,它包括存放文件的设备名、文件在外存上的起始盘块号、指示文件所占用的盘块数或字节数的文件长度。③ 文件逻辑结构,指示文件是流式文件还是记录式文件、记录数;文件是定长记录还是变长记录等。④ 文件的物理结构,指示文件是顺序文件,还是链接式文件或索引文件。
为了能对系统中的大量文件施以有效的管理,在文件控制块中,通常应含有三类信息,即基本信息、存取控制信息及使用信息。
2) 存取控制信息类 存取控制信息类包括:文件主的存取权限、核准用户的存取权限以及一般用户的存取权限。
3) 使用信息类 使用信息类包括: 文件的建立日期和时间、文件上一次修改的日期和时间及当前使用信息(这项信息包括当前已打开该文件的进程数、是否被其它进程锁住、文件在内存中是否已被修改但尚未拷贝到盘上)。应该说明,对于不同OS的文件系统,由于功能不同,可能只含有上述信息中的某些部分。
下图示出了MS-DOS中的文件控制块,其中含有文件名、文件所在的第一个盘块号、文件属性、文件建立日期和时间及文件长度等。FCB的长度为32个字节,对于360 KB的软盘,总共可包含112个FCB,共占4 KB的存储空间。
2. 索引结点
1) 索引结点的引入
稍加分析可以发现,在检索目录文件的过程中,只用到了文件名,仅当找到一个目录项(即其中的文件名与指定要查找的文件名相匹配)时,才需从该目录项中读出该文件的物理地址。而其它一些对该文件进行描述的信息,在检索目录时一概不用。显然,这些信息在检索目录时不需调入内存。
为此,在有的系统中,如UNIX系统,便采用了把文件名与文件描述信息分开的办法,亦即,使文件描述信息单独形成一个称为索引结点的数据结构,简称为i结点。在文件目录中的每个目录项仅由文件名和指向该文件所对应的i结点的指针所构成。
在UNIX系统中一个目录仅占16个字节,其中14个字节是文件名,2个字节为i结点指针。在1 KB的盘块中可做64个目录项,这样,为找到一个文件,可使平均启动磁盘次数减少到原来的1/4,大大节省了系统开销。下图示出了UNIX的文件目录项
2) 磁盘索引结点
这是存放在磁盘上的索引结点。每个文件有惟一的一个磁盘索引结点,它主要包括以下内容: (1) 文件主标识符,即拥有该文件的个人或小组的标识符。 (2) 文件类型,包括正规文件、目录文件或特别文件。 (3) 文件存取权限,指各类用户对该文件的存取权限。 (4) 文件物理地址,每一个索引结点中含有13个地址项,即iaddr(0)~iaddr(12),它们以直接或间接方式给出数据文件所在盘块的编号。 (5) 文件长度,指以字节为单位的文件长度。 (6) 文件连接计数,表明在本文件系统中所有指向该(文件的)文件名的指针计数。 (7) 文件存取时间,指本文件最近被进程存取的时间、最近被修改的时间及索引结点最近被修改的时间。
3) 内存索引结点
这是存放在内存中的索引结点。当文件被打开时,要将磁盘索引结点拷贝到内存的索引结点中,便于以后使用。在内存索引结点中又增加了以下内容: (1) 索引结点编号,用于标识内存索引结点。 (2) 状态,指示i结点是否上锁或被修改。 (3) 访问计数,每当有一进程要访问此i结点时,将该访问计数加1,访问完再减1。 (4) 文件所属文件系统的逻辑设备号。 (5) 链接指针。设置有分别指向空闲链表和散列队列的指针。
7.3.2 简单的文件目录
1. 单级文件目录
这是最简单的目录结构。在整个文件系统中只建立一张目录表,每个文件占一个目录项,目录项中含文件名、文件扩展名、文件长度、文件类型、文件物理地址以及其它文件属性。此外,为表明每个目录项是否空闲,又设置了一个状态位。单级目录如图所示。
每当要建立一个新文件时,必须先检索所有的目录项,以保证新文件名在目录中是惟一的。然后再从目录表中找出一个空白目录项,填入新文件的文件名及其它说明信息,并置状态位为1。删除文件时,先从目录中找到该文件的目录项,回收该文件所占用的存储空间,然后再清除该目录项。 单级目录的优点是简单且能实现目录管理的基本功能——按名存取,但却存在下述一些缺点:
(1) 查找速度慢。对于稍具规模的文件系统,会拥有数目可观的目录项,致使为找到一个指定的目录项要花费较多的时间。对于一个具有N个目录项的单级目录,为检索出一个目录项,平均需查找N/2个目录项。
(2) 不允许重名。在一个目录表中的所有文件,都不能与另一个文件有相同的名字。然而,重名问题在多道程序环境下却又是难以避免的;即使在单用户环境下,当文件数超过数百个时,也难于记忆。
(3) 不便于实现文件共享。通常,每个用户都有自己的名字空间或命名习惯。因此,应当允许不同用户使用不同的文件名来访问同一个文件。然而,单级目录却要求所有用户都用同一个名字来访问同一文件。简言之,单级目录只能满足对目录管理的四点要求中的第一点, 因而,它只能适用于单用户环境。
2. 两级文件目录
为了克服单级目录所存在的缺点,可以为每一个用户建立一个单独的用户文件目录UFD(User File Directory)。这些文件目录具有相似的结构,它由用户所有文件的文件控制块组成。此外,在系统中再建立一个主文件目录MFD(Master File Directory);在主文件目录中,每个用户目录文件都占有一个目录项,其目录项中包括用户名和指向该用户目录文件的指针。如图所示,图中的主目录中示出了三个用户名,即Wang、Zhang和Gao。
在两级目录结构中,如果用户希望有自己的用户文件目录UFD,可以请求系统为自己建立一个用户文件目录;如果自己不再需要UFD,也可以请求系统管理员将它撤消。
在有了UFD后,用户可以根据自己的需要创建新文件。每当此时,OS只需检查该用户的UFD,判定在该UFD中是否已有同名的另一个文件。若有,用户必须为新文件重新命名;若无,便在UFD中建立一个新目录项,将新文件名及其有关属性填入目录项中,并置其状态位为“1”。
当用户要删除一个文件时,OS也只需查找该用户的UFD,从中找出指定文件的目录项, 在回收该文件所占用的存储空间后,将该目录项删除。
两级目录结构基本上克服了单级目录的缺点,并具有以下优点:
(1) 提高了检索目录的速度。如果在主目录中有n个子目录,每个用户目录最多为m个目录项,则为查找一指定的目录项,最多只需检索n+m个目录项。但如果是采用单级目录结构,则最多需检索n×m个目录项。假定n=m,可以看出,采用两级目录可使检索效率提高n/2倍。
(2) 在不同的用户目录中,可以使用相同的文件名。只要在用户自己的UFD中,每一个文件名都是惟一的。例如,用户Wang可以用Test来命名自己的一个测试文件;而用户Zhang则可用Test来命名自己的一个并不同于Wang的Test的测试文件。
两级目录结构基本上克服了单级目录的缺点,并具有以下优点:
(3) 不同用户还可使用不同的文件名来访问系统中的同一个共享文件。采用两级目录结构也存在一些问题。该结构虽然能有效地将多个用户隔开,在各用户之间完全无关时,这种隔离是一个优点;但当多个用户之间要相互合作去完成一个大任务,且一用户又需去访问其他用户的文件时,这种隔离便成为一个缺点,因为这种隔离会使诸用户之间不便于共享文件。
7.3.3 树形结构目录(Tree-Structured Directory)
1. 树形目录
在现代OS中,最通用且实用的文件目录无疑是树形结构目录。它可以明显地提高对目录的检索速度和文件系统的性能。主目录在这里被称为根目录,在每个文件目录中,只能有一个根目录,每个文件和每个目录都只能有一个父目录。把数据文件称为树叶,其它的目录均作为树的结点,或称为子目录。图示出了树形结构目录。
图中,用方框代表目录文件,圆圈代表数据文件。在该树型目录结构中,主(根)目录中有三个用户的总目录项A、B和C。在B项所指出的B用户的总目录B中,又包括三个分目录F、E和D,其中每个分目录中又包含多个文件。如B目录中的F分目录中,包含J和N两个文件。为了提高文件系统的灵活性,应允许在一个目录文件中的目录项既是作为目录文件的FCB,又是数据文件的FCB,这一信息可用目录项中的一位来指示。
2. 路径名和当前目录
1) 路径名
在树形目录结构中,从根目录到任何数据文件,都只有一条惟一的通路。在该路径上从树的根(即主目录)开始,把全部目录文件名与数据文件名依次地用“/”连接起来,即构成该数据文件的路径名(path name)。系统中的每一个文件都有惟一的路径名。
2) 当前目录(Current Directory) 当一个文件系统含有许多级时,每访问一个文件,都要使用从树根开始直到树叶(数据文件)为止的、包括各中间节点(目录)名的全路径名。这是相当麻烦的事,同时由于一个进程运行时所访问的文件大多仅局限于某个范围,因而非常不便。基于这一点,可为每个进程设置一个“当前目录”,又称为“工作目录”。进程对各文件的访问都相对于“当前目录”而进行。此时各文件所使用的路径名,只需从当前目录开始,逐级经过中间的目录文件,最后到达要访问的数据文件。把这一路径上的全部目录文件名与数据文件名用“/”连接形成路径名。如用户B的当前目录是F,则此时文件J的相对路径名仅是J本身。这样,把从当前目录开始直到数据文件为止所构成的路径名,称为相对路径名(relative path name);而把从树根开始的路径名称为绝对路径名(absolute path name)。
就多级目录较两级目录而言,其查询速度更快,同时层次结构更加清晰,能够更加有效地进行文件的管理和保护。在多级目录中,不同性质、不同用户的文件可以构成不同的目录子树,不同层次、不同用户的文件分别呈现在系统目录树中的不同层次或不同子树中,可以容易地赋予不同的存取权限。 但是在多级目录中查找一个文件,需要按路径名逐级访问中间节点,这就增加了磁盘访问次数,无疑将影响查询速度。 目前,大多数操作系统如UNIX、Linux和Windows系列都采用了多级目录结构。
3. 目录操作
(1)创建目录。
在树型目录结构中,用户可为自己建立UFD,并可再创建子目录。在用户要创建一个新文件时,只需查看在自己的UFD及其子目录中有无与新建文件相同的文件名。若无,便可在UFD或其某个子目录中增加一个新目录项。
(2)删除目录。
在树型目录中,对于一个已不再需要的目录,应如何删除其目录项,须视情况而定。这时,如果所要删除的目录是空的,即在该目录中已不再有任何文件,就可简单地将该目录项删除,使它在其上一级目录中对应的目录项为空;如果要删除的目录不空,即其中尚有几个文件或子目录,则可采用下述两种方法处理:
1) 不删除非空目录。当目录(文件)不空时,不能将其删除,而为了删除一个非空目录,必须先删除目录中的所有文件,使之先成为空目录,然后再予以删除。如果目录中还包含有子目录,还必须采取递归调用方式来将其删除,在MS-DOS中就是采用这种删除方式。
2) 可删除非空目录。当要删除一个目录时,如果在该目录中还包含有文件,则目录中的所有文件和子目录也同时被删除。
上述两种方法实现起来都比较容易,第二种方法则更为方便,但比较危险。因为整个目录结构虽然用一条命令即能删除,但如果是一条错误命令,其后果则可能很严重。
(3)改变目录。
用户可利用改变目录的命令,通过指定目录的绝对或相对路径名设置当前目录。
(4)移动目录。
到了一个阶段,通常都需要对目录组织进行调整,即将文件或子目录在不同的父目录之间移动。文件或子目录移动后,其文件的路径名将随之改变。
(5)链接(Link)操作。
对于树形结构目录,每个文件和每个目录都只允许一个父目录,这样不适合文件共享,但可以通过链接操作让指定文件具有多个父目录,从而方便了文件共享。
(6)查找。
当文件目录非常庞大时,要查找一个指定文件是有点困难的。因此在所有的OS中都支持以多种方式进行查找,如可以从根目录或当前目录位置开始进行查找。在进行搜索时,可用精确匹配或局部匹配方式等。
7.3.4 目录查询技术
1. 线性检索法
线性检索法又称为顺序检索法。在单级目录中,利用用户提供的文件名,用顺序查找法直接从文件目录中找到指名文件的目录项。在树形目录中,用户提供的文件名是由多个文件分量名组成的路径名,此时需对多级目录进行查找。假定用户给定的文件路径名是 /usr/ast/mbox,则查找 /usr/ast/mbox文件的过程如图所示。
具体查找过程说明如下: 首先,系统应先读入第一个文件分量名usr,用它与根目录文件(或当前目录文件)中各目录项中的文件名顺序地进行比较,从中找出匹配者,并得到匹配项的索引结点号6,再从6号索引结点中得知usr目录文件放在132号盘块中,将该盘块内容读入内存。 接着,系统再将路径名中的第二个文件分量名ast读入,用它与放在132号盘块中的第二级目录文件中各目录项的文件名顺序进行比较,又找到匹配项,从中得到ast的目录文件放在26号索引结点中,再从26号索引结点中得知/usr/ast是存放在496号盘块中,再读入496号盘块。
然后,系统又将该文件的第三个分量名mbox读入,用它与第三级目录文件/usr/ast中各目录项中的文件名进行比较,最后得到/usr/ast/mbox的索引结点号为60,即在60号索引结点中存放了指定文件的物理地址。目录查询操作到此结束。如果在顺序查找过程中发现有一个文件分量名未能找到,则应停止查找,并返回“文件未找到”信息。
2. Hash方法
在7.2.6节中曾介绍了Hash文件。如果我们建立了一张Hash索引文件目录,便可利用Hash方法进行查询,即系统利用用户提供的文件名并将它变换为文件目录的索引值,再利用该索引值到目录中去查找,这将显著地提高检索速度。 顺便指出,在现代操作系统中,通常都提供了模式匹配功能,即在文件名中使用了通配符“*”、“?”等。对于使用了通配符的文件名,系统此时便无法利用Hash方法检索目录,因此,这时系统还是需要利用线性查找法查找目录。
在进行文件名的转换时,有可能把n个不同的文件名转换为相同的Hash值,即出现了所谓的“冲突”。一种处理此“冲突”的有效规则是: (1) 在利用Hash法索引查找目录时,如果目录表中相应的目录项是空的,则表示系统中并无指定文件。 (2) 如果目录项中的文件名与指定文件名相匹配,则表示该目录项正是所要寻找的文件所对应的目录项,故而可从中找到该文件所在的物理地址。 (3) 如果在目录表的相应目录项中的文件名与指定文件名并不匹配,则表示发生了“冲突”,此时须将其Hash值再加上一个常数(该常数应与目录的长度值互质),形成新的索引值,再返回到第一步重新开始查找。
7.4 文件共享
基于索引节点的共享方式
在树型结构的目录中,当有两个(或多个)用户要共享一个子目录或文件时,必须将共享文件或子目录链接到两个(或多个)用户的目录中,才能方便地找到该文件,如图7-24 所示。此时该文件系统的目录结构已不再是树型结构,而是个有向非循环图DAG(Directed Acyclic Graph)。
7.4.1 基于有向无循环图实现文件共享
1. 有向无循环图DAG(Directed Acyclic Graph)
在严格的树形结构目录中,每个文件只允许有一个父目录,父目录可以有效地拥有该文件,其它用户要想访问它,必须经过其属主目录来访问该文件。这就是说,对文件的共享是不对称的,或者说,树形结构目录是不适合文件共享的。如果允许一个文件可以有多个父目录,即有多个属于不同用户的多个目录,同时指向同一个文件,这样虽会破坏树的特性,但这些用户可用对称的方式实现文件共享,而不必再通过其属主目录来访问。
2. 利用索引结点
如何建立B目录与共享文件之间的链接呢?如果在文件目录中包含了文件的物理地址,即文件所在盘块的盘块号,则在链接时,必须将文件的物理地址拷贝到B目录中去。但如果以后B或C还要继续向该文件中添加新内容,也必然要相应地再增加新的盘块,这须由附加操作Append来完成。而这些新增加的盘块,也只会出现在执行了操作的目录中。可见,这种变化对其他用户而言是不可见的,因而新增加的这部分内容已不能被共享。
为了解决这个问题,可以引用索引结点,即诸如文件的物理地址及其它的文件属性等信息,不再是放在目录项中,而是放在索引结点中。
在文件目录中只设置文件名及指向相应索引结点的指针。此时,由任何用户对文件进行Append操作或修改,所引起的相应结点内容的改变(例如,增加了新的盘块号和文件长度等),都是其他用户可见的,从而也就能提供给其他用户来共享。 在索引结点中还应有一个链接计数count,用于表示链接到本索引结点(亦即文件)上的用户目录项的数目。当count=3时,表示有三个用户目录项连接到本文件上,或者说是有三个用户共享此文件。
当用户C创建一个新文件时,他便是该文件的所有者,此时将count置1。当有用户B要共享此文件时,在用户B的目录中增加一目录项,并设置一指针指向该文件的索引结点,此时,文件主仍然是C,count=2。
如果用户C不再需要此文件,是否能将此文件删除呢?回答是否定的。因为,若删除了该文件,也必然删除了该文件的索引结点,这样便会使B的指针悬空,而B则可能正在此文件上执行写操作,此时将因此半途而废。
但如果C不删除此文件而等待B继续使用,这样,由于文件主是C,如果系统要记账收费,则C必须为B使用此共享文件而付账,直至B不再需要。图7-26示出了B链接到文件上的前、后情况。
7.4.2 利用符号链实现文件共享
1. 利用符号链接(Symbolic Linking)的基本思想
为使B能共享C的一个文件F,可以由系统创建一个LINK类型的新文件,也取名为F,并将F写入B的目录中,以实现B的目录与文件F的链接。在新文件中只包含被链接文件F的路径名。这样的链接方法被称为符号链接(Symbolic Linking)。
新文件中的路径名则只被看作是符号链(Symbolic Link),当B要访问被链接的文件F且正要读LINK类新文件时,此要求将被OS截获,OS根据新文件中的路径名去读该文件,于是就实现了用户B对文件F的共享。
在利用符号链方式实现文件共享时,只是文件主才拥有指向其索引结点的指针;而共享该文件的其他用户则只有该文件的路径名,并不拥有指向其索引结点的指针。这样,也就不会发生在文件主删除一共享文件后留下一悬空指针的情况。
当文件的拥有者把一个共享文件删除后,其他用户试图通过符号链去访问一个已被删除的共享文件时,会因系统找不到该文件而使访问失败,于是再将符号链删除,此时不会产生任何影响。
如何利用符号链实现共享
为使链接父目录D5能共享文件F,可以由系统创建一个LINK类型的新文件,也取名为F,并将F写入链接父目录D5中,以实现D5与文件F8的链接。在新文件F中只包含被链接文件F8的路径名。这样的链接方法被称为符号链接。新文件F中的路径名则只被看做是符号链。当用户通过D5访问被链接的文件F8,且正要读LINK类新文件时,此要求将被OS截获,OS根据新文件中的路径名去找到文件F8,然后对它进行读(写),这样就实现了用户B对文件F的共享。
利用符号链实现共享的优点
在利用符号链方式实现文件共享时,只是文件主才拥有指向其索引结点的指针;而共享该文件的其他用户则只有该文件的路径名,并不拥有指向其索引结点的指针。这样,也就不会发生在文件主删除一共享文件后留下一悬空指针的情况。当文件的拥有者把一个共享文件删除后,如果其他用户又试图通过符号链去访问一个已被删除的共享文件,则会因系统找不到该文件而使访问失败,于是再将符号链删除,此时不会产生任何影响。
利用符号链的共享方式存在的问题
利用符号链的共享方式也存在着一些问题:当其他用户去读共享文件时,系统是根据给定的文件路径名逐个分量(名)地去查找目录,直至找到该文件的索引结点。因此,在每次访问共享文件时,都可能要多次地读盘。这使每次访问文件的开销甚大,且增加了启动磁盘的频率。此外,要为每个共享用户建立一条符号链,而由于链本身实际上是一个文件,尽管该文件非常简单,却仍要为它配置一个索引结点,这也要耗费一定的磁盘空间。
7.5 文件保护
在现代计算机系统中,通常都存放了愈来愈多的宝贵信息供用户使用,给人们带来了极大的好处和方便,但同时也潜在着不安全性。影响文件安全性的主要因素有三:
(1) 人为因素,即由于人们有意或无意的行为,而使文件系统中的数据遭到破坏或丢失。
(2) 系统因素,即由于系统的某部分出现异常情况,而造成对数据的破坏或丢失。特别是作为数据存储介质的磁盘,在出现故障或损坏时,会对文件系统的安全性造成影响;
(3) 自然因素,即存放在磁盘上的数据,随着时间的推移将可能发生溢出或逐渐消失。
为了确保文件系统的安全性,可针对上述原因而采取三方面的措施:
(1) 通过存取控制机制,防止由人为因素所造成的文件不安全性。
(2) 采取系统容错技术,防止系统部分的故障所造成的文件的不安全性。
(3) 建立后备系统,防止由自然因素所造成的不安全性。
7.5.1 保护域(Protection Domain)
1. 访问权
为了对系统中的对象加以保护,应由系统来控制进程对对象的访问。对象可以是硬件对象,如磁盘驱动器、打印机;也可以是软件对象,如文件、程序。对对象所施加的操作也有所不同,如对文件可以是读,也可以是写或执行操作。我们把一个进程能对某对象执行操作的权力,称为访问权(Access right)。
2. 保护域
为了对系统中的资源进行保护而引入了保护域的概念,保护域简称为“域”。“域”是进程对一组对象访问权的集合,进程只能在指定域内执行操作。这样,“域”也就规定了进程所能访问的对象和能执行的操作。
3. 进程和域间的动态联系方式
在进程和域之间,也可以是一对多的关系,即一个进程可以联系着多个域。在此情况下,可将进程的运行分为若干个阶段,其每个阶段联系着一个域,这样便可根据运行的实际需要来规定在进程运行的每个阶段中所能访问的对象。
7.5.2 访问矩阵
1. 基本的访问矩阵
我们可以利用一个矩阵来描述系统的访问控制,并把该矩阵称为访问矩阵(Access Matrix)。访问矩阵中的行代表域,列代表对象,矩阵中的每一项是由一组访问权组成的。因为对象已由列显式地定义,故可以只写出访问权而不必写出是对哪个对象的访问权,每一项访问权access(i, j)定义了在域Di中执行的进程能对对象Qj所施加的操作集。
2. 具有域切换权的访问矩阵
为了实现在进程和域之间的动态联系,应能够将进程从一个保护域切换到另一个保护域。为了能对进程进行控制,同样应将切换作为一种权力,仅当进程有切换权时,才能进行这种切换。为此,在访问矩阵中又增加了几个对象,分别把它们作为访问矩阵中的几个域;当且仅当switch∈access(i, j)时,才允许进程从域i切换到域j。
7.5.3 访问矩阵的修改
1. 拷贝权(Copy Right)
我们可利用拷贝权将在某个域中所拥有的访问权(access(i, j))扩展到同一列的其它域中,亦即,为进程在其它的域中也赋予对同一对象的访问权(access(k, j)),
2. 所有权(Owner Right)
人们不仅要求能将已有的访问权进行有控制的扩散,而且同样需要能增加某种访问权,或者能删除某种访问权。此时,可利用所有权(O)来实现这些操作。
3. 控制权(Control Right)
拷贝权和所有权都是用于改变矩阵内同一列的各项访问权的,或者说,是用于改变在不同域中运行的进程对同一对象的访问权的。控制权则可用于改变矩阵内同一行中(域中)的各项访问权,亦即,用于改变在某个域中运行的进程对不同对象的访问权的。如果在access(i,j)中包含了控制权,则在域Di中运行的进程可以删除在域Dj中运行的进程对各对象的任何访问权。
7.5.4 访问矩阵的实现
1. 访问控制表(Access Control List)
这是指对访问矩阵按列(对象)划分,为每一列建立一张访问控制表ACL。在该表中,已把矩阵中属于该列的所有空项删除,此时的访问控制表是由一有序对(域,权集)所组成的。由于在大多数情况下,矩阵中的空项远多于非空项,因而使用访问控制表可以显著地减少所占用的存储空间,并能提高查找速度。
2. 访问权限(Capabilities)表
如果把访问矩阵按行(即域)划分,便可由每一行构成一张访问权限表。换言之,这是由一个域对每一个对象可以执行的一组操作所构成的表。表中的每一项即为该域对某对象的访问权限。当域为用户(进程)、对象为文件时,访问权限表便可用来描述一个用户(进程)对每一个文件所能执行的一组操作。