从零开始学习Linux（9）----文件系统

1.前言

1.铺垫

a.文件=内容+属性

b.访问文件之前，都得先打开，修改文件，都是通过执行代码的方式完成修改，文件必须被加载到内存中

c.谁打开文件？进程在打开文件

d.一个进程可以打开多少个文件呢？可以打开多个文件

e.进程和文件的关系，struct task_struct 和struct XXXX?

f.系统中是不是所有的文件都被进程打开了？不是！没有被打开的文件？就在磁盘中

一定时间段内，系统中存在多个进程，也可能同时存在更多的被打开的文件，OS要不要管理多个被进程打开的文件呢？肯定的，如何管理呢？先描述，再组织！预言一下：内核中一定要有描述被打开文件的结构体，并用其定义对象。

2.C语言文件接口-对比重定向

以“w”方式打开文件，文件会被自动清空

以“a”追加形式写入

什么叫做当前路径：进程在启动时会自动记录自己启动时所在的路径。

程序默认打开的文件流：stdin，stdout，stderr可以直接被使用。

extern FILE *stdin/stdout/stderr：FILE是C语言自己封装的一个结构体，必定要封装特定的fd。

访问文件不仅仅有C语言的文件接口，OS必须提供对应的访问文件的系统调用。

int open(const char *pathname,int flags);

int open(const char *pathname,int flags,mode_t mode);

w:清空文件---int fd=open("log.txt",O_WRONLY|O_CREAT|O_TRUNC,0666);

a:追加文件---int fd=open("log.txt",O_WRONLY|O_CREAT|O_APPEND,0666);

C语言的文件接口实际上就是封装了系统调用！

3.文件fd

为什么访问文件，用系统调用接口，都必须使用fd呢？文件描述符的本质，就是数组下标。

ssize_t write(int fd,const void *buf,size_t count);

ssize_t read(int fd,const void *buf,size_t count);

int close(int fd);

每打开一个文件，创建一个struct_file存入文件描述符表，通过不同的fd找到每一个file结构体（属性，方法集，缓冲区），文件关闭时存入磁盘中。

如何理解一切皆文件，每个设备的操作方法一定是不一样的，为了屏蔽硬件的差异统一管理，就像C++中的多态概念一样，在上层通过统一的方法，实现操作不同的硬件。

文件fd的分配规则：最小的没有被使用的数组下标，会分配给最新打开的文件

4.缓冲区问题

缓冲区它就是一块内存区域，用空间来换时间。

为什么要有？提高使用者的效率：聚集数据，一次拷贝（刷新），提高整体效率

我们一直在说的缓冲区和内核中的缓冲区，没关系（尽管他有），是语言层面的缓冲区，C语言自带缓冲区。

调用系统调用是又成本的，时间&&空间，有效的减少C接口的使用效率。

1.无刷新，无缓冲

2.行刷新---显示器，XXX\nYYY

3.全缓冲，全部刷新---普通文件，缓冲区被写满，才刷新

a.强制刷新

b.进程退出的时候，要自动刷新

具体在哪里？缓冲区是被FILE结构来维护的！一个文件维护一个缓冲区

如何证明？如果向显示器进行打印，刷新方案就是行，对test.txt刷新策略，立即变成了全缓冲，刷新数据，就是清空缓冲区，修改数据的一种方式。

2.文件系统

系统中是不是所有得文件都被打开了呢？大部分文件都是没有被打开的。

如果没有被打开呢？在哪里保存呢？磁盘，SSD，OS要不要管理一下磁盘上的文件呢？如何让OS快速的定位一个文件

1.磁盘的物理存储

磁盘/柱面：唯一的编号

扇区（编号）：是磁盘IO的基本单位---不一定是系统和磁盘IO的基本单位

磁头，盘面：都有唯一编号

如果我想访问磁盘中一个扇区：

通过磁头定位：磁道/柱面 cylinder

使用哪一个磁头：head

哪一个扇区：Sector

CHS定位法，那么任何文件，不就是多个扇区承载的数据吗？

2.磁盘的逻辑存储

对磁盘的管理变成了对数组的增删查改！

Sector：扇区

sector/单盘扇区的=0

sector%单盘扇区的个数=temp

temp/一个磁道上的扇区的个数==我在哪一个磁道

temp%一个磁道上的扇区的个数==结果，我是特定一个磁道的哪一个扇区

OS认为，一次和磁盘IO一个扇区（512）单位太小了，IO的基本单位为4KB

Linux磁盘文件特性：文件=内容+属性

内容和属性分开存储，内容的大小不确定，可能很大，可能很小，属性是固定大小的，只不过每个类别内容不一样。

系统中，标识一个文件，用的不直接是文件名，而是inode

i节点表：存放文件属性如文件大小，所有者，最近修改时间等inode table
inode位图（inode Bitmap）：每个bit表示一个inode是否空闲可用。（比特位的位置：第几个inode，比特位的内容：表示该inode是否被使用）
数据区：存放文件内容
块位图（Block Bitmap）：Block Bitmap中记录着Data Block中哪个数据块已经被占用，哪个数据块没有被占用。（比特位的位置：表示的是块号，比特位的内容：对应的块是否被使用）
Block Group：ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成
超级块（Super Block）：存放文件系统本身的结构信息，记录的信息主要有Block和inode的总量，未使用的Block和inode的数量，一个Block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息，Super Block的信息被破坏，可以说整个文件系统的结构就被破坏了。

文件名呢？任何一个普通文件，一定在一个目录中，目录是不是文件？是，inode+目录的内容（文件名和inode的映射关系）

对一个文件，进行增删改查，都和该文件所处的目录有关系

查找一个文件，在内核中，都要逆向的递归得到，从根目录进行路径解析

一个被写入文件系统的分区，要被Linux使用，必须要先把这个具有文件系统的分区进行“挂载”。

一个文件系统所对应的分区，挂载在对应的目录中，分区的访问，都是通过所挂载的路径访问的！

访问一个文件，可以根据路径前缀，优先分出文件在哪一个分区下

3.软硬链接

硬链接本质就是在指定的目录下，插入新的文件名和目标文件的映射关系，并让inode的引用计数++，软链接本质就是一个独立文件，软链接内容里面放的目标文件的路径。

1.硬链接

硬链接是文件数据块的一个引用，它指向了文件在磁盘上的实际数据块。一个文件可以有多个硬链接，这些链接共享相同的数据块。当创建一个文件的硬链接时，实际上只是在文件系统的inode表中为现有的数据块增加了一个引用计数。

特性：

硬链接和源文件指向相同的数据块。
删除硬链接不会影响源文件或其他硬链接。
硬链接不能跨文件系统或目录。
不能对目录创建硬链接（除了特殊的.和..目录项）。
硬链接的创建和删除只影响inode的链接计数。

2.软链接

软链接是一个特殊的文件，它包含了对另一个文件或目录的引用（路径）。与硬链接不同，软链接实际上是一个新文件，只是这个文件的内容是另一个文件或目录的路径。

特性：

软链接的内容是另一个文件或目录的路径。
删除源文件会导致软链接变为“死链接”或“断链”。
软链接可以跨文件系统或目录。
可以对目录创建软链接。
可以通过ln -s命令创建软链接。

# 创建file1  
echo "Hello, World!" > file1  
  
# 创建硬链接  
ln file1 hardlink1  
  
# 创建软链接  
ln -s file1 symlink1  
  
# 查看file1的硬链接数（默认至少为2，因为还有.和..目录项）  
ls -li file1  
  
# 通过硬链接和软链接访问文件内容  
cat hardlink1  
cat symlink1  
  
# 删除file1  
rm file1  
  
# 硬链接hardlink1仍然可以访问（因为数据块还在）  
cat hardlink1  
  
# 软链接symlink1现在变为死链接（因为源文件已删除）  
cat symlink1  # 将显示错误信息