文章目录
- 文件和Socket
文件和Socket
在之前写的网络服务,它们的本质其实就是一个进程,而对于每一个打开的文件来说,都要有一个自己对应的文件描述符,其中会默认打开对应的012,作为标准输入标准输出标准错误,这是之前的认识
如上图所示,进程的PCB当中会包含有对应的struct files_struct结构体,而又会包含对应的struct file结构体,在这个结构体当中可以看到对应的文件的操作方法集和对应的文件缓冲区
而实际上在对应的这个当中会存在一个void* private_data,那这个字段是什么意思呢?在源码的注释中显示的是这是需要一个对应的驱动等等的信息,想要理解它就必须要先看一下Socket结构体了:
当操作系统在创建网络套接字的时候,会创建出一大堆的数据结构,那其中有一个数据结构叫做struct socket
在这个结构体当中会存在一个file指针,这个socket会指向一个文件,而这个void的指针,也会反过来去指向这个socket结构体(如果这是一个网络文件的话),所以说Linux下一切皆文件,最终网络文件会挂接在这个struct file之下,未来在应用层看待的时候,只需要按照文件描述符,这样就能找到这个文件的socket,而在这个socket结构体当中又存在一个__wait_queue_head,这说明是在进程阻塞等待的时候,实际上就是要把自己的PCB链入到指定的数据结构中,那么现在在网络中也是,当网络里面读取的数据不就绪的时候,那么就会把当前网络文件也会挂接到对应的阻塞队列当中
那在创建套接字的时候,TCP和UDP是如何被创建的?其实在内核当中是使用了一个类似于C语言多态的感觉:
不管是tcp_sock还是udp_sock,它们的最前面的字段都是叫做是struct sock,而在这个结构体当中就会存在对应的接收缓冲区和发送缓冲区,根据socket的标记位,就可以确定到底是TCP还是UDP,如果是TCP就把这个发送接收缓冲区进行初始化,如果是UDP就不管它
在文件当中会存在文件对应的方法集,如果它指向的是磁盘,那么就代表的是磁盘对应的读写方法,但如果是指向的是一个网络,那么就是网络相关的读写方法,那在socket当中也有对应的网络方法,那这两个方法有什么区别?
在struct file这样的结构体当中,它负责解决的网络方面的方法其实是对上层的方法,因为当前数据是在应用层的,那么数据想要进入文件描述符中一定是要想办法从应用层拷贝到传输层当中,如何拷贝?其实依靠的就是这个文件描述符,然后拷贝到接收缓冲区中,那下一步要做的就是把处于传输层的数据再想办法拷贝到下一层当中,所以从本质上来说,每一层的所谓的方法集,本质上就是把数据进行加工,进行解析和处理,然后把数据再进行一步一步的拷贝,因此TCP它把数据发出去了吗?其实根本没有,它在底层就是把数据做了它自己的加工,然后把数据传递到了下层当中,TCP和UDP压根不会把数据发出去,只是会用对应的网络协议栈的方法来对于数据做加工,然后再把数据传递下去
所以每一个文件描述符就都会对应上面的这么一套系统,每需要进行发送一次消息就要建立这么一套信息,而操作系统当中必定会存在很多这样的报文,那么操作系统必然要对于收到的这些或者要发出去的报文做管理,那管理工作是如何进行管理的?
struct sk_buff_head {
/* These two members must be first. */
struct sk_buff *next;
struct sk_buff *prev;
__u32 qlen;
spinlock_t lock;
};
在这个当中看到了锁的存在,如何理解锁?因为在内核当中对于数据的加工,本质上就是一种生产消费者模型,所以是需要有自旋锁这样的锁存在的
sk_buff该如何理解?用下面这个图来进行表示:
这四个指针会进行相互配合,能够表示出对应的报头和有效载荷,它本质上就是内存中的一部分空间,所以对应一个数据在网络协议栈进行传输,本质上就是让上面的这个结构在网络协议栈当中进行流动,换句话说,所谓的添加报头还是删除报头,就是让头指针不断移动,向上就是新增报头,向下就是删除报头,从而实现了封装和解包的操作
所以,封装和解包只需要进行移动指针
网络协议栈是一个层状结构,有传输层网络层等等,所以所谓的协议栈本质上就是用特定数据结构表述的协议,并且也是和特定协议匹配的方法集,这个如何理解?
在传输层之前,所有的报文都是在一起的,当传输到传输层之后,就会根据不同的报文类型,把报文传递到对应的文件描述符所对应的socket下,这样就能做到对于报文做管理的工作,而所谓的方法就是用指针移动来进行添加报头,就实现了加协议和去协议这样的操作效果
所以未来,应用层想要获得报文,操作系统内部就要想办法通过上面那张图所示的这么一系列方法,来从对应的接收缓冲区中把数据拿上来就可以了,这样的思想很符合所谓的先描述再组织,用sk_buff来进行描述,用队列来进行组织,这样就实现了先描述再组织的操作
那现在对于封装和解包的理解应该上升到这样的程度:所谓的封装和解包,其实就是在传输层,网络层,数据链路层进行不断的封装,并且都是在对应的缓冲区当中进行操作就可以,这样避免了频繁的拷贝,只是使用头指针的移动就可以了
至此,就把文件系统和网络系统关联起来了