理解TCP全连接队列与tcpdump抓包
- 1 TCP 全连接队列
- 1.1 重谈listen函数
- 1.2 初步理解全连接队列
- 1.3 深入理解全连接队列
- 2 tcpdump抓包
1 TCP 全连接队列
1.1 重谈listen函数
这里我们使用之前实现的tcp_echo_server
的客户端与服务端。
我们来看listen
LISTEN(2) Linux Programmer's Manual
NAME
listen - listen for connections on a socket
SYNOPSIS
#include <sys/types.h> /* See NOTES */
#include <sys/socket.h>
int listen(int sockfd, int backlog);
这里的第二个参数我们之前设置的是一个const常量,但是这个到底代表什么含义呢?今天我们就来学习一下。
当我们启动客户端和服务端时,我们能够通过netstat -natp
查找到建立的两个连接!
分别是客户端到服务端与服务端到客户端的连接!我们将服务端的的accept注释掉来看:
void Loop()
{
_isrunning = true;
while (_isrunning)
{
sleep(1);
// accept接收sockfd
// struct sockaddr_in client;
// socklen_t len = sizeof(client);
// int sockfd = ::accept(_listensockfd, (struct sockaddr *)&client, &len);
// if (sockfd < 0)
// {
// LOG(WARNING, "accept error\n");
// sleep(1);
// continue;
// }
// InetAddr addr(client);
// // 读取数据
// LOG(INFO, "get a new link, client info : %s, sockfd is : %d\n", addr.AddrStr().c_str(), sockfd);
// version 4 --- 线程池版本
// task_t t = std::bind(&TcpServer::Service , this , sockfd , addr);
// ThreadPool<task_t>::GetInstance()->Equeue(t);
}
这里的服务端的启动后,就只进行了初始化套接字文件,不会进行accept!
我们看这个结果中,服务端和客户端还是建立起了连接!也就是说三次握手建立连接的过程与服务端是否进行accept
无关!
当我们启动多个客户端进程之后,会发现有一些客户端进程的连接处于SYN_SENT
状态,因为在服务器来不及进行accept
的时候,底层的TCP listen sock 允许用户进行三次握手建立连接,但是不能建立太多!**这个数量就是backlog + 1
!**而维护的成功连接在操作系统维护的数据结构就是全连接队列!
- listen函数中 backlog 的含义就是全连接队列中已经建立三次握手成功的个数!
这时我们就能够理解listen函数的两个参数了!
- int sockfd:sockfd是调用socket函数创建的套接字文件描述符。在调用listen之前,服务器应用程序必须先用socket函数创建一个套接字,一般使用bind函数将其绑定到一个本地地址和端口上。
- int backlog:backlog指定了在拒绝新的连接请求之前,系统应该为该套接字排队的最大连接数量。这个参数对防止过载很有用,它控制了未完成连接(SYN_RCVD状态)队列和已完成但还未被应用程序的accept调用接收的连接(ESTABLISHED状态)队列的总和的大小。
1.2 初步理解全连接队列
在操作系统中有应用层,传输层,网络层…在传输层中有一个接收队列accept_queue
,建立连接时就进行三次握手。操作系统中用户访问的网站多种多样,并且会并发的运行,所以在操作系统内部一定是要通过数据结构来进行管理的!
- 连接本质就是操作系统内核中的一批数据结构!
在传输层中将这个数据结构放入队列中进行管理!应用层会调用accept
获取连接,传输层就会返回给一个文件描述符供应用层使用,通过这个文件描述符,应用层就可以进行通信!这个队列就是全连接队列!
当应用层非常忙,来不及accept
,那么全连接队列中会挤压连接,这个总数不能超过 backlog !这个并不代表服务端只能同时处理 backlog + 1个连接。全连接队列中的连接表示连接成功但来不及及时处理的连接!
- 全连接队列的本质就是生产消费模型,应用层从其中获取资源,传输层向其中放入资源!这个队列保证了在应用层较忙时无法获取连接时,可以先将一些连接维护起来,等待应用层调用,这样可以大大提升效率,提高连接吞吐量!增加服务端闲置率,减少给用户提供服务的效率和体验!
1.3 深入理解全连接队列
当服务器启动时,本质上是启动一个进程,那么就会有对应的task_struct
。在这个结构体中都会有struct files_struct
!其中包含文件描述符表struct file*fd_array[]
,每个元素都指向文件结构体struct file
。
当创建网络套接字时,会创建一个struct socket
结构体!在内核中时这样一个结构:
可以看到struct socket
结构体内部有一个struct file
结构体,但是未来我们是想通过文件描述符找到对应的套接字,然后进行读取数据。可是现在是struct socket
结构体内部有一个struct file
结构体,如果通过struct file
结构体找到套接字呢?
在struct file
结构体有一个指针void* private_data
,这个指针指向struct socket
结构体。这样两个结构体就联系起来了!
struct socket
结构体是网络Socket的入口,其内部还包含一个const struct proto_ops
结构体
这是一个方法集,集合了bind,connect…一系列的函数指针!
虽然我们struct socket
结构体是内核中的套接字结构,但建立连接时真实的数据结构是tcp_sock
结构体!
这是TCP套接字,其中包含了慢启动算法阈值,拥塞窗口大小,关联进程…一系列TCP协议中的对应字段!这个tcp_sock
就是三次握手时候建立的结构体!其中的第一个成员struct inet_connection_sock
是复制连接属性的!这里就包含连接的相关信息。全连接队列就在这个结构体中!
这里有超时重传的触发时间,TCP 连接的状态,握手失败重试次数,全连接队列…等数据。
全连接队列中时这样的结构:
struct inet_connection_sock
中的第一个成员是struct inet_sock
结构体,这是网络层的结构体。
struct inet_sock
结构体其中包含了目的端口号,源端口号,目的 IP 地址和源 IP 地址等数据!更重要的是其中第一个成员是struct sock
结构体,里面包含着报文的一些属性。这是整个tcp_sock
中最底层的结构体,其中有两个字段:接收队列和发送队列
struct sk_buff_head sk_receive_queue;
struct sk_buff_head sk_write_queue;
这两个队列对于网络通信至关重要,因为它们直接参与了数据的接收和发送过程。今天不详细讲解。
我们再回过来看struct socket
,其中有一个结构体指针struct sock* sk
,这个指针可以指向tcp_sock
中最底层的struct sock
结构体,然后可以通过类型转换,最终读取到整个tcp_sock
结构体!也就是说,这个指针指向了tcp_sock
结构体!这是C风格的多态!
同样的创建UDP套接字时,udp_sock
的第一个成员是struct inet_sock
结构体(因为udp不需要连接所以没有包含连接属性结构体)。那么最终也是一个struct sock
结构体,所以也可以通过C风格的多态实现!
通过基类struct socket,我们可以进行tcp和udp的通信,所以说他是网络socket的入口。
此时,我们看上图,可以直观的理解套接字的结构。每当创建网络套接字时就会创建一个socket文件。这个文件中会指向通用socket,这个通用socket可以指向TCP结构体或UDP结构体。
三次握手建立一个连接时,主要是创建tcp_sock
或udp_sock
, 两者的区别就是是否包含连接属性结构体!然后就将这个结构体放入到全连接队列中去!获取连接时,会通过sock_map_fd
方法,将sock套接字转换为文件描述符!
2 tcpdump抓包
现在我们已经学习完毕了TCP协议的内容,熟悉了TCP报头结构中各个字段的意义,了解了三次握手和四次挥手的过程。接下来我们落实一下动手能力—进行抓包。
Linux系统中我们使用TCPDump :TCPDump 是一款强大的网络分析工具, 主要用于捕获和分析网络上传输的数据包。
tcpdump 通常已经预装在大多数 Linux 发行版中。 如果没有安装, 可以使用包管理器进行安装。 例如 Ubuntu系统可以使用以下命令安装:
sudo apt-get update
sudo apt-get install tcpdump
我们接下来在我们的云服务器进行一些抓包!
通过 sudo tcpdump -i any tcp
命令,我们可以看到实时传输的数据包!
- -i any 指定捕获所有网络接口上的数据包, i 可以理解成为 interface “界面”的意思.
- tcp 指定捕获 TCP 协议的数据包。
我们如果想要捕获特定源或目的源IP地址的TCP报文呢?
使用 host 关键字可以指定源或目的 IP 地址。 例如, 要捕获源 IP 地址为192.168.1.100 的 TCP 报文, 可以使用以下命令:
$ sudo tcpdump src host 192.168.1.100 and tcp
要捕获目的 IP 地址为 192.168.1.200 的 TCP 报文, 可以使用以下命令:
$ sudo tcpdump dst host 192.168.1.200 and tcp
同时指定源和目的 IP 地址, 可以使用 and 关键字连接两个条件:
$ sudo tcpdump src host 192.168.1.100 and dst host 192.168.1.200 and tcp
我们如果想要捕获特定端口的TCP报文呢?
使用 port 关键字可以指定端口号。 例如, 要捕获端口号为 80 的 TCP 报文(通常是HTTP 请求), 可以使用以下命令:
$ sudo tcpdump port 80 and tcp
保存捕获的数据包到文件与读取
使用 -w 选项可以将捕获的数据包保存到文件中, 以便后续分析。 例如:
$ sudo tcpdump -i eth0 port 80 -w data.pcap
这将把捕获到的 HTTP 流量保存到名为 data.pcap 的文件中。
• 了解: pcap 后缀的文件通常与 PCAP(Packet Capture) 文件格式相关, 这是一种用于捕获网络数据包的文件格式,不能通过直接的cat读取!
使用 -r 选项可以从文件中读取数据包进行分析。 例如:
sudo tcpdump -r data.pcap
注意事项
- 使用 tcpdump 时, 请确保你有足够的权限来捕获网络接口上的数据包。 通常, 你需要以 root 用户身份运行 tcpdump。
- 使用 tcpdump 的时候, 有些主机名会被云服务器解释成为随机的主机名, 如果不想要, 就用-n 选项
- 主机观察三次握手的第三次握手, 不占序号
通过抓包我们可以验证三次握手和四次挥手的过程:
可以看到是第一次是SYN请求,第二次是SYN+ACK,第三次是ACK!通信过程中也把窗口大小确定了!
可以看到四次会受到过程!这里因为服务端和客户端同时断开连接,所以中间两次的挥手合并为一次通信,通过ACK序号和确认序号可以确定!!!我们可以通过sleep将服务端和客户端断开的时间错开
这样就是完整的四次挥手!