第三十三篇:TCP协议如何避免/减少网络拥塞,TCP系列八

一、流量控制

一般来说,我们总是希望数据传输得更快一些,但是如果发送方把数据发送得太快,接收方可能来不及接收,造成数据的丢失,数据重发,造成网络资源的浪费甚至网络拥塞。所谓的流量控制(flow control)就是让发送方的发送速率不要太快,要让接收方来得及接收。利用滑动窗口机制,就可以很方便的在TCP连接上实现流量控制。

滑动窗口机制使用关闭窗口控制发送方发送数据。发送方持续发送报文,但是接收方处理不过来,那就是浪费网络资源。

使⽤ Nagle 算法,用于自动连接许多的小缓冲消息;尽可能发送大块数据,避免网络中充斥着许多小数据块浪费网络资源

二、拥塞控制

网络是一个相当复杂的环境,我们发送数据不能只考虑交互两端的情况,基于交互两端的情况做出流量控制是不够的,我们还需要考虑网络的情况,网络上的包就像来来往往的车流,如果没有管制,那将是灾难的,试想,如果在十字路口没有红绿灯还没有交警,那将会发生什么?

1. 拥塞的形成

如上图,当数据到达一个大的管道(如一个快速局域网)并向一个较小的管道(如一个较慢的广域网)发送时便会发生拥塞。当多个输入流到达一个路由器,而路由器的输出流小于这些输入流的总和时也会发生拥塞。

上图显示了一个典型的大管道向小管道发送报文的情况。之所以说它典型,是因为大

多数的主机都连接在局域网上,并通过一个路由器与速率相对较低的广域网相连(我们再次

假定图中上半部分的报文段(9 ~ 20)都是相同的,而图中下半部分的 ACK也都是相同的)。

在该图中,我们已经标记路由器 R1为“瓶颈”,因为它是拥塞发生的地方。假定瓶颈路由器具有足够的容纳这 20个分组的缓存。那么将正常进行,否则,就会引起路由器丢弃分组。

而在TCP的实现上,数据包发送出去,我们通过一个计时器timer采样了RTT并计算RTO,如果因为网络拥堵,网络包应答超时或丢失,那么发送方将重发,而本身网络就处理能力有限而且拥堵,这时候还重发,试想如果成千上万的网络包都这样,这无疑雪上加霜,形成“网络风暴”,最后网络瘫痪。

2.拥塞窗口

前面我们说过,如果我们采用一问一答的方式,即我发送一个包,你应答一次,然后我再发送下一个包,这传输速率显然很慢,严重影响我们的用户体验,所以我们制定了一个策略:窗口控制滑动窗口,即相应数量以内的包在未被确认的情况下,发送方也能继续发送,这提高了数据的传输速度。

下图为滑动窗口的初步商定:

但是我们只考虑发送方和接收方的情况下而进行窗口大小的设定,如果窗口过大发送方一股脑的将数据快速传输出去而网络的传输能力又有限就会导致包的传输超时或者丢包

所以我们需要在上面窗口大小的基础上加上“网络传输能力”的限制这个窗口的大小就是拥塞窗口对拥塞窗口大小的调整就是拥塞控制

注意前面我们说过发送窗口的大小受到接收方窗口大小和拥塞窗口大小的限制

发送窗⼝的值是swnd = min(cwnd, rwnd),也就是拥塞窗⼝和接收窗⼝中的最⼩值。

拥塞窗⼝ cwnd是发送⽅维护的⼀个的状态变,它会根据⽹络的拥塞程度动态变化的

3. 什么影响拥塞窗口的大小?

        1)网络没有拥塞,拥塞窗口就会变大

        2)网络有拥塞,拥塞窗口就会变小

另外,“网络是否拥塞”是通过是否发生了超时重传,超时重传就认为网络拥塞。

4. 了解TCP拥塞控制的前提

        1)假设接收方的总是有足够大的缓冲区,发送方的发送窗口仅由网络的拥塞程度决定,不考虑接收方的接收窗口大小(事实上发送窗口的大小由拥塞窗口和接收方的接收窗口大小共同控制)

        2)以最大报文段MSS的个数作为讨论单位,而不是以字节为单位

发送窗口拥塞窗口接收窗口实际都是以字节为单位但是为了更好的探讨使用报文段(MSS)为单位

        3)发送方以n个包的发送为一轮(在这n个包的发送过程内,不用考虑接收方是否应答)

5. 拥塞控制主要是四个方法(算法)

        1)慢启动,

        2)拥塞避免,

        3)拥塞发生,

        4)快速恢复。

三次握手后,通过报文中的MSS选项得知通信双方最大报文的大小、窗口大小即滑动窗口大小。

TCP模块通常将MSS设置为(MTU-40)字节(减掉的这40字节包括20字节的TCP头部和20字节的IP头部)。这样携带TCP报文段的IP数据报的长度就不会超过MTU(假设TCP头部和IP头部都不包含选项字段,并且这也是一般情况),从而避免本机发生IP分片。对以太网而言,MSS值是1460(1500-40)字节。

窗口大小随着数据发送不断变化,发送端开始发送数据。

1)慢启动


前面我们讲到,发送端为了提高网络效率,不会发送一个确认一个,而是在一定范围内的报文发送不需要应答也能继续发送数据。于是有了滑动窗口。

同理,我们也不能上来就一股脑的发送报文数据,这会导致,接收端处理不过来,丢包;网络传输不过来,产生拥塞。

所以我们需要慢慢来,一步步的提高传输窗口,试探网络的承受能力,达到一个合理的值。

慢启动的规则

  1. 当发送⽅每收到⼀个 ACK,拥塞窗⼝ cwnd 的⼤⼩就会加 1个MSS单位大小的字节数。
  2. 慢启动的拥塞窗口增加也不是没有上限的,有时我们会达到中间路由器的极限,此时分组将被丢弃。所以需要一个门限ssthresh,初始值为65535个字节。拥塞窗口初始化大小为1个MSS单位大小的字节数。
  3. 当慢启动阶段的拥塞窗口大小增长到门限ssthresh的时候,慢启动阶段结束,进入拥塞避免阶段。

可以看出慢启动算法,发包的个数是指数性的增⻓。

每个报文的应答确认ACK都会让拥塞窗口增加一个MSS单位的大小,如上图,第一个往返时间内的ACK让cwnd增加一个MSS的字节数,第二个往返时间段内发送2个,返回两个ACK,让窗口变成4个MSS大小的字节数,一次类推,直到cwnd >= ssthresh,停止慢启动,变为拥塞避免即这个时候就要注意增长不要让网络拥塞了需要更小心的试探网络让增长的幅度减小

2)拥塞避免


慢启动阶段停止,进入拥塞避免阶段,这个阶段就是更加小心的慢慢试探网络情况,所以增长的幅度降低。

拥塞避免规则

  1. 变成了每次ACK增长1/cwnd个单位的MSS,cwnd为本次往返时间内的拥塞窗口大小,MSS为最大报文段大小。那么本次往返时间段内共增加了1个MSS单位大小的字节数。
  2. 拥塞避免阶段也不可能无休止的增长上去,当触发了重传机制,也就进⼊了「拥塞发⽣算法」。

3)拥塞发生


当⽹络出现拥塞,也就会发⽣数据包重传,重传机制主要有两种:

  1. 超时重传
  2. 快速重传

超时重传拥塞发生时的算法规则

  1. 网络是复杂的,发生超时重传,发送方压根不知道网络发生了什么,只能往最坏的情况去想,我们假设网络拥堵严重,此时就只能让拥塞窗口即cwnd = 1MSS字节,重新试探网络。
  2. 既然是重新试探网络,则重新启动慢启动阶段。
  3. 但是由于第一次的教训,为了避免给网络添堵,sshthresh =  cwnd /2,cwnd为发生超时重传时的拥塞窗口大小。

简要概括就是

  1. cwnd = 1MSS字节,可谓是一夜回到解放前。
  2. sshthresh =  cwnd /2,cwnd为发生超时重传时的拥塞窗口大小。
  3. 进入慢启动阶段。

快速重传,拥塞发生时的算法规则

上面那种发生超时重传,网络流量断崖式下跌,这是武断的,所以人们在已有的基础上进行了改进,在收到3个重复的 ACK时就开启重传,而不用等到RTO超时,导致流量断崖式下跌。因为TCP认为,你都收到ACK了,说明网络也没有那么差。

快速重传有两种实现方式TCP Tahoe、TCP Reno。

  • TCP Tahoe的实现和RTO超时一样。
  • TCP Reno的实现是:
  1. cwnd = cwnd /2
  2. sshthresh = cwnd
  3. 进入快速恢复算法——Fast Recovery

4)快速恢复算法 Fast Recovery


快速重传和快速恢复算法一般同时使用。快速恢复算法是认为,你还有3个Duplicated Acks说明网络也不那么糟糕,所以没有必要像RTO超时那么强烈。 注意,正如前面所说,进入Fast Recovery之前,cwnd 和 sshthresh已被更新:

  1. cwnd = cwnd /2
  2. sshthresh = cwnd

快速恢复的算法规则如下

TCP Reno版本

  1. cwnd = sshthresh  + 3 * MSS (3的意思是确认有3个数据包被收到了)
  2. 重传3个重复ACK指定的数据包
  3. 如果再收到3个重复的ACK一样的ACK,那么认为重传成功,此时cwnd = cwnd +1MSS单位字节
  4. 如果收到了新的ACK,那么,cwnd = sshthresh ,然后就进入了拥塞避免的算法了。

TCP New Reno版本

上面这个算法也有问题,那就是——它依赖于3个重复的ACK。注意,3个重复的ACK并不代表只丢了一个数据包,很有可能是丢了好多包。但这个算法只会重传一个,而剩下的那些包只能等到RTO超时重传,于是,进入了恶梦模式——超时一个窗口就减半一下,多个超时会超成TCP的传输速度呈级数下降,而且也不会触发Fast Recovery算法了。

通常来说,正如我们前面所说的,SACK或D-SACK的方法可以让Fast Recovery或Sender在做决定时更聪明一些,但是并不是所有的TCP的实现都支持SACK(SACK需要两端都支持),所以,需要一个没有SACK的解决方案。而通过SACK进行拥塞控制的算法是FACK。

于是,1995年,TCP New Reno(参见 RFC 6582 )算法提出来,主要就是在没有SACK的支持下改进Fast Recovery算法。

  • 当sender这边收到了3个Duplicated Acks,进入Fast Retransimit模式,开发重传重复Acks指示的那个包。如果只有这一个包丢了,那么,重传这个包后回来的Ack会把整个已经被sender传输出去的数据ack回来。如果没有的话,说明有多个包丢了。我们叫这个ACK为Partial ACK。
  • 一旦Sender这边发现了Partial ACK出现,那么,sender就可以推理出来有多个包被丢了,于是乎继续重传sliding window里未被ack的第一个包。直到再也收不到了Partial Ack,才真正结束Fast Recovery这个过程。

我们可以看到,这个“Fast Recovery的变更”是一个非常激进的玩法,他同时延长了Fast Retransmit和Fast Recovery的过程。

5)其他算法


TCP Vegas 拥塞控制算法

这个算法1994年被提出,它主要对TCP Reno 做了些修改。这个算法通过对RTT的非常重的监控来计算一个基准RTT。然后通过这个基准RTT来估计当前的网络实际带宽,如果实际带宽比我们的期望的带宽要小或是要多的活,那么就开始线性地减少或增加cwnd的大小。如果这个计算出来的RTT大于了Timeout后,那么,不等ack超时就直接重传。(Vegas 的核心思想是用RTT的值来影响拥塞窗口,而不是通过丢包) 这个算法的论文是《TCP Vegas: End to End Congestion Avoidance on a Global Internet》这篇论文给了Vegas和 New Reno的对比:

关于这个算法实现,你可以参看Linux源码:/net/ipv4/tcp_vegas.h, /net/ipv4/tcp_vegas.c

HSTCP(High Speed TCP) 算法

这个算法来自RFC 3649(Wikipedia词条)。其对最基础的算法进行了更改,他使得Congestion Window涨得快,减得慢。其中:

  1. 拥塞避免时的窗口增长方式: cwnd = cwnd + α(cwnd) / cwnd
  2. 丢包后窗口下降方式:cwnd = (1- β(cwnd))*cwnd

注:α(cwnd)和β(cwnd)都是函数,如果你要让他们和标准的TCP一样,那么让α(cwnd)=1,β(cwnd)=0.5就可以了。 对于α(cwnd)和β(cwnd)的值是个动态的变换的东西。 关于这个算法的实现,你可以参看Linux源码:/net/ipv4/tcp_highspeed.c

 TCP BIC 算法

2004年,产内出BIC算法。现在你还可以查得到相关的新闻《Google:美科学家研发BIC-TCP协议 速度是DSL六千倍》 BIC全称Binary Increase Congestion control,在Linux 2.6.8中是默认拥塞控制算法。BIC的发明者发这么多的拥塞控制算法都在努力找一个合适的cwnd Congestion Window,而且BIC-TCP的提出者们看穿了事情的本质,其实这就是一个搜索的过程,所以BIC这个算法主要用的是Binary Search——二分查找来干这个事。 关于这个算法实现,你可以参看Linux源码:/net/ipv4/tcp_bic.c

TCP WestWood算法

westwood采用和Reno相同的慢启动算法、拥塞避免算法。westwood的主要改进方面:在发送端做带宽估计,当探测到丢包时,根据带宽值来设置拥塞窗口、慢启动阈值。 那么,这个算法是怎么测量带宽的?每个RTT时间,会测量一次带宽,测量带宽的公式很简单,就是这段RTT内成功被ack了多少字节。因为,这个带宽和用RTT计算RTO一样,也是需要从每个样本来平滑到一个值的——也是用一个加权移平均的公式。 另外,我们知道,如果一个网络的带宽是每秒可以发送X个字节,而RTT是一个数据发出去后确认需要的时候,所以,X * RTT应该是我们缓冲区大小。所以,在这个算法中,ssthresh的值就是est_BD * min-RTT(最小的RTT值),如果丢包是Duplicated ACKs引起的,那么如果cwnd > ssthresh,则 cwin = ssthresh。如果是RTO引起的,cwnd = 1,进入慢启动。   关于这个算法实现,你可以参看Linux源码: /net/ipv4/tcp_westwood.c

拥塞算法示意图

以上就是拥塞控制的全部内容了,看完后,你再来看下⾯这张图⽚,每个过程我相信你都能明⽩:

拥塞避免是发送方使用的流量控制,而通告窗口则是接收方进行的流量控制。前者是发送方感受到的网络拥塞的估计,而后者则与接收方在该连接上的可用缓存大小有关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/903912.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Flutter Image和Text图文组件实战案例

In this section, we’ll go through the process of building a user interface that showcases a product using the Text and Image widgets. We’ll follow Flutter’s best practices to ensure a clean and effective UI structure. 在本节中,我们将使用“Te…

---synchronized 关键字---

在多线程编程中,由于代码的并发执行,导致了不同的线程在修改相同的变量会导致变量的值错误 比如 变量 c 2,这里有线程A 和 B一起使用 c变量并对他加1,这时就会有多中情况 这里要注意的是变量c是储存在内存中的,而线…

EDA --软件开发之路

之前一直在一家做数据处理的公司,从事c开发,公司业务稳定,项目有忙有闲,时而看下c,数据库,linux相关书籍,后面跳槽到了家eda公司,开始了一段eda开发之路。 eda 是 electric design …

分布式 ID 生成策略(二)

在上一篇文章,分布式 ID 生成策略(一),我们讨论了基于数据库的 ID 池策略,今天来看另一种实现,基于雪花算法的分布式 ID 生成策略。 如图所示,我们用 41 位时间戳 12 位机器 ID 10 位序列号&a…

大数据新视界 -- 大数据大厂之大数据重塑影视娱乐产业的未来(4 - 3)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

【数据库设计】规范设计理论之范式

学习完函数依赖之后我们就可以以函数依赖的定义为依据来规范设计数据库了。范式(normal form)的意思是规范的程度,如第一范式第二范式第三范式,数字越大说明规范程度越高。让数据库满足某一范式实际上是在消除函数依赖的过程&…

VisualStudio2022配置2D图形库SFML

文章目录 1. 下载安装SFML库2. 创建C项目并配置SFML配置include目录和库目录链接SFML库配置动态链接库 3. 测试 1. 下载安装SFML库 SFML(Simple and Fast Multimedia Library)C库,适合2D游戏和图形界面,提供了以下模块&#xff1…

Python(pandas库3)

函数 随机抽样 语法: n:要抽取的行数 frac:抽取的比例,比如 frac0.5,代表抽取总体数据的50% axis:示在哪个方向上抽取数据(axis1 表示列/axis0 表示行) 案例: 输出结果都为随机抽取。 空…

MATLAB锂电概率分布模型

🎯要点 概率分布等效电路模型结合了路径相关速率能力及状态估计中滞后效应。纠正了充电状态中时间误差累积及避免开路电压中电压滞后现象。使用电流方向和电池容量相关函数描述开路电压,并使用微分方程描述电压滞后现象。模型结构基于一级相变的材料机制…

2024.10.9华为留学生笔试题解

第一题无线基站名字相似度 动态规划 考虑用动态规划解决 char1=input().strip() char2=input().strip() n,m=len(char1),len(char2) dp=[[0]*(m+1) for _ in range(n+1)] #dp[i][j]定义为以i-1为结尾的char1 和以 j-1为结尾的char2 的最短编辑距离 setA = set(wirel@com) set…

力扣21 : 合并两个有序链表

链表style 描述: 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例: 节点大小相同时,l1的节点在前 何解? 1,遍历两个链表,挨个比较节点大小 同时遍…

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第六十七章 Trusted Firmware-A 移植

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器,既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构,主频650M、1G内存、8G存储,核心板采用工业级板对板连接器,高可靠,牢固耐…

基于海思soc的智能产品开发(音视频处理的三个方向)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 音视频处理这个需求一直都有,那我们为什么需要soc来处理音视频。或者说,用soc来处理音视频有什么好处?传统的pc…

msvcr100.dll丢失怎样修复,介绍6个简单靠谱的方法

msvcr100.dll是Microsoft Visual C 2010 Redistributable Package中的一个关键动态链接库文件。该文件包含了运行基于Visual Studio 2010编译的应用程序所必需的一系列函数和资源。具体来说,它提供了C运行时库的支持,使得许多使用Visual C库编译的应用程…

雷池社区版compose配置文件解析-mgt

在现代网络安全中,选择合适的 Web 应用防火墙至关重要。雷池(SafeLine)社区版免费切好用。为网站提供全面的保护,帮助网站抵御各种网络攻击。 compose.yml 文件是 Docker Compose 的核心文件,用于定义和管理多个 Dock…

并发编程的深入探索(3/5)

目录 1. Java线程模型 示例代码:创建线程的两种方式 2. 同步机制与锁 示例代码:synchronized的使用 显式锁(ReentrantLock) 3. Java并发工具包(java.util.concurrent) 线程池(Executor F…

gcc与mingw64版本介绍

三类编译器 GCC,全称为GNU Compiler Collection,是一个强大的编译器集合,它不仅支持C和C语言,还支持Fortran、Ada、Java等多种编程语言的编译。在GCC工具链中,gcc和g是两个核心的编译器工具。gcc是专门用于编译C语言程…

PostgreSQL使用clickhouse_fdw访问ClickHouse

Postgres postgres版本:16(测试可用)docker 安装 插件安装 clickhouse_fdw: https://github.com/ildus/clickhouse_fdw 安装命令 git clone gitgithub.com:ildus/clickhouse_fdw.git cd clickhouse_fdw mkdir build && cd build…

【高级IO】IO多路转接之epoll

epoll接口 epoll_create 创建一个epoll模型 自从linux2.6.8之后,size参数是被忽略的返回值是一个文件描述符用完之后, 必须调用close()关闭 epoll_ctl epoll_ctl用于添加、修改或删除关注的文件描述符,并设置感兴趣的事件类型(如读事件、写…

windows 11 mpksldrv.sys 导致蓝屏

#mpksldrv.sys 导致蓝屏 windows 11 在运行Twincat 3进行仿真时,就会蓝屏 尝试了各种其他的办法修改什么注册表,各种办法都尝试了没有用, 后面尝试了下面的办法竟然解决了,请参考下面链接: 链接: 两条命令可以帮助你…