1、http是应用层协议
统一资源定位符:
例如 http://www.jd.com是个URL,http是协议,www.jd.com是域名,表示互联网上的一个位置,有些url的资源定位会更清晰,比如http://www.jd.com/index.html
2、HTTP 请求的准备
1.浏览器会将 www.jd.com 这个域名发送给 DNS 服务器,让它解析为 IP 地址.(后面的文章会详解DNS)
2.建立 TCP 连接,目前使用的 HTTP 协议大部分都是 1.1。在 1.1 的协议里面,默认是开启了 Keep-Alive 的,这样建立的TCP 连接,就可以在多次请求中复用。
3.建立了连接以后,浏览器就要发送 HTTP 的请求,请求报文格式如下:
第一部分:请求行
- 在请求行中,URL 就是 http://www.163.com ,版本为 HTTP 1.1。
- 方法分为:GET,POST,PUT
在实际使用过程中,POST,PUT有稍许的区别。POST 往往是用来创建一个资源的,而 PUT 往往是用来修改一个资源的。
第二部分:首部字段
3. 首部是 key value,通过冒号分隔。
例如,Accept-Charset,Content-Type等
4. 此处需要强调一点的是缓存,比如电商系统的商品页面,热点数据,秒杀场景下,需要做成缓存的,架构基本如下所示:
后面的文章会详解DNS和CDN,此处只简单说明Nginx.
Nginx是如何处理Http协议的呢?
5. 对于静态资源,有 Vanish 缓存层。当缓存过期的时候,才会访问真正的 Tomcat 应用集群。
1.在 HTTP 头里面,Cache-control是用来控制缓存的。
2.当客户端发送的请求中包含 max-age 指令时,如
果判定缓存层中,资源的缓存时间数值比指定时间的数值小,那么客户端可以接受缓存的资源;当指定max-age 值为 0,那么缓存层通常需要将请求转发给应集群。
3.If-Modified-Since也是一个关于缓存的。也就是说,如果服务器的资源在某个时间之后更新了,
那么客户端就应该下载最新的资源;如果没有更新,服务端会返回“304 Not Modified”的响应,那客户端就不用下载了,也会节省带宽。
HTTP 请求的发送
1.HTTP 协议是基于 TCP 协议的,所以它使用面向连接的方式发送请求,通过 stream 二进制流的方式传给对方
2.到了 TCP 层,它会把二进制流变成一个个的报文段发送给服务器。
3.在发送给每个报文段的时候,都需要对方有一个回应 ACK,来保证报文可靠地到达了对方。
4.如果没有回应,那么 TCP 这一层会进行重新传输,直到可以到达。同一个包有可能被传了好多次。
5.TCP 层发送每一个报文的时候,都会加上源地址和目标地址,放到 IP 头里面,交给 IP 层进行传输。
6.IP 层需要查看目标地址和自己是否是在同一个局域网。如果是,就发送 ARP 协议来请求这个目标地址对应的 MAC 地址,然后将源 MAC 和目标 MAC 放入 MAC 头,发送出去即可。
7.如果不在同一个局域网,就需要发送到网关,还要需要发送 ARP 协议,来获取网关的 MAC 地址,然后将源 MAC 和网关 MAC放入 MAC 头,发送出去。
8.网关收到包发现 MAC 符合,取出目标 IP 地址,根据路由协议找到下一跳的路由器,获取下一跳路由器的 MAC 地址,将包发给下一跳路由器。
9.这样路由器一跳一跳终于到达目标的局域网。这个时候,最后一跳的路由器能够发现,目标地址就在自己的某一个出口的局域网上。于是,在这个局域网上发送 ARP,获得这个目标地址的 MAC 地址,将包发出去。
10.目标的机器发现 MAC 地址符合,就将包收起来;发现 IP 地址符合,根据 IP 头中协议项,知道自己上
一层是 TCP 协议,于是解析 TCP 的头,里面有序列号,需要看一看这个序列包是不是我要的,如果是就放入缓存中然后返回一个 ACK,如果不是就丢弃。
11.TCP 头里面还有端口号,HTTP 的服务器正在监听这个端口号。于是,目标机器自然知道是 HTTP 服务
器这个进程想要这个包,于是将包发给 HTTP 服务器。HTTP 服务器的进程看到,原来这个请求是要访问一个网页,于是就把这个网页发给客户端
至此,一个http的页面请求就完成了。
HTTP 返回的构建
- HTTP 的返回报文也是有一定格式的。也是基于 HTTP 1.1
- 状态码会反应 HTTP 请求的结果
- 首部key value
Content-Type
Retry-After表示,告诉客户端应该在多长时间以后再次尝试一下。“503 错误”是说“服务暂时不再和这个值配合使用”。 - 然后把刚才的发送过程反向走一遍。虽然两次不一定走相同的路径,但是逻辑过程是一样的,一直到达客户端。
当浏览器拿到了 HTTP 的报文。发现返回“200”,一切正常,于是就从正文中将 HTML 拿出来。HTML 是一个标准的网页格式。浏览器只要根据这个格式,展示出一个绚丽多彩的网页。
这就是一个正常的 HTTP 请求和返回的完整过程。
HTTP 2.0
- HTTP 1.1 在应用层以纯文本的形式进行通信,每次通信都要带完整的 HTTP 的头,而且不考虑 pipeline模式的话,每次的过程总是像上面描述的那样一去一回。这样在实时性、并发性上都存在问题。
- 为了解决这些问题,HTTP 2.0 会对 HTTP 的头进行一定的压缩,将原来每次都要携带的大量 key value在两端建立一个索引表,对相同的头只发送索引表中的索引。
- HTTP 2.0 协议将一个 TCP 的连接中,切分成多个流,每个流都有自己的 ID,而且流可以是客户端发往服务端,也可以是服务端发往客户端。
- 其实只是一个虚拟的通道。流是有优先级的。
- HTTP 2.0 还将所有的传输信息分割为更小的消息和帧,并对它们采用二进制格式编码。常见的帧有Header 帧,用于传输 Header 内容,并且会开启一个新的流。再就是Data 帧,用来传输正文实体。多个 Data 帧属于同一个流
- 通过这两种机制,HTTP 2.0 的客户端可以将多个请求分到不同的流中,然后将请求内容拆成帧,进行二进制传输。这些帧可以打散乱序发送, 然后根据每个帧首部的流标识符重新组装,并且可以根据优先级,决定优先处理哪个流的数据。
举例:
假设我们的一个页面要发送三个独立的请求,一个获取 css,一个获取 js,一个获取图片 jpg。如果使用
HTTP 1.1 就是串行的,但是如果使用 HTTP 2.0,就可以在一个连接里,客户端和服务端都可以同时发送多个请求或回应,而且不用按照顺序一对一对应。
HTTP 2.0 其实是将三个请求变成三个流,将数据分成帧,乱序发送到一个 TCP 连接中。
优点:
7. HTTP 2.0 成功解决了 HTTP 1.1 的队首阻塞问题,
8. 也不需要通过 HTTP 1.x 的 pipeline 机制用多条 TCP 连接来实现并行请求与响应;减少了 TCP 连接数对服务器性能的影响